Συμφραστικοί Πίνακες
Εισαγωγή στον Συμφραστικό Πίνακα
Γιώργος Σεφέρης (Ποιητικό έργο)
Η ηλεκτρονική επεξεργασία
Σε μια πρώτη φάση πληκτρολογήθηκε το κείμενο (base-text), που ταυτόχρονα μετατράπηκε, όπως σημειώθηκε, από πολυτονικό σε μονοτονικό. Στο κείμενο αυτό προστέθηκε σήμανση (tagging) σε XML, για να χωριστούν τα συμπεριλαμβανόμενα τμήματα κειμένου κατά τις ειδικές τους λειτουργίες (τίτλοι ποιημάτων και συλλογών, αφιερώσεις, motti, ημερομηνίες, ξενόγλωσσες λέξεις σε λατινικό αλφάβητο, η αρχή και το τέλος των στροφών και η σελιδαρίθμηση·η αρίθμηση των ποιημάτων και η στιχαρίθμησή τους έγινε με αυτόματο τρόπο)·επίσης, για να οριστούν ποια τμήματα δεν ενδιέφερε να συμπεριληφθούν στην αποδελτίωση του ΣΠΛ.
Το επόμενο βήμα ήταν να χρησιμοποιηθεί το πρόγραμμα "Concordance 2.0" του Rob Watt, ένα από τα καλύτερα του είδους, για να παραχθεί η πρώτη concordance με τη βοήθεια της προσημασμένης πληροφορίας. Το λαμπρό αυτό εργαλείο παρουσιάζει παραταύτα σοβαρά προβλήματα, όταν χειρίζεται ελληνικούς χαρακτήρες: αγνοεί ορισμένους χαρακτήρες όπως το τελικό σίγμα, ενώ η αλφαβητική ακολουθία του λατινικού αλφαβήτου διαφέρει από αυτή του ελληνικού. Χρειάστηκε όλα τα τονισμένα φωνήεντα να αντικατασταθούν από άλλα, καθώς το πρόγραμμα δεν αναγνωρίζει τα τονούμενα ά και Ά ως παραλλαγές του ίδιου γράμματος.[1] Το πρόβλημα επιλύθηκε με την αντιστοίχηση των ά Ά, έ Έ, ή Ή, ί Ί, ό Ό, ύ Ύ και ώ Ώ με αχρησιμοποίητους λατινικούς χαρακτήρες.
Ως προς τα συμφραζόμενα της έντυπης concordance: Όπως προαναφέρθηκε, θελήσαμε να δώσουμε όσο γίνεται πλουσιότερα συμφραζόμενα. Επιλέξαμε να δίνουμε ολόκληρη τη στροφή γύρω από τη μεμονωμένη λέξη, αν και γνωρίζαμε ότι το context αυτό θα αποδεικνυόταν υπέρ το δέον ευρύ για τις περισσότερες περιπτώσεις. Η οικονομία αποτελεί βασική αρχή στην εκπόνηση των ΣΠΛ, διότι ανήκει στη φύση των έργων αυτών να είναι πολλαπλάσιας έκτασης σε σχέση με τα πρωτότυπα κείμενα στα οποία στηρίζονται. (Στην περίπτωσή μας, από ένα αρχείο κείμενο-βάσης έκτασης 350 kb, πήραμε έναν ΣΠΛ της τάξεως των 115 ΜΒ σε ASCII.)
Αποφασίσαμε το context να μην ορίζεται με ομοιόμορφα μηχανικό τρόπο (λ.χ., με τον αριθμό χαρακτήρων, ένθεν και ένθεν εκάστου ΛΤ). Κάτι τέτοιο θα ενείχε τον προφανή κίνδυνο κάποτε να συμπεριλαμβάνονται άχρηστα τμήματα κειμένου, και να παραλείπονται άλλα με σημαντικές πληροφορίες. Εφόσον είχαμε ήδη συμφωνήσει ότι το context δεν θα ξεπερνούσε την ποιητική στροφή, και ότι ο κεντρικός ποιητικός στίχος θα διατηρούνταν ακέραιος, το ζήτημα ήταν πόσο context θα δινόταν επιπλέον του στίχου αυτού (αν αυτό ήταν μικρότερο της διαθέσιμης "αράδας της concordance"). Η μέγιστη αράδα ορίστηκε στους 86 χαρακτήρες (ή, συμπεριλαμβανομένης της αφανούς σήμανσης, στους 93 χαρακτήρες).
Επειδή χρειαστήκαμε έναν ορισμό των όρων «λέξη», «πρόταση», «παράγραφος», για τη σταδιακή μείωση του κάθε context, γράφηκε ένα πρόγραμμα σε Visual Basic for Applications στο Word 2000, που να κάνει τα εξής για κάθε context:
- να ορίζει τη σχετική λέξη-λήμμα και να την προσημαίνει, έτσι ώστε να μην χάνεται·
- να προσημαίνει και τον στίχο της λέξης-λήμματος·
- να ελέγχει το μέγεθος του context: εάν τούτο υπερβαίνει τους 123 χαρακτήρες (93 + 30), να απαλείφει τον τελευταίο στίχο (εκτός αν είναι ο στίχος που περιέχει τη λέξη-λήμμα)·αν πάλι είναι μεγαλύτερο των 123 χαρακτήρων, να απαλείφει τον πρώτο στίχο (εκτός αν είναι ο στίχος που περιέχει τη λέξη-λήμμα), και ούτω καθεξής, έως ότου το context γίνει μικρότερο των 123 χαρακτήρων, ή έως ότου απομείνει μόνον ένας ακέραιος στίχος·
- στη συνέχεια, να μειώνει το context κατά λέξεις ακέραιες, να απαλείφει την τελευταία, να απαλείφει την πρώτη, κ.ο.κ., έως ότου φτάσουμε στον αριθμό 93, αρκεί η λέξη-λήμμα να μένει πάντα ακέραιη. Το ίδιο γινόταν με το αμέσως επόμενο context κ.ο.κ.. Με τον τρόπο αυτό, τα contexts μειώθηκαν κατά 75%, και μπόρεσαν να χωρέσουν σε μια αράδα της τυπωμένης concordance.
Τα τελευταία βήματα ήταν να γίνει ο αλφαβητισμός των ΛΤ, να τοποθετηθούν οι παραπομπές και οι κεφαλίδες των σελίδων στη σωστή τους θέση, και να γίνει η μορφοποίηση των λέξεων-λημμάτων μέσα στο οικείο context.
Ας σημειωθεί ότι η ηλεκτρονική εκδοχή της concordance αυτής, μαζί με συμπληρωματικά αρχεία του κειμένου-βάσης και του λημματολογίου, θα αναρτηθεί σύντομα στον Ηλεκτρονικό Κόμβο του Κέντρου Ελληνικής Γλώσσας: http://www.komvos.edu.gr. Εκεί θα συνδεθεί με τα άλλα τέσσερα ήδη καταχωρισμένα λεξικά της ελληνικής γλώσσας, τα οποία έχουν μετατραπεί και αυτά σε βάσεις δεδομένων. Οι δυνατότητες συνδυαστικών αναζητήσεων, που θα αποκτήσει τότε ο ΣΠΛ του Σεφέρη, στο ενοποιημένο λεξικογραφικό περιβάλλον του Ηλεκτρονικού Κόμβου, θα πολλαπλασιαστούν σε σχέση με την έντυπη concordance. Το ίδιο και οι λεξικογραφικές και οι φιλολογικές εφαρμογές για την έρευνα και την εκπαιδευτική πράξη.
1 Ο λόγος είναι ότι το πρόγραμμα δεν καταλαβαίνει το Unicode, και συνεπώς έπρεπε να δουλέψουμε με το standard 8 bit ASCII κείμενο με ελληνικό encoding. Αυτό το encoding σε MS Windows (συμπεριλαμβανομένου του Windows 2000) είναι τέτοιο, ώστε και οι ελληνικοί και οι σταθεροί λατινικοί χαρακτήρες να συνωστίζονται, για να χωρέσουν στο σύνολο των 256 διαθέσιμων χαρακτήρων της ίδιας γραμματοσειράς. Αποτέλεσμα: με προγραμματιστική επέμβαση πετύχαμε ώστε το πρώτο υποσύνολο της γραμματοθήκης να καταλαμβάνεται από τους λατινικούς χαρακτήρες, ενώ το δεύτερο υποσύνολο, που κανονικά μένει για ειδικούς χαρακτήρες, όπως είναι οι τόνοι, τα διαλυτικά κλπ., χρησιμοποιήθηκε για τους ελληνικούς χαρακτήρες. Σε άλλα συστήματα, όπως το Macintosh, οι ελληνικοί χαρακτήρες ήτανε τοποθετημένοι σε ξεχωριστή γραμματοσειρά 256 χαρακτήρων, έτσι ώστε το μικρό α να βρίσκεται στη θέση του a , κ.ο.κ.