TEDx Talk: “Τι μάθαμε από 5 εκατομμύρια βιβλία” και το Google Books Ngram Viewer


(κλικ στην πάνω δεξιά γωνία του βίντεο για πλήρη οθόνη)
βίντεο στα αγγλικά (χωρίς υπότιτλους)

Το ηλεκτρονικό βιβλίο δε μας βοηθάει μόνο να εξοικονομούμε χώρο στη βιβλιοθήκη μας, να έχουμε άμεση πρόσβαση σε βοηθητικά εργαλεία όπως τα λεξικά ή να κρατάμε σημειώσεις και στη συνέχεια να τις χρησιμοποιούμε. Η ψηφιοποίηση των βιβλίων τα κάνει επίσης εύκολα αναζητήσιμα. Με στατιστικές μεθόδους μπορούμε να αξιοποιήσουμε μέχρι πρόσφατα ασύλληπτου όγκου βάσεις δεδομένων με κείμενα και να βγάλουμε συμπεράσματα για την κουλτούρα και τη γλώσσα.
Οι Jan-Baptiste Michel και Erez Lieberman Aiden έκαναν τον Ιούλιο μια ιδιαίτερα ενημερωτική αλλά και διασκεδαστική ομιλία στο TEDxBoston για το εγχείρημα της αξιοποίησης των σκαναρισμένων βιβλίων του Google Books για τη μελέτη του παρελθόντος. Οι δύο ομιλητές ήταν και οι βασικοί συγγραφείς του άρθρου με την καταγραφή των συμπερασμάτων της προσπάθειας αυτής που δημοσιεύτηκε στο περιοδικό “Science”. Η έρευνα αυτή οδήγησε στη δημιουργία του site Google Books Ngram Viewer (το είχαμε παρουσιάσει αναλυτικά τον Ιανουάριο), όπου ο καθένας μας μπορεί να ερευνήσει τη βάση δεδομένων που δημιουργήθηκε για τις λέξεις ή τις φράσεις που τον ενδιαφέρουν.

Από τα περίπου 130 εκατομμύρια βιβλία που έχουν εκδοθεί από το 1455 που εφευρέθηκε η τυπογραφία έχουν σκαναριστεί από το Google περίπου 15 εκατομμύρια, από τα οποία τα 5 εκατομμύρια θεωρήθηκαν κατάλληλα για στατιστική μελέτη και με βάση αυτά δημιουργήθηκε μια βάση από 2 δισεκατομμύρια ngrams, λέξεις δηλαδή ή φράσεις.
Και τα πράγματα θα γίνουν πολύ πιο ενδιαφέροντα όταν ολοκληρωθεί, κάποια στιγμή, όχι μόνο το σκανάρισμα των τυπωμένων βιβλίων, αλλά και η ψηφιοποίηση χειρογράφων, εικόνων και χαρτών και η εξέλιξη των εργαλείων αναζήτησης και για αυτές τις μορφές δεδομένων.

via @TEDxAthens