יום שלישי, 11 בינואר 2011

מחקר ביבליומטרי - מה אפשר ללמוד מ Google Books

Google BooksImage via Wikipedia
הפרויקט הענק של Google Books נתקל בקשיים משפטיים רבים מאז שב 2004 Google התחילו לסרוק מליוני ספרים מספריות גדולות ברחבי העולם.  

אין  ספק שהפרויקט הזה הוא נהדר לסטודנטים, חוקרים וספרנים למרות ענייני זכויות היוצרים.
אפשר לקרוא לא רק ספרים ישנים מלפני 70 שנה אלא גם ספרים חדשים מהשנים האחרונות בהתאם להסכם של המו"ל עם Google. יצא לי לקרוא מספר ספרים חדשים כמעט במלואם. זה נכון שחלק מהעמודים לא ניתנים לצפיה (במטרה שיקנו את הספר) אבל לפעמים אפשר להסתדר גם בלעדיהם.

אבל עם בסיס נתונים כזה גדול (2 טריליון מילים מ-15 מליון ספרים ב 400 שפות מ 100 מדינות) לא לקח זמן עד שמישהו הבין שיש כאן אוצר של מידע ביבליומטרי.

חוקר מאוניברסיטת הרברד בשם ארז ליברמן עדן, פנה אל Google בבקשה לקבל גישה לנתונים בפרויקט Google Books. הוא טען שעל ידי ניתוח של המילה הכתובה כפי שהודפסה במשך מאות שנים, ניתן ללמוד על התפתחויות שונות בתרבות ובשפה.

לאחרונה פורסם כתבה בגירסה המקוונת של כתב העת Science לגבי הגילויים המעניינים עד כה. הגישה למאמר בטקסט מלא, למורשים בלבד אבל יש גם מאמר פופולרי יותר ב New York Times.

בין היתר גילו החוקרים 500,000 מילים באנגלית שאינם מופיעות במילונים של ימינו.
במאה שנים האחרונות גדלה השפה האנגלית ב 70% ועומדת כיום על כמליון מילים.
לקח בממוצע 66 שנה להתפתחויות טכנולוגיות שהופיעו בתחילת המאה ה-19, לקבל פרסום ומודעות בחברה ובתרבות. לעומת זאת בסוף אותה המאה לקח רק 27 שנים.

אפשר גם לעקוב אחרי השפעתם של דמויות או ארועים מפורסמים במשך ההיסטוריה. פעם זיגמונד פרויד הופיע יותר בספרות מאשר צ'ארלס דרווין, אבל החל מ 2005 נראה שדרווין מוביל. 
כיכר טיאנמאן מופיע יותר בספרים באנגלית מאשר בספרות סינית החל מ 1989.

בעקבות המחקר פותח כלי נחמד, איתו כל אחד יכול לחפש מילים (ולהשוות בין מילים) המופיעים בספרי Google Books במשך השנים.
כלי זה נמצא במעבדות של Google ופתוח לכולם. אפשר לגלות שם דברים מאד מעניינים לדוגמא, כבר לפני 110 שנים השתמשו באינטרנט ?!?!?!

Enhanced by Zemanta

תגובה 1:

שרה כהן אמר/ה...

זה באמת מעניין .
אני תוהה לאן גוגל עוד יגיעו ...

Real Time Web Analytics