Google nGram und der Versuch einer Rezeptionsanalyse

Überlegungen zu Textanalyse und wie es gelingt „hinter den Text“ zu kommen, treiben mich bereits etwas länger um. Interessanterweise liegt es nicht zuletzt am digital turn und der (Retro-)Digitalisiererei, die diesbezüglich Neuansätze denkbar machen lässt (den Zusammenhang mit dem linguistic turn und Medienentwicklungen – McLuhan et al. – müsste man natürlich auch noch herstellen).

Kurzschlüssig formuliert, wenig verwunderlich also, dass aus dem grössten Digitalisierungsprojekt (der Menschheit? des Universums?) ein Tool erwachsen ist, welches Usern Worte, Ausdrücke und ganze Sätze suchen lässt im digitalisierten Buch-Bestand [google books]. Mit Hilfe sogenannter N-Gramme (das sind Zerlegungen von Texten, im Falle von Google Books, in Wörter, etwas präziser bei Wikipedia) kann visualisiert werden, welcher Begriff, welcher Satz wann, wie häufig vorkam und so (vielleicht auch) zeigen wie wichtig er war. Spannend wird die Auswertung, da unterschieden wird nach Sprachen, insbesondere aber, da verglichen werden kann zwischen Begriffen. Wer wird wann häufiger erwähnt: Platon oder Aristoteles? (im deutschsprachigen Korpus liegt A. immer vorne, die Entwicklung verläuft jedoch parallel; im französischsprachigen Korpus liegt der Fall genau umgekehrt, wobei Plato immer deutlich vorne liegt; im englissprachigen Korpus schliesslich gibt es häufiger Führungswechsel [Platon führt etwa zwischen 1934 und 47 oder 54 und 64]).

Die Verbreitung und hier kommt Google gleich zum zweiten Mal ins Spiel wurde nicht zuletzt durch eine Publikation – mitgeschrieben von Mitarbeitern des Such-Gross-Konzerns – angeheizt. Der eigens dafür komponierte Begriff „Culturomics“ (frei übersetzt: Kultur-onomie, zusammengesetzt wie Öko-nomie; gedacht wie Genom-Analyse bzw. was daraus gefolgert werden kann: genomics) soll verdeutlichen, dass in Zukunft aus einer Unzahl von Büchern und der Auswertung von Wortfrequenz und ähnlichen Verfahren schlüssig und vor allem quantifizierbar (und somit verifizierbar?!) eruiert werden kann, was wann wichtig war. – Das hört sich krude an, ist es auch, aber Kritik steht (hier) nicht zur Debatte.

Culturomics is the application of high-throughput data collection and analysis to the study of human culture (Science 331/176 (2011), pp. 181-182)

Interessant ist, wie der Ansatz in den vergangenen Jahren in der Öffentlichkeit verbreitet und rezipiert wurde. Mit am Anfang steht die angesprochene Publikation, die von Jean-Baptiste Michel et al. in Science publiziert wurde. Die Wahl für das Publikationsorgan hängt, gemäss Selbstbeschreibung im Paper, mit Wissen um die Gepflogenheiten der Zeitschrift zusammen; das es sich dabei um eines der wichtigsten Publikationsorgane weltweit handelt, entspricht wohl dem Anspruch der Forscher und Forscherinnen. Innerhalb der vierzehn Autoren, werden vier als Mitarbeiter von Google ausgewiesen und als Mitautor „The Google Books Team“ genannt.

Auf den Science Artikel folgend sprang praktisch jede Zeitung auf den n-Gram Zug auf (interessant wie unterschiedlich n-gramme darin definiert und erklärt wurden). Innert Monaten wurde jeder nur bedingt Interessierte mit Culturomics und/oder n-Gram bekannt geprügelt gemacht.

Die Reaktion von Geisteswissenschaftler insbesondere auf den Science Artikel war dürftig (im besten Fall) – die lesen ja auch nicht Science… Gerade mal zwei Reaktionen finden sich innerhalb der Zeitschrift (Science 332 (2011), pp. 35-36). Die Vorwürfe der beiden Scholars richtete sich zum einen gegen die Definition von „Wörtern“ und zum anderen gegen die Beschränkung der Datengrundlage auf „Bücher“. Beide Vorwürfe wurden freundlich, aber mit Verweis auf zukünftige Verbesserungen zurückgewiesen. Seitdem wurde das Thema innerhalb von Science nicht mehr kontrovers diskutiert.

Was ich bezüglich der Aufnahme des Google n-gram Tools für interessant (und irgendwie auch bezeichnend halte), ist dass es aufgrund der Methode und mit Verweis auf Quantifizierungsmöglichkeiten von „Kultur“ möglich war, sich in einem der wichtigsten Wissenschaftsmagazine zu positionieren (Wissenschaft im Sinne von scientific im Gegensatz zu scholarly).
Ob kausal verknüpft oder nicht sei dahingestellt: Folgend auf die Publikation erhielt das Tool eine Publizität über die gesamte Welt, sodass ein Umgehen der Abfragemöglichkeit unmöglich erscheint. Dennoch fehlen Ansätze zur Kritik (oder auch Verbesserungs- und Anpassungsvorschläge) von Seiten der intendierten Nutzer (also Geisteswissenschaftler) bis auf wenige Ausnahmen.
Erstaunlicherweise scheint die „Weltöffentlichkeit“ eine neue Methode (oder eine Herangehensweise?) zu kennen, die jedoch in der Fachwissenschaft nicht genutzt oder nicht diskutiert wird.
Oder noch bösartiger formuliert: Alle Welt meint die Möglichkeit zur Erforschung von geisteswissenschaftlichen Problemen gefunden zu haben, aber die Wissenschaftler interessierts nicht.

One Comment on “Google nGram und der Versuch einer Rezeptionsanalyse”

  1. […] Der Artikel wurde angeregt durch kontroverse Mittagessens-Diskussionen (vielen Dank an alle Beteiligten!) über zwei in diesem Blog vorgebrachten Ideen und Problemstellungen: Kritik an OCR Praktiken und eine kurze Darstellung der Rezeption des Google nGram-Viewers. […]


Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s