Google nGram und der Versuch einer Rezeptionsanalyse

Überlegungen zu Textanalyse und wie es gelingt „hinter den Text“ zu kommen, treiben mich bereits etwas länger um. Interessanterweise liegt es nicht zuletzt am digital turn und der (Retro-)Digitalisiererei, die diesbezüglich Neuansätze denkbar machen lässt (den Zusammenhang mit dem linguistic turn und Medienentwicklungen – McLuhan et al. – müsste man natürlich auch noch herstellen).

Kurzschlüssig formuliert, wenig verwunderlich also, dass aus dem grössten Digitalisierungsprojekt (der Menschheit? des Universums?) ein Tool erwachsen ist, welches Usern Worte, Ausdrücke und ganze Sätze suchen lässt im digitalisierten Buch-Bestand [google books]. Mit Hilfe sogenannter N-Gramme (das sind Zerlegungen von Texten, im Falle von Google Books, in Wörter, etwas präziser bei Wikipedia) kann visualisiert werden, welcher Begriff, welcher Satz wann, wie häufig vorkam und so (vielleicht auch) zeigen wie wichtig er war. Spannend wird die Auswertung, da unterschieden wird nach Sprachen, insbesondere aber, da verglichen werden kann zwischen Begriffen. Wer wird wann häufiger erwähnt: Platon oder Aristoteles? (im deutschsprachigen Korpus liegt A. immer vorne, die Entwicklung verläuft jedoch parallel; im französischsprachigen Korpus liegt der Fall genau umgekehrt, wobei Plato immer deutlich vorne liegt; im englissprachigen Korpus schliesslich gibt es häufiger Führungswechsel [Platon führt etwa zwischen 1934 und 47 oder 54 und 64]).

Die Verbreitung und hier kommt Google gleich zum zweiten Mal ins Spiel wurde nicht zuletzt durch eine Publikation – mitgeschrieben von Mitarbeitern des Such-Gross-Konzerns – angeheizt. Der eigens dafür komponierte Begriff „Culturomics“ (frei übersetzt: Kultur-onomie, zusammengesetzt wie Öko-nomie; gedacht wie Genom-Analyse bzw. was daraus gefolgert werden kann: genomics) soll verdeutlichen, dass in Zukunft aus einer Unzahl von Büchern und der Auswertung von Wortfrequenz und ähnlichen Verfahren schlüssig und vor allem quantifizierbar (und somit verifizierbar?!) eruiert werden kann, was wann wichtig war. – Das hört sich krude an, ist es auch, aber Kritik steht (hier) nicht zur Debatte.

Culturomics is the application of high-throughput data collection and analysis to the study of human culture (Science 331/176 (2011), pp. 181-182)

Interessant ist, wie der Ansatz in den vergangenen Jahren in der Öffentlichkeit verbreitet und rezipiert wurde. Mit am Anfang steht die angesprochene Publikation, die von Jean-Baptiste Michel et al. in Science publiziert wurde. Die Wahl für das Publikationsorgan hängt, gemäss Selbstbeschreibung im Paper, mit Wissen um die Gepflogenheiten der Zeitschrift zusammen; das es sich dabei um eines der wichtigsten Publikationsorgane weltweit handelt, entspricht wohl dem Anspruch der Forscher und Forscherinnen. Innerhalb der vierzehn Autoren, werden vier als Mitarbeiter von Google ausgewiesen und als Mitautor „The Google Books Team“ genannt.

Auf den Science Artikel folgend sprang praktisch jede Zeitung auf den n-Gram Zug auf (interessant wie unterschiedlich n-gramme darin definiert und erklärt wurden). Innert Monaten wurde jeder nur bedingt Interessierte mit Culturomics und/oder n-Gram bekannt geprügelt gemacht.

Die Reaktion von Geisteswissenschaftler insbesondere auf den Science Artikel war dürftig (im besten Fall) – die lesen ja auch nicht Science… Gerade mal zwei Reaktionen finden sich innerhalb der Zeitschrift (Science 332 (2011), pp. 35-36). Die Vorwürfe der beiden Scholars richtete sich zum einen gegen die Definition von „Wörtern“ und zum anderen gegen die Beschränkung der Datengrundlage auf „Bücher“. Beide Vorwürfe wurden freundlich, aber mit Verweis auf zukünftige Verbesserungen zurückgewiesen. Seitdem wurde das Thema innerhalb von Science nicht mehr kontrovers diskutiert.

Was ich bezüglich der Aufnahme des Google n-gram Tools für interessant (und irgendwie auch bezeichnend halte), ist dass es aufgrund der Methode und mit Verweis auf Quantifizierungsmöglichkeiten von „Kultur“ möglich war, sich in einem der wichtigsten Wissenschaftsmagazine zu positionieren (Wissenschaft im Sinne von scientific im Gegensatz zu scholarly).
Ob kausal verknüpft oder nicht sei dahingestellt: Folgend auf die Publikation erhielt das Tool eine Publizität über die gesamte Welt, sodass ein Umgehen der Abfragemöglichkeit unmöglich erscheint. Dennoch fehlen Ansätze zur Kritik (oder auch Verbesserungs- und Anpassungsvorschläge) von Seiten der intendierten Nutzer (also Geisteswissenschaftler) bis auf wenige Ausnahmen.
Erstaunlicherweise scheint die „Weltöffentlichkeit“ eine neue Methode (oder eine Herangehensweise?) zu kennen, die jedoch in der Fachwissenschaft nicht genutzt oder nicht diskutiert wird.
Oder noch bösartiger formuliert: Alle Welt meint die Möglichkeit zur Erforschung von geisteswissenschaftlichen Problemen gefunden zu haben, aber die Wissenschaftler interessierts nicht.
Advertisements

OCRn wir die Welt

Grundsätzlich gibts nichts dagegen zu sagen: Google Books liefert eine Vielzahl von relevanten Resultaten für fast jeden Begriff, den man sich nur ausdenken kann. Neuste Literatur, aber auch 200 Jährige Schinken werden innert Sekunden aufgefunden. Digitalisierte Zeitschriften aus dem 19. Jahrhundert werden auf retro.seals.ch verfügbar gemacht. Das Problem an der Geschichte (also nicht der Geschichte…) ist die Intransparenz der aufbereiteten Daten: Obwohl die Retrodigitalisate automatisch oder semi-automatisch bearbeitet wurden mit irgendeiner Software, wird auf den meisten Seiten (oder aus der Selbstsicht „Portale“) nicht offengelegt, wie die Texte hinter die Bilder (meistens sind es nur die Bilder und keine digitalen Texte, die aufgenommen wurden) kommen.
Kein Problem könnte man denken, macht doch die Software nichts anderes, als die Zeichen zu erkennen, analog zum menschlichen Auge; neudeutsch: Optical Charakter Recognition. Der Einwand ist berechtigt und die Zeichensensivität der neueren OCR-Engines durchaus beeindruckend. Wirklich gut (und da sprechen wir von einer Genauigkeit um 99,9% – also 1 Fehler pro 1000 Zeichen… also einem Zeichenfehler pro Absatz) wird OCR jedoch erst, wenn Wörterbücher neben der Zeichenerkennung zur Ermittlung der Wörter verwendet werden.

Die Folge ist ein Rattenschwanz von Problemen: In welcher Sprache ist der zu erkennende Text verfasst (ziemlich relevant, wenn man ein Wörterbuch verwenden will), wechselt die Sprache innerhalb des Textes, was passiert mit Fremdwörtern (die teils noch kursiv gesetzt sind – das kann schon ein richtige Problem werden für so eine Engine) und was passiert mit Wörtern, die nicht in den Wörterbüchern ist? Und schliesslich noch die Mediävisten-Frage: Was wenn es kein Wörterbuch und keine Recht-Schreibung gibt?

Es wird klar, es ist nicht gleichgültig, welche Software in welchem Release verwendet wird und dass es (ziemlich zwangsläufig) Fehler in den erkannten Texten gibt. Für die Suchfunktion der Portale haben diese Fehler und Unzulänglichkeiten gravierende Folgen. (Gewisse) Suchen können nicht vollständig sein und eigentlich nur Zufälliges liefern.

Interessant, dass auch google Books nicht offenlegt, welche Mittel zur Texterkennung verwendet wurden. Wie auch die Suche bei google nur „irgendetwas“ liefert, erkennt google Books irgendetwas… Und einem Privatunternehmen wie google kann man das Unterlassen nicht einmal ankreiden. Aber auch auf Seiten geäuffnet aus öffentlichen Mitteln (wie das erwähnte retro.seals.ch das in Zusammenarbeit mit der ETH agiert) fehlen Angaben zur verwendeten Software und allfälligen Angaben zur „erwarteten Erkennleistung“. Auch die gleichzeitige Erfassung von Metadaten ändert nichts an diesem Makel (hier der Link zur Projektseite).

Der User wiegt sich in Sicherheit (und der Google-Falle): Er bekommt irgendetwas.
Im Moment bin ich mir noch uneins, ob ich die Initiativen als „besser als nichts“ befürworten oder als „Mittelverschwendung“ ablehnen soll. Ein gewisse Offenheit gegenüber der (zahlenden) Öffentlichkeit wäre aber das Mindeste, was ich von den Unternehmen erwarte.

Disclaimer: Ich benutze sowohl das Angebot von google als auch von retro.seals.ch extensiv, weshalb diese beiden als Beispiele herausgegriffen wurde. Es ist zu hoffen und gut möglich, dass eine Vielzahl von Digitalisierungsunternehmen vorbildlicher als die genannten agieren.