Textanalyse mal anders — Idee zu einer Anleitung

Das Problem bei der Analyse von mittelalterlichen Quellen–insbesondere Urkunden–ist, dass wir eigentlich nur wissen, dass wir nichts wissen. Und allein um zu dieser Erkenntnis zu gelangen haben wir mehrere hundert Jahre gebraucht.
Joseph Morsel sagte einmal treffend:

Über mittelalterliche Dokumente wissen wir eigentlich nur, dass sie Ausdruck eines Problems sind.

(Wahrscheinlich habe ich die Aussage jetzt gerade fundamental falsch- und uminterpretiert und lehne an dieser Stelle jegliche Verantwortung ab. Ich kann auch nicht nachweisen, wo in seinem umfangreichen Werk er diese Aussage zu Papier gebracht hat — mea maxima culpa)

Ein Ansatz das Problem aus einer neuen Perspektive zu betrachten, bietet die non-lineare Textanalyse, die ich vor Wochen das erste Mal ausgetestet habe.

Der Ansatz funktioniert folgendermassen: Man nehme eine oder mehrere Quellen (den Ausdruck „Quelle“ umgeht Morsel übrigens geschickt und wohl nicht zu unrecht), werfe sie in einen Konkordanz-Programm für Korpusanalyse und schaue welche Worte am häufigsten vorkommen (keine Angst eine Aufzählung der Probleme folgt weiter unten).

Die Linguisten nutzen diese Art der Textanalyse schon länger, jedoch weniger für inhaltliche Forschung (im Sinne von, was passierte wann und wieso), sondern um diachrone Entwicklungen in der Sprache zu beobachten (auch bezüglich von Wortteilen).

Das faszinierende an der rohen Auszählung der Worte ist es, zu beobachten, welche Schwerpunkte anscheinend im gewählten Textkorpus vorherrschten. Noch spannender wird es wenn man visuell nachvollzieht, wo die häufigen Worte vorkommen (für gute Konkordanzsoftware ein Kinderspiel, gerne Verweise ich diesbezüglich auf die Seite von Noah Bubenhofer). Bei Protokollen zu Befragungen kann man etwa feststellen, welche Gruppe (oder wer, wen einzelne längere Aussagen machen) welche Worte braucht und welche nicht.

Im Idealfall könnten so sowohl synchron, wie auch diachron Vergleiche angestellt werden über die Worte–und in einem späteren Stadium vielleicht auch festen Ausdrücke–und der diesbezüglichen Veränderungen.

Zugegebenermassen ist das nicht die Lösung für alle Problem der unzugänglichen Inhalte von Dokumenten, es bietet aber eine neue Sichtweise auf alte Dokumente (oder, und das finde ich noch spannender: neue Sichtweisen auf sicher geglaubte Aussagen aus Quellen).

Das System enthält aber mehrere riesige Schwachstellen:

  • Zu wenig Dokumente stehen korrigiert (und ja damit meine ich eine Fehlerquote unter 99,9%) zur Verfügung.
  • Die Freiheit der Schreibweise führt zu problematischen Ergebnissen (Schreiberlinge waren schon um 1350 unsäglich kreativ)
  • Oft werden in Editionen (auch sog. elektronischen) Metadaten (wie Regesten), Quelltext und Kommentare wild zusammengeworfen (weshalb ich ein grosser Freund von XML Auszeichnung, etwa nach Schema der TEI, bin)

und diese grundsätzlichen Probleme sind nur der Anfang…

[as usual: to be continued]


One Comment on “Textanalyse mal anders — Idee zu einer Anleitung”

  1. […] desto häufiger das Vorkommen in einem oder mehreren Texten. Eigentlich ist es eine Umsetzung, der hier bereits früher angesprochenen Forderung Texte nicht nur linear zu lesen. Die Arten der Darstellung sind natürlich unendlich und in sich […]


Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s