OCRn wir die Welt

Grundsätzlich gibts nichts dagegen zu sagen: Google Books liefert eine Vielzahl von relevanten Resultaten für fast jeden Begriff, den man sich nur ausdenken kann. Neuste Literatur, aber auch 200 Jährige Schinken werden innert Sekunden aufgefunden. Digitalisierte Zeitschriften aus dem 19. Jahrhundert werden auf retro.seals.ch verfügbar gemacht. Das Problem an der Geschichte (also nicht der Geschichte…) ist die Intransparenz der aufbereiteten Daten: Obwohl die Retrodigitalisate automatisch oder semi-automatisch bearbeitet wurden mit irgendeiner Software, wird auf den meisten Seiten (oder aus der Selbstsicht „Portale“) nicht offengelegt, wie die Texte hinter die Bilder (meistens sind es nur die Bilder und keine digitalen Texte, die aufgenommen wurden) kommen.
Kein Problem könnte man denken, macht doch die Software nichts anderes, als die Zeichen zu erkennen, analog zum menschlichen Auge; neudeutsch: Optical Charakter Recognition. Der Einwand ist berechtigt und die Zeichensensivität der neueren OCR-Engines durchaus beeindruckend. Wirklich gut (und da sprechen wir von einer Genauigkeit um 99,9% – also 1 Fehler pro 1000 Zeichen… also einem Zeichenfehler pro Absatz) wird OCR jedoch erst, wenn Wörterbücher neben der Zeichenerkennung zur Ermittlung der Wörter verwendet werden.

Die Folge ist ein Rattenschwanz von Problemen: In welcher Sprache ist der zu erkennende Text verfasst (ziemlich relevant, wenn man ein Wörterbuch verwenden will), wechselt die Sprache innerhalb des Textes, was passiert mit Fremdwörtern (die teils noch kursiv gesetzt sind – das kann schon ein richtige Problem werden für so eine Engine) und was passiert mit Wörtern, die nicht in den Wörterbüchern ist? Und schliesslich noch die Mediävisten-Frage: Was wenn es kein Wörterbuch und keine Recht-Schreibung gibt?

Es wird klar, es ist nicht gleichgültig, welche Software in welchem Release verwendet wird und dass es (ziemlich zwangsläufig) Fehler in den erkannten Texten gibt. Für die Suchfunktion der Portale haben diese Fehler und Unzulänglichkeiten gravierende Folgen. (Gewisse) Suchen können nicht vollständig sein und eigentlich nur Zufälliges liefern.

Interessant, dass auch google Books nicht offenlegt, welche Mittel zur Texterkennung verwendet wurden. Wie auch die Suche bei google nur „irgendetwas“ liefert, erkennt google Books irgendetwas… Und einem Privatunternehmen wie google kann man das Unterlassen nicht einmal ankreiden. Aber auch auf Seiten geäuffnet aus öffentlichen Mitteln (wie das erwähnte retro.seals.ch das in Zusammenarbeit mit der ETH agiert) fehlen Angaben zur verwendeten Software und allfälligen Angaben zur „erwarteten Erkennleistung“. Auch die gleichzeitige Erfassung von Metadaten ändert nichts an diesem Makel (hier der Link zur Projektseite).

Der User wiegt sich in Sicherheit (und der Google-Falle): Er bekommt irgendetwas.
Im Moment bin ich mir noch uneins, ob ich die Initiativen als „besser als nichts“ befürworten oder als „Mittelverschwendung“ ablehnen soll. Ein gewisse Offenheit gegenüber der (zahlenden) Öffentlichkeit wäre aber das Mindeste, was ich von den Unternehmen erwarte.

Disclaimer: Ich benutze sowohl das Angebot von google als auch von retro.seals.ch extensiv, weshalb diese beiden als Beispiele herausgegriffen wurde. Es ist zu hoffen und gut möglich, dass eine Vielzahl von Digitalisierungsunternehmen vorbildlicher als die genannten agieren.


One Comment on “OCRn wir die Welt”

  1. […] Dank an alle Beteiligten!) über zwei in diesem Blog vorgebrachten Ideen und Problemstellungen: Kritik an OCR Praktiken und eine kurze Darstellung der Rezeption des Google […]


Schreibe einen Kommentar

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s