+ Was ist ein Text? Beginn des Verständnisses der Theorie hinter der automatisierten Texterkennung

Was ist ein Text? Eine einfache Frage mit einer nicht so einfachen Antwort. Aus der Tradition der wissenschaftlichen Redaktion kommend, Patrick Sahle, Professor an der Albertus-Magnus-Universität zu Köln, hat im Detail gezeigt, wie unterschiedlich die Wahrnehmung bzw. das Verständnis von Text sein kann: von einer Zeichenfolge auf einem Papier bis hin zu einem Werk eines gebildeten Individuums, das aus mehreren Versionen und Drucken (re)konstruiert werden muss.

Um verschiedene Aspekte eines Textes systematisch zu analysieren, begann Sahle, das sogenannte 'Text-Rad' zu zeichnen; (es gibt ein Kapitel darüber in seinem Dritter Band über wissenschaftliche digitale Editionen, S. 45-55; siehe auch Sahle, Patrick: What is a Scholarly Digital Edition?, in: Matthew James Driscoll und Elena Pierazzo (eds.), Digital Scholarly Editing: Theorien und Praktiken. Cambridge, UK: Open Book Publishers, 2016. OBP.0095, S. 20-39 ).

Das Ergebnis ist eine Reihe von verschiedenen Entitäten, als die ein Text verstanden werden kann; einige der Bedeutungen stehen einander gegenüber, andere unterscheiden sich nicht sehr.

Um die automatische Texterkennung von einem theoretischen Standpunkt aus zu verstehen, begannen wir mit Professor Sahle zu diskutieren, wie und in welcher Form 'Text' in Transkribus (und auch allgemein, wenn Sie Erkennungswerkzeuge wie OCR-Engines verwenden) erkannt wird. Das Ergebnis ist unser eigenes 'Text-Rad', gezeichnet von Julia Sorouri.

Am wichtigsten ist, dass Text in Transkribus als Zeichen auf einer Fläche verstanden wird; Sie benötigen Faksimiles bzw. digitalisierte Bilder von Dokumenten, um eine automatisierte Texterkennung durchzuführen. Durch Interpretation mittels maschinellem Lernen (oder Eingabe durch einen Menschen) ist es möglich, Text so zu erzeugen, wie er als Dokument vorliegt (getrennt in Text- und Zeilenbereiche, in Zukunft eventuell auch Wortbereiche). Von diesem Punkt aus kann man weitergehen, um Text als sprachliche Entität oder als Werk zu extrahieren (z. B. durch die Verwendung von Document Understanding-Technologie zur Identifizierung von Titeln oder Marginalien) oder sogar auf Entitäten im Text aufzubauen, indem man Text als Träger von Informationen versteht.

Das Rad zeigt, welche Aspekte eines Textes erkannt werden können und welche Richtung wir mit dem READ-Projekt anstreben. Wir wollen eine qualitativ hochwertige automatische Texterkennung anbieten, aber wir machen uns auch Gedanken darüber, wie wir die Gültigkeit und Plausibilität von Texten sicherstellen können.

Lassen Sie uns eine Diskussion beginnen, die über die Qualität der Texterkennung hinausgeht, sondern vielmehr auf eine Theorie der automatischen Texterkennung abzielt.

——–

Von Dr. Tobias Hodel, Universität Zürich und Staatsarchiv Zürich.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

November 17, 2022
Transkribus
Wir freuen uns sehr, Ihnen mitteilen zu können, dass wir gestern 100.000 Nutzer auf der Transkribus-Plattform erreicht haben! Trotz unserer jahrelangen, sehr ...
August 12, 2022
Erkennung von handgeschriebenem Text
Hatten Sie schon einmal Probleme, die Handschrift einer anderen Person zu lesen? Vielleicht beruhigt es Sie zu wissen, dass es nicht nur Menschen sind, die ...
22. Juli 2022
Uncategorized
Die neueste Version von Transkribus Lite ist da und bringt eine Reihe von neuen Funktionen. Hier sind die wichtigsten ...