+ Was ist ein Text? Beginn des Verständnisses der Theorie hinter der automatisierten Texterkennung

Was ist ein Text? Eine einfache Frage mit einer nicht so einfachen Antwort. Aus der Tradition der wissenschaftlichen Redaktion kommend, Patrick Sahle, Professor an der Albertus-Magnus-Universität zu Köln, hat im Detail gezeigt, wie unterschiedlich die Wahrnehmung bzw. das Verständnis von Text sein kann: von einer Zeichenfolge auf einem Papier bis hin zu einem Werk eines gebildeten Individuums, das aus mehreren Versionen und Drucken (re)konstruiert werden muss.

Um verschiedene Aspekte eines Textes systematisch zu analysieren, begann Sahle, das sogenannte 'Text-Rad' zu zeichnen; (es gibt ein Kapitel darüber in seinem Dritter Band über wissenschaftliche digitale Editionen, S. 45-55; siehe auch Sahle, Patrick: What is a Scholarly Digital Edition?, in: Matthew James Driscoll und Elena Pierazzo (eds.), Digital Scholarly Editing: Theorien und Praktiken. Cambridge, UK: Open Book Publishers, 2016. OBP.0095, S. 20-39 ).

Das Ergebnis ist eine Reihe von verschiedenen Entitäten, als die ein Text verstanden werden kann; einige der Bedeutungen stehen einander gegenüber, andere unterscheiden sich nicht sehr.

Um die automatische Texterkennung von einem theoretischen Standpunkt aus zu verstehen, begannen wir mit Professor Sahle zu diskutieren, wie und in welcher Form 'Text' in Transkribus (und auch allgemein, wenn Sie Erkennungswerkzeuge wie OCR-Engines verwenden) erkannt wird. Das Ergebnis ist unser eigenes 'Text-Rad', gezeichnet von Julia Sorouri.

Am wichtigsten ist, dass Text in Transkribus als Zeichen auf einer Fläche verstanden wird; Sie benötigen Faksimiles bzw. digitalisierte Bilder von Dokumenten, um eine automatisierte Texterkennung durchzuführen. Durch Interpretation mittels maschinellem Lernen (oder Eingabe durch einen Menschen) ist es möglich, Text so zu erzeugen, wie er als Dokument vorliegt (getrennt in Text- und Zeilenbereiche, in Zukunft eventuell auch Wortbereiche). Von diesem Punkt aus kann man weitergehen, um Text als sprachliche Entität oder als Werk zu extrahieren (z. B. durch die Verwendung von Document Understanding-Technologie zur Identifizierung von Titeln oder Marginalien) oder sogar auf Entitäten im Text aufzubauen, indem man Text als Träger von Informationen versteht.

Das Rad zeigt, welche Aspekte eines Textes erkannt werden können und welche Richtung wir mit dem READ-Projekt anstreben. Wir wollen eine qualitativ hochwertige automatische Texterkennung anbieten, aber wir machen uns auch Gedanken darüber, wie wir die Gültigkeit und Plausibilität von Texten sicherstellen können.

Lassen Sie uns eine Diskussion beginnen, die über die Qualität der Texterkennung hinausgeht, sondern vielmehr auf eine Theorie der automatischen Texterkennung abzielt.

——–

Von Dr. Tobias Hodel, Universität Zürich und Staatsarchiv Zürich.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juli 3, 2024
News, Transkribus
Einige Transkribus-Projekte enden mit einer vollständig digitalisierten Sammlung in Transkribus. Andere nehmen diese digitalisierte Quelle und verwenden sie ...
Juni 12, 2024
News, Transkribus
Wenn man an karolingische (oder karolingische) Minuskeln denkt, kommen einem wahrscheinlich Karl der Große und sein riesiges karolingisches Reich in den Sinn. Während die ...
Mai 14, 2024
Uncategorized
Das Verstehen historischer Dokumente ist der Schlüssel zum Verständnis der Geschichte. Das Verstehen historischer Dokumente auf Polnisch kann jedoch eine Herausforderung sein. Nicht nur ...