+ Was ist ein Text? Beginn des Verständnisses der Theorie hinter der automatisierten Texterkennung

Was ist ein Text? Eine einfache Frage mit einer nicht so einfachen Antwort. Aus der Tradition der wissenschaftlichen Redaktion kommend, Patrick Sahle, Professor an der Albertus-Magnus-Universität zu Köln, hat im Detail gezeigt, wie unterschiedlich die Wahrnehmung bzw. das Verständnis von Text sein kann: von einer Zeichenfolge auf einem Papier bis hin zu einem Werk eines gebildeten Individuums, das aus mehreren Versionen und Drucken (re)konstruiert werden muss.

Um verschiedene Aspekte eines Textes systematisch zu analysieren, begann Sahle, das sogenannte 'Text-Rad' zu zeichnen; (es gibt ein Kapitel darüber in seinem Dritter Band über wissenschaftliche digitale Editionen, S. 45-55; siehe auch Sahle, Patrick: What is a Scholarly Digital Edition?, in: Matthew James Driscoll und Elena Pierazzo (eds.), Digital Scholarly Editing: Theorien und Praktiken. Cambridge, UK: Open Book Publishers, 2016. OBP.0095, S. 20-39 ).

Das Ergebnis ist eine Reihe von verschiedenen Entitäten, als die ein Text verstanden werden kann; einige der Bedeutungen stehen einander gegenüber, andere unterscheiden sich nicht sehr.

Um die automatische Texterkennung von einem theoretischen Standpunkt aus zu verstehen, begannen wir mit Professor Sahle zu diskutieren, wie und in welcher Form 'Text' in Transkribus (und auch allgemein, wenn Sie Erkennungswerkzeuge wie OCR-Engines verwenden) erkannt wird. Das Ergebnis ist unser eigenes 'Text-Rad', gezeichnet von Julia Sorouri.

Am wichtigsten ist, dass Text in Transkribus als Zeichen auf einer Fläche verstanden wird; Sie benötigen Faksimiles bzw. digitalisierte Bilder von Dokumenten, um eine automatisierte Texterkennung durchzuführen. Durch Interpretation mittels maschinellem Lernen (oder Eingabe durch einen Menschen) ist es möglich, Text so zu erzeugen, wie er als Dokument vorliegt (getrennt in Text- und Zeilenbereiche, in Zukunft eventuell auch Wortbereiche). Von diesem Punkt aus kann man weitergehen, um Text als sprachliche Entität oder als Werk zu extrahieren (z. B. durch die Verwendung von Document Understanding-Technologie zur Identifizierung von Titeln oder Marginalien) oder sogar auf Entitäten im Text aufzubauen, indem man Text als Träger von Informationen versteht.

Das Rad zeigt, welche Aspekte eines Textes erkannt werden können und welche Richtung wir mit dem READ-Projekt anstreben. Wir wollen eine qualitativ hochwertige automatische Texterkennung anbieten, aber wir machen uns auch Gedanken darüber, wie wir die Gültigkeit und Plausibilität von Texten sicherstellen können.

Lassen Sie uns eine Diskussion beginnen, die über die Qualität der Texterkennung hinausgeht, sondern vielmehr auf eine Theorie der automatischen Texterkennung abzielt.

——–

Von Dr. Tobias Hodel, Universität Zürich und Staatsarchiv Zürich.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

April 17, 2024
News, Transkribus
Einer der größten Vorteile von Transkribus ist die Möglichkeit, benutzerdefinierte Modelle zur Erkennung von handschriftlichem Text zu trainieren. Diese einzigartige Funktion ...
4. April 2024
News
Der Frühling hat begonnen und damit auch die Veröffentlichung von Transkribus im April 2024. Hier ist ein kurzer Überblick über alle ...
3. April 2024
News
Man kann viel über die französische Geschichte lernen, wenn man Bücher liest oder Dokumentarfilme sieht. Diese Arten von Quellen sind gut für ...