+ Was ist ein Text? Beginn des Verständnisses der Theorie hinter der automatisierten Texterkennung

Was ist ein Text? Eine einfache Frage mit einer nicht so einfachen Antwort. Aus der Tradition der wissenschaftlichen Redaktion kommend, Patrick Sahle, Professor an der Albertus-Magnus-Universität zu Köln, hat im Detail gezeigt, wie unterschiedlich die Wahrnehmung bzw. das Verständnis von Text sein kann: von einer Zeichenfolge auf einem Papier bis hin zu einem Werk eines gebildeten Individuums, das aus mehreren Versionen und Drucken (re)konstruiert werden muss.

Um verschiedene Aspekte eines Textes systematisch zu analysieren, begann Sahle, das sogenannte 'Text-Rad' zu zeichnen; (es gibt ein Kapitel darüber in seinem Dritter Band über wissenschaftliche digitale Editionen, S. 45-55; siehe auch Sahle, Patrick: What is a Scholarly Digital Edition?, in: Matthew James Driscoll und Elena Pierazzo (eds.), Digital Scholarly Editing: Theorien und Praktiken. Cambridge, UK: Open Book Publishers, 2016. OBP.0095, S. 20-39 ).

Das Ergebnis ist eine Reihe von verschiedenen Entitäten, als die ein Text verstanden werden kann; einige der Bedeutungen stehen einander gegenüber, andere unterscheiden sich nicht sehr.

Um die automatische Texterkennung von einem theoretischen Standpunkt aus zu verstehen, begannen wir mit Professor Sahle zu diskutieren, wie und in welcher Form 'Text' in Transkribus (und auch allgemein, wenn Sie Erkennungswerkzeuge wie OCR-Engines verwenden) erkannt wird. Das Ergebnis ist unser eigenes 'Text-Rad', gezeichnet von Julia Sorouri.

Am wichtigsten ist, dass Text in Transkribus als Zeichen auf einer Fläche verstanden wird; Sie benötigen Faksimiles bzw. digitalisierte Bilder von Dokumenten, um eine automatisierte Texterkennung durchzuführen. Durch Interpretation mittels maschinellem Lernen (oder Eingabe durch einen Menschen) ist es möglich, Text so zu erzeugen, wie er als Dokument vorliegt (getrennt in Text- und Zeilenbereiche, in Zukunft eventuell auch Wortbereiche). Von diesem Punkt aus kann man weitergehen, um Text als sprachliche Entität oder als Werk zu extrahieren (z. B. durch die Verwendung von Document Understanding-Technologie zur Identifizierung von Titeln oder Marginalien) oder sogar auf Entitäten im Text aufzubauen, indem man Text als Träger von Informationen versteht.

Das Rad zeigt, welche Aspekte eines Textes erkannt werden können und welche Richtung wir mit dem READ-Projekt anstreben. Wir wollen eine qualitativ hochwertige automatische Texterkennung anbieten, aber wir machen uns auch Gedanken darüber, wie wir die Gültigkeit und Plausibilität von Texten sicherstellen können.

Lassen Sie uns eine Diskussion beginnen, die über die Qualität der Texterkennung hinausgeht, sondern vielmehr auf eine Theorie der automatischen Texterkennung abzielt.

——–

Von Dr. Tobias Hodel, Universität Zürich und Staatsarchiv Zürich.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

März 29, 2023
Uncategorized
Die meisten Transkribus-Modelle sind außerdem darauf trainiert, nur eine Sprache zu lesen - schließlich sind die meisten historischen Dokumente ...
März 23, 2023
Transkribus
Gehen Sie in ein beliebiges Geschichtsmuseum oder lesen Sie ein Geschichtsbuch, und Sie werden feststellen, dass viele der Geschichten und Ereignisse ...
März 15, 2023
Uncategorized
Von Fiona Park Nicht jeder, der sich mit Geschichte beschäftigt, ist ein professioneller Historiker. Von Hobby-Genealogen bis hin zu Freiwilligen in lokalen ...