+ Was ist ein Text? Beginn des Verständnisses der Theorie hinter der automatisierten Texterkennung

November 20, 2017
HTR-Modelle, News, Transkribus

Was ist ein Text? Eine einfache Frage mit einer nicht so einfachen Antwort. Aus der Tradition der wissenschaftlichen Redaktion kommend, Patrick Sahle, Professor an der Albertus-Magnus-Universität zu Köln, hat im Detail gezeigt, wie unterschiedlich die Wahrnehmung bzw. das Verständnis von Text sein kann: von einer Zeichenfolge auf einem Papier bis hin zu einem Werk eines gebildeten Individuums, das aus mehreren Versionen und Drucken (re)konstruiert werden muss.

Um verschiedene Aspekte eines Textes systematisch zu analysieren, begann Sahle, das sogenannte 'Text-Rad' zu zeichnen; (es gibt ein Kapitel darüber in seinem Dritter Band über wissenschaftliche digitale Editionen, S. 45-55; siehe auch Sahle, Patrick: What is a Scholarly Digital Edition?, in: Matthew James Driscoll und Elena Pierazzo (eds.), Digital Scholarly Editing: Theorien und Praktiken. Cambridge, UK: Open Book Publishers, 2016. OBP.0095, S. 20-39 ).

Das Ergebnis ist eine Reihe von verschiedenen Entitäten, als die ein Text verstanden werden kann; einige der Bedeutungen stehen einander gegenüber, andere unterscheiden sich nicht sehr.

Um die automatische Texterkennung von einem theoretischen Standpunkt aus zu verstehen, begannen wir mit Professor Sahle zu diskutieren, wie und in welcher Form 'Text' in Transkribus (und auch allgemein, wenn Sie Erkennungswerkzeuge wie OCR-Engines verwenden) erkannt wird. Das Ergebnis ist unser eigenes 'Text-Rad', gezeichnet von Julia Sorouri.

Am wichtigsten ist, dass Text in Transkribus als Zeichen auf einer Fläche verstanden wird; Sie benötigen Faksimiles bzw. digitalisierte Bilder von Dokumenten, um eine automatisierte Texterkennung durchzuführen. Durch Interpretation mittels maschinellem Lernen (oder Eingabe durch einen Menschen) ist es möglich, Text so zu erzeugen, wie er als Dokument vorliegt (getrennt in Text- und Zeilenbereiche, in Zukunft eventuell auch Wortbereiche). Von diesem Punkt aus kann man weitergehen, um Text als sprachliche Entität oder als Werk zu extrahieren (z. B. durch die Verwendung von Document Understanding-Technologie zur Identifizierung von Titeln oder Marginalien) oder sogar auf Entitäten im Text aufzubauen, indem man Text als Träger von Informationen versteht.

Das Rad zeigt, welche Aspekte eines Textes erkannt werden können und welche Richtung wir mit dem READ-Projekt anstreben. Wir wollen eine qualitativ hochwertige automatische Texterkennung anbieten, aber wir machen uns auch Gedanken darüber, wie wir die Gültigkeit und Plausibilität von Texten sicherstellen können.

Lassen Sie uns eine Diskussion beginnen, die über die Qualität der Texterkennung hinausgeht, sondern vielmehr auf eine Theorie der automatischen Texterkennung abzielt.

——–

Von Dr. Tobias Hodel, Universität Zürich und Staatsarchiv Zürich.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

April 17, 2024

News, Transkribus

Wie Sie die CER Ihres Modells verbessern können

Einer der größten Vorteile von Transkribus ist die Möglichkeit, benutzerdefinierte Modelle zur Erkennung von handschriftlichem Text zu trainieren. Diese einzigartige Funktion ...

4. April 2024

News

Transkribus Update - April 2024

Der Frühling hat begonnen und damit auch die Veröffentlichung von Transkribus im April 2024. Hier ist ein kurzer Überblick über alle ...

3. April 2024

News

Wie man französische Handschrift mit AI liest

Man kann viel über die französische Geschichte lernen, wenn man Bücher liest oder Dokumentarfilme sieht. Diese Arten von Quellen sind gut für ...

Cookie	Beschreibung	Dauer
viewed_cookie_policy	Das Cookie wird vom GDPR Cookie Consent Plugin gesetzt und dient dazu, zu speichern, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine persönlichen Daten.	1 Stunde
PHPSESSID	Dieses Cookie ist in PHP-Anwendungen enthalten. Der Cookie wird verwendet, um die eindeutige Sitzungs-ID eines Benutzers zu speichern und zu identifizieren, um die Benutzersitzung auf der Website zu verwalten. Das Cookie ist ein Sitzungscookie und wird gelöscht, wenn alle Browserfenster geschlossen werden.	1 Jahr

Cookie	Beschreibung	Dauer
BESUCHER_INFO1_LIVE	Dieses Cookie wird von Youtube gesetzt. Wird verwendet, um die Informationen der eingebetteten Youtube-Videos auf einer Website zu verfolgen.	5 Monate
IDE	Wird von Google DoubleClick verwendet und speichert Informationen darüber, wie der Nutzer die Website und andere Werbung vor dem Besuch der Website nutzt. Dies wird verwendet, um Nutzern Anzeigen zu präsentieren, die für sie entsprechend dem Nutzerprofil relevant sind.	2 Jahre

Cookie	Beschreibung	Dauer
GPS	Dieses Cookie wird von Youtube gesetzt und registriert eine eindeutige ID für die Nachverfolgung von Benutzern basierend auf ihrem geografischen Standort	30 Minuten
tk_oder	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	5 Jahre
tk_r3d	Das Cookie wird von JetPack installiert. Wird für die internen Metriken für Benutzeraktivitäten verwendet, um die Benutzererfahrung zu verbessern	3 Tage
tk_lr	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	1 Jahr
_ga	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Besucher-, Sitzungs- und Camapign-Daten zu berechnen und die Nutzung der Website für den Analysebericht der Website zu verfolgen. Die Cookies speichern Informationen anonym und weisen eine zufällig generierte Nummer zu, um eindeutige Besucher zu identifizieren.	2 Jahre
_gid	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Informationen darüber zu speichern, wie Besucher eine Website nutzen, und hilft bei der Erstellung eines Analyseberichts darüber, wie sich die Website verhält. Die gesammelten Daten umfassen die Anzahl der Besucher, die Quelle, von der sie kommen, und die besuchten Seiten in anonymer Form.	1 Tag
matomo	Für die statistische Analyse verwenden wir auf dieser Website "Matomo". Dies ist ein Open-Source-Tool für die Webanalyse. Matomo überträgt keine Daten an Server außerhalb der Kontrolle von READ-COOP. Matomo ist deaktiviert, wenn Sie unsere Website besuchen. Nur wenn Sie aktiv zustimmen, wird Ihr Nutzungsverhalten anonymisiert erfasst.	1 Jahr

Cookie	Beschreibung	Dauer
YSC	Dieses Cookie wird von Youtube gesetzt und dient dazu, die Aufrufe von eingebetteten Videos zu verfolgen.	1 Jahr
_gat	Dieses Cookie wird von Google Universal Analytics installiert, um die Abfragerate zu drosseln und so die Datensammlung auf stark frequentierten Seiten zu begrenzen.	1 Minute

+ Was ist ein Text? Beginn des Verständnisses der Theorie hinter der automatisierten Texterkennung

Neueste Beiträge

Wie Sie die CER Ihres Modells verbessern können

Transkribus Update - April 2024

Wie man französische Handschrift mit AI liest

Die COOP

Produkte & Dienstleistungen

Nützliche Informationen

Hilfreiche Ressourcen

Community