+ Transkribus erkennt die frühneuzeitliche deutsche Korrespondenz

Die Forschungsgruppe Geschlechtergeschichte an der Universität Jena (Thüringen, Deutschland) experimentiert mit Transkribus als Teil eines Digitales Editionsprojekt zur Korrespondenz der Regentin des 18. Jahrhunderts, Erdmuthe Benigna von Reuß-Ebersdorf (1670-1732).

Die frühneuzeitlichen Schriften sind für die Technologie der automatischen Texterkennung sehr herausfordernd, da die Buchstaben meist eng miteinander verwoben sind, Abkürzungen recht häufig vorkommen und die Schreibweise der Wörter nicht standardisiert ist. Wie das folgende Beispiel zeigt, ist Erdmuthes Schrift nicht einfach zu folgen! Sie hatte einen einzigartigen Schreibstil und brach Wörter oft in einzelne Teile auf.

Musterseite eines Briefes (Quelle: Landesarchiv Thüringen - Staatsarchiv Greiz, Paragiatsherrschaft Köstritz, Von IV 15, fol. 56r ., Alle Rechte vorbehalten)

Um ein Modell zur Erkennung von Erdmuthes Schrift zu trainieren, nutzte das Gender History-Forschungsteam etwa 250 Seiten vorhandener Transkripte, die im Zuge der Arbeit an der digitalen Edition entstanden waren. Mit denselben Transkripten erstellten sie auch ein Wörterbuch von Erdmuthes Wortschatz, das in den Erkennungsprozess integriert werden kann.

Das resultierende Modell ist in der Lage, automatisierte Transkripte von Erdmuthes Schrift mit einer Zeichenfehlerrate (CER) von unter 9% zu erzeugen. Wenn ein Wörterbuch in den Erkennungsprozess einbezogen wird, werden die Fehler noch weiter reduziert.

Martin Prell aus dem Projektteam hat dieses Experiment in einem Bericht ausgearbeitet (in Deutsch). Er berichtet über die Erfahrungen bei der Aufbereitung der Trainingsdaten für die Texterkennung und die direkte Arbeit mit Transkribus. Wenn Sie darüber nachdenken, Transkribus für Ihr eigenes Projekt zu nutzen, könnte dieser sehr lehrreiche Beitrag helfen!

Bericht:

Andere Links:

DIESEN ARTIKEL TEILEN

Neueste Beiträge

April 17, 2024
News, Transkribus
Einer der größten Vorteile von Transkribus ist die Möglichkeit, benutzerdefinierte Modelle zur Erkennung von handschriftlichem Text zu trainieren. Diese einzigartige Funktion ...
4. April 2024
News
Der Frühling hat begonnen und damit auch die Veröffentlichung von Transkribus im April 2024. Hier ist ein kurzer Überblick über alle ...
3. April 2024
News
Man kann viel über die französische Geschichte lernen, wenn man Bücher liest oder Dokumentarfilme sieht. Diese Arten von Quellen sind gut für ...