+ Transkribus erkennt die frühneuzeitliche deutsche Korrespondenz

Die Forschungsgruppe Geschlechtergeschichte an der Universität Jena (Thüringen, Deutschland) experimentiert mit Transkribus als Teil eines Digitales Editionsprojekt zur Korrespondenz der Regentin des 18. Jahrhunderts, Erdmuthe Benigna von Reuß-Ebersdorf (1670-1732).

Die frühneuzeitlichen Schriften sind für die Technologie der automatischen Texterkennung sehr herausfordernd, da die Buchstaben meist eng miteinander verwoben sind, Abkürzungen recht häufig vorkommen und die Schreibweise der Wörter nicht standardisiert ist. Wie das folgende Beispiel zeigt, ist Erdmuthes Schrift nicht einfach zu folgen! Sie hatte einen einzigartigen Schreibstil und brach Wörter oft in einzelne Teile auf.

Musterseite eines Briefes (Quelle: Landesarchiv Thüringen - Staatsarchiv Greiz, Paragiatsherrschaft Köstritz, Von IV 15, fol. 56r ., Alle Rechte vorbehalten)

Um ein Modell zur Erkennung von Erdmuthes Schrift zu trainieren, nutzte das Gender History-Forschungsteam etwa 250 Seiten vorhandener Transkripte, die im Zuge der Arbeit an der digitalen Edition entstanden waren. Mit denselben Transkripten erstellten sie auch ein Wörterbuch von Erdmuthes Wortschatz, das in den Erkennungsprozess integriert werden kann.

Das resultierende Modell ist in der Lage, automatisierte Transkripte von Erdmuthes Schrift mit einer Zeichenfehlerrate (CER) von unter 9% zu erzeugen. Wenn ein Wörterbuch in den Erkennungsprozess einbezogen wird, werden die Fehler noch weiter reduziert.

Martin Prell aus dem Projektteam hat dieses Experiment in einem Bericht ausgearbeitet (in Deutsch). Er berichtet über die Erfahrungen bei der Aufbereitung der Trainingsdaten für die Texterkennung und die direkte Arbeit mit Transkribus. Wenn Sie darüber nachdenken, Transkribus für Ihr eigenes Projekt zu nutzen, könnte dieser sehr lehrreiche Beitrag helfen!

Bericht:

Andere Links:

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juli 3, 2024
News, Transkribus
Einige Transkribus-Projekte enden mit einer vollständig digitalisierten Sammlung in Transkribus. Andere nehmen diese digitalisierte Quelle und verwenden sie ...
Juni 12, 2024
News, Transkribus
Wenn man an karolingische (oder karolingische) Minuskeln denkt, kommen einem wahrscheinlich Karl der Große und sein riesiges karolingisches Reich in den Sinn. Während die ...
Mai 14, 2024
Uncategorized
Das Verstehen historischer Dokumente ist der Schlüssel zum Verständnis der Geschichte. Das Verstehen historischer Dokumente auf Polnisch kann jedoch eine Herausforderung sein. Nicht nur ...