+ Transkribus-Freiwillige packen die dänische Handschrift an

Es gibt jetzt Tausende von Transkribus Benutzer, die mit Dokumenten aller Arten von Daten, Sprachen und Formaten arbeiten. Heute möchten wir einige der großartigen Arbeiten an den ersten Automated Text Recognition-Modellen für dänische Handschrift hervorheben.

Vagn Mørkeberg Christiansen ist ein pensionierter Freiwilliger im Archiv der Gemeinde Faxe in Dänemark. Das Archiv war daran interessiert, Transkribus zu nutzen, um eine Sammlung von Protokollen aus dem frühen zwanzigsten Jahrhundert für die Transkription und Suche zu erschließen. Vagn wurde eingeladen, dieses Experiment zu unternehmen.

Vagn benutzte Transkribus, um Trainingsdaten für die automatische Texterkennung zu erstellen, indem er ein paar hundert Seiten aus einer Sammlung von Protokollen der Gemeinde Braaby transkribierte. Diese Protokolle wurden zwischen 1912 und 1931 von J. P. Jensen und O. Christov geschrieben, die beide Vorsitzende des Gemeinderats waren. Beide Personen schrieben relativ deutlich, obwohl die Dokumente einige Komplikationen wie Abkürzungen und Ähnlichkeiten zwischen verschiedenen Zeichen enthalten.

Seite der Handschrift von J. P. Jensen aus dem Jahr 1913. Bild mit freundlicher Genehmigung des Archivs der Gemeinde Faxe, Dänemark.

Nach der letzten Zählung hat Vagn etwa 325 Seiten in Transkribus transkribiert. Diese Seiten wurden verwendet, um drei Texterkennungsmodelle für die zwei verschiedenen Hände in der Sammlung zu erstellen.

Das erste Modell wurde an 17.500 Wörtern von Jensens Schrift trainiert und die Ergebnisse waren vielversprechend. Automatisierte Transkripte, die mit diesem Modell erstellt wurden, erreichten eine durchschnittliche Zeichenfehlerrate von 7,7%.

Die nächsten beiden Modelle wurden auf Christovs Schreiben trainiert, das erste mit etwa 16.000 Wörtern und das zweite mit etwa 23.000 Wörtern. Erfreulicherweise gab es eine signifikante Verbesserung der Ergebnisse der automatisierten Transkription, als mehr Seiten an Trainingsdaten verwendet wurden. Die durchschnittliche Zeichenfehlerrate der automatisierten Transkripte sank von 9,9% auf 4,7%.

Seite von O. Christovs Handschrift aus dem Jahr 1922. Bild mit freundlicher Genehmigung des Archivs der Gemeinde Faxe, Dänemark.

Diese Zahlen stellen sehr gute Ergebnisse für die automatisierte Texterkennung dar. Transkripte mit solchen Zeichenfehlerraten können problemlos gelesen, durchsucht und korrigiert werden.

Die Verbesserung des trainierten Modells zur Erkennung von Christovs Handschrift ist auch eine hervorragende Demonstration des Big-Data-Ansatzes hinter Transkribus. Je mehr Bilder und Transkripte unserer Plattform als Trainingsdaten übermittelt werden, desto genauer kann die Erkennung werden.

Vagn ist begeistert von diesen Ergebnissen und plant, weiter zu transkribieren und Modelle zu trainieren. Sein nächstes Ziel ist es, das Christov-Modell noch einmal neu zu trainieren - diesmal mit 40.000 transkribierten Wörtern!

Wenn Sie Ihr eigenes Modell zur automatischen Texterkennung in Transkribus trainieren möchten, werfen Sie einen Blick auf die How to Guides auf der Transkribus-Wiki.

Wir arbeiten auch an einer Beta-Version von Transkribus Web, eine optimierte Web-Version von Transkribus, in der Freiwillige wie Vagn Trainingsmaterial für die Texterkennung leichter transkribieren können.

Wir bedanken uns bei Vagn Mørkeberg Christiansen für die Bereitstellung der Informationen für diesen Newsbeitrag.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juli 4, 2022
HTR-Modelle
Der jüngste Neuzugang in der langen Liste der öffentlichen Transkribus-Modelle stammt aus dem norwegischen Nationalarchiv. Dank der ...
Juni 20, 2022
Transkribus
Von Joe Nockels, Universität Edinburgh Im Rahmen seiner Doktorarbeit an der Universität Edinburgh und der Nationalbibliothek ...
Juni 15, 2022
Transkribus, Webinare
Wir freuen uns, unsere neue "Ask Us Anything"-Webinarreihe zu starten, in der die Teilnehmer uns alles fragen können, was mit ...