+ Transkribus-Freiwillige packen die dänische Handschrift an

Es gibt jetzt Tausende von Transkribus Benutzer, die mit Dokumenten aller Arten von Daten, Sprachen und Formaten arbeiten. Heute möchten wir einige der großartigen Arbeiten an den ersten Automated Text Recognition-Modellen für dänische Handschrift hervorheben.

Vagn Mørkeberg Christiansen ist ein pensionierter Freiwilliger im Archiv der Gemeinde Faxe in Dänemark. Das Archiv war daran interessiert, Transkribus zu nutzen, um eine Sammlung von Protokollen aus dem frühen zwanzigsten Jahrhundert für die Transkription und Suche zu erschließen. Vagn wurde eingeladen, dieses Experiment zu unternehmen.

Vagn benutzte Transkribus, um Trainingsdaten für die automatische Texterkennung zu erstellen, indem er ein paar hundert Seiten aus einer Sammlung von Protokollen der Gemeinde Braaby transkribierte. Diese Protokolle wurden zwischen 1912 und 1931 von J. P. Jensen und O. Christov geschrieben, die beide Vorsitzende des Gemeinderats waren. Beide Personen schrieben relativ deutlich, obwohl die Dokumente einige Komplikationen wie Abkürzungen und Ähnlichkeiten zwischen verschiedenen Zeichen enthalten.

Seite der Handschrift von J. P. Jensen aus dem Jahr 1913. Bild mit freundlicher Genehmigung des Archivs der Gemeinde Faxe, Dänemark.

Nach der letzten Zählung hat Vagn etwa 325 Seiten in Transkribus transkribiert. Diese Seiten wurden verwendet, um drei Texterkennungsmodelle für die zwei verschiedenen Hände in der Sammlung zu erstellen.

Das erste Modell wurde an 17.500 Wörtern von Jensens Schrift trainiert und die Ergebnisse waren vielversprechend. Automatisierte Transkripte, die mit diesem Modell erstellt wurden, erreichten eine durchschnittliche Zeichenfehlerrate von 7,7%.

Die nächsten beiden Modelle wurden auf Christovs Schreiben trainiert, das erste mit etwa 16.000 Wörtern und das zweite mit etwa 23.000 Wörtern. Erfreulicherweise gab es eine signifikante Verbesserung der Ergebnisse der automatisierten Transkription, als mehr Seiten an Trainingsdaten verwendet wurden. Die durchschnittliche Zeichenfehlerrate der automatisierten Transkripte sank von 9,9% auf 4,7%.

Seite von O. Christovs Handschrift aus dem Jahr 1922. Bild mit freundlicher Genehmigung des Archivs der Gemeinde Faxe, Dänemark.

Diese Zahlen stellen sehr gute Ergebnisse für die automatisierte Texterkennung dar. Transkripte mit solchen Zeichenfehlerraten können problemlos gelesen, durchsucht und korrigiert werden.

Die Verbesserung des trainierten Modells zur Erkennung von Christovs Handschrift ist auch eine hervorragende Demonstration des Big-Data-Ansatzes hinter Transkribus. Je mehr Bilder und Transkripte unserer Plattform als Trainingsdaten übermittelt werden, desto genauer kann die Erkennung werden.

Vagn ist begeistert von diesen Ergebnissen und plant, weiter zu transkribieren und Modelle zu trainieren. Sein nächstes Ziel ist es, das Christov-Modell noch einmal neu zu trainieren - diesmal mit 40.000 transkribierten Wörtern!

Wenn Sie Ihr eigenes Modell zur automatischen Texterkennung in Transkribus trainieren möchten, werfen Sie einen Blick auf die How to Guides auf der Transkribus-Wiki.

Wir arbeiten auch an einer Beta-Version von Transkribus Web, eine optimierte Web-Version von Transkribus, in der Freiwillige wie Vagn Trainingsmaterial für die Texterkennung leichter transkribieren können.

Wir bedanken uns bei Vagn Mørkeberg Christiansen für die Bereitstellung der Informationen für diesen Newsbeitrag.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Mai 2, 2024
News, Transkribus, Uncategorized
Wenn Sie neu bei Transkribus sind, haben Sie wahrscheinlich eine Menge Fragen zur Plattform. Wie kann ich Dokumente transkribieren? Was ist ...
25. April 2024
News, Transkribus
Im Januar haben wir unsere neuen Abonnementpläne angekündigt: Einzelpersonen, Stipendiaten und Organisationen. Jeder Plan ist auf eine bestimmte ...
April 17, 2024
News, Transkribus
Einer der größten Vorteile von Transkribus ist die Möglichkeit, benutzerdefinierte Modelle zur Erkennung von handschriftlichem Text zu trainieren. Diese einzigartige Funktion ...