+ Transkribus-Freiwillige packen die dänische Handschrift an

März 12, 2018
HTR-Modelle, Erfolgsgeschichten, Transkribus

Es gibt jetzt Tausende von Transkribus Benutzer, die mit Dokumenten aller Arten von Daten, Sprachen und Formaten arbeiten. Heute möchten wir einige der großartigen Arbeiten an den ersten Automated Text Recognition-Modellen für dänische Handschrift hervorheben.

Vagn Mørkeberg Christiansen ist ein pensionierter Freiwilliger im Archiv der Gemeinde Faxe in Dänemark. Das Archiv war daran interessiert, Transkribus zu nutzen, um eine Sammlung von Protokollen aus dem frühen zwanzigsten Jahrhundert für die Transkription und Suche zu erschließen. Vagn wurde eingeladen, dieses Experiment zu unternehmen.

Vagn benutzte Transkribus, um Trainingsdaten für die automatische Texterkennung zu erstellen, indem er ein paar hundert Seiten aus einer Sammlung von Protokollen der Gemeinde Braaby transkribierte. Diese Protokolle wurden zwischen 1912 und 1931 von J. P. Jensen und O. Christov geschrieben, die beide Vorsitzende des Gemeinderats waren. Beide Personen schrieben relativ deutlich, obwohl die Dokumente einige Komplikationen wie Abkürzungen und Ähnlichkeiten zwischen verschiedenen Zeichen enthalten.

Seite der Handschrift von J. P. Jensen aus dem Jahr 1913. Bild mit freundlicher Genehmigung des Archivs der Gemeinde Faxe, Dänemark.

Nach der letzten Zählung hat Vagn etwa 325 Seiten in Transkribus transkribiert. Diese Seiten wurden verwendet, um drei Texterkennungsmodelle für die zwei verschiedenen Hände in der Sammlung zu erstellen.

Das erste Modell wurde an 17.500 Wörtern von Jensens Schrift trainiert und die Ergebnisse waren vielversprechend. Automatisierte Transkripte, die mit diesem Modell erstellt wurden, erreichten eine durchschnittliche Zeichenfehlerrate von 7,7%.

Die nächsten beiden Modelle wurden auf Christovs Schreiben trainiert, das erste mit etwa 16.000 Wörtern und das zweite mit etwa 23.000 Wörtern. Erfreulicherweise gab es eine signifikante Verbesserung der Ergebnisse der automatisierten Transkription, als mehr Seiten an Trainingsdaten verwendet wurden. Die durchschnittliche Zeichenfehlerrate der automatisierten Transkripte sank von 9,9% auf 4,7%.

Seite von O. Christovs Handschrift aus dem Jahr 1922. Bild mit freundlicher Genehmigung des Archivs der Gemeinde Faxe, Dänemark.

Diese Zahlen stellen sehr gute Ergebnisse für die automatisierte Texterkennung dar. Transkripte mit solchen Zeichenfehlerraten können problemlos gelesen, durchsucht und korrigiert werden.

Die Verbesserung des trainierten Modells zur Erkennung von Christovs Handschrift ist auch eine hervorragende Demonstration des Big-Data-Ansatzes hinter Transkribus. Je mehr Bilder und Transkripte unserer Plattform als Trainingsdaten übermittelt werden, desto genauer kann die Erkennung werden.

Vagn ist begeistert von diesen Ergebnissen und plant, weiter zu transkribieren und Modelle zu trainieren. Sein nächstes Ziel ist es, das Christov-Modell noch einmal neu zu trainieren - diesmal mit 40.000 transkribierten Wörtern!

Wenn Sie Ihr eigenes Modell zur automatischen Texterkennung in Transkribus trainieren möchten, werfen Sie einen Blick auf die How to Guides auf der Transkribus-Wiki.

Wir arbeiten auch an einer Beta-Version von Transkribus Web, eine optimierte Web-Version von Transkribus, in der Freiwillige wie Vagn Trainingsmaterial für die Texterkennung leichter transkribieren können.

Wir bedanken uns bei Vagn Mørkeberg Christiansen für die Bereitstellung der Informationen für diesen Newsbeitrag.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juli 3, 2024

News, Transkribus

Kartierung der Konzerte von Beethoven und Haydn: das Projekt "Konzertleben in Wien".

Einige Transkribus-Projekte enden mit einer vollständig digitalisierten Sammlung in Transkribus. Andere nehmen diese digitalisierte Quelle und verwenden sie ...

Juni 12, 2024

News, Transkribus

Was ist die karolingische Minuskel?

Wenn man an karolingische (oder karolingische) Minuskeln denkt, kommen einem wahrscheinlich Karl der Große und sein riesiges karolingisches Reich in den Sinn. Während die ...

Mai 14, 2024

Uncategorized

KI-Modelle für das Lesen von kursiven und gedruckten polnischen Texten

Das Verstehen historischer Dokumente ist der Schlüssel zum Verständnis der Geschichte. Das Verstehen historischer Dokumente auf Polnisch kann jedoch eine Herausforderung sein. Nicht nur ...

Cookie	Beschreibung	Dauer
viewed_cookie_policy	Das Cookie wird vom GDPR Cookie Consent Plugin gesetzt und dient dazu, zu speichern, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine persönlichen Daten.	1 Stunde
PHPSESSID	Dieses Cookie ist in PHP-Anwendungen enthalten. Der Cookie wird verwendet, um die eindeutige Sitzungs-ID eines Benutzers zu speichern und zu identifizieren, um die Benutzersitzung auf der Website zu verwalten. Das Cookie ist ein Sitzungscookie und wird gelöscht, wenn alle Browserfenster geschlossen werden.	1 Jahr

Cookie	Beschreibung	Dauer
BESUCHER_INFO1_LIVE	Dieses Cookie wird von Youtube gesetzt. Wird verwendet, um die Informationen der eingebetteten Youtube-Videos auf einer Website zu verfolgen.	5 Monate
IDE	Wird von Google DoubleClick verwendet und speichert Informationen darüber, wie der Nutzer die Website und andere Werbung vor dem Besuch der Website nutzt. Dies wird verwendet, um Nutzern Anzeigen zu präsentieren, die für sie entsprechend dem Nutzerprofil relevant sind.	2 Jahre

Cookie	Beschreibung	Dauer
GPS	Dieses Cookie wird von Youtube gesetzt und registriert eine eindeutige ID für die Nachverfolgung von Benutzern basierend auf ihrem geografischen Standort	30 Minuten
tk_oder	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	5 Jahre
tk_r3d	Das Cookie wird von JetPack installiert. Wird für die internen Metriken für Benutzeraktivitäten verwendet, um die Benutzererfahrung zu verbessern	3 Tage
tk_lr	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	1 Jahr
_ga	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Besucher-, Sitzungs- und Camapign-Daten zu berechnen und die Nutzung der Website für den Analysebericht der Website zu verfolgen. Die Cookies speichern Informationen anonym und weisen eine zufällig generierte Nummer zu, um eindeutige Besucher zu identifizieren.	2 Jahre
_gid	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Informationen darüber zu speichern, wie Besucher eine Website nutzen, und hilft bei der Erstellung eines Analyseberichts darüber, wie sich die Website verhält. Die gesammelten Daten umfassen die Anzahl der Besucher, die Quelle, von der sie kommen, und die besuchten Seiten in anonymer Form.	1 Tag
matomo	Für die statistische Analyse verwenden wir auf dieser Website "Matomo". Dies ist ein Open-Source-Tool für die Webanalyse. Matomo überträgt keine Daten an Server außerhalb der Kontrolle von READ-COOP. Matomo ist deaktiviert, wenn Sie unsere Website besuchen. Nur wenn Sie aktiv zustimmen, wird Ihr Nutzungsverhalten anonymisiert erfasst.	1 Jahr

Cookie	Beschreibung	Dauer
YSC	Dieses Cookie wird von Youtube gesetzt und dient dazu, die Aufrufe von eingebetteten Videos zu verfolgen.	1 Jahr
_gat	Dieses Cookie wird von Google Universal Analytics installiert, um die Abfragerate zu drosseln und so die Datensammlung auf stark frequentierten Seiten zu begrenzen.	1 Minute

+ Transkribus-Freiwillige packen die dänische Handschrift an

Neueste Beiträge

Kartierung der Konzerte von Beethoven und Haydn: das Projekt "Konzertleben in Wien".

Was ist die karolingische Minuskel?

KI-Modelle für das Lesen von kursiven und gedruckten polnischen Texten

Die COOP

Produkte & Dienstleistungen

Nützliche Informationen

Hilfreiche Ressourcen

Community