+ Lesen des Tagebuchs von Admiral de Ruyter - Nutzung vorhandener Transkripte zum Training der automatischen Texterkennung

Nicoline van der Sijs ist Teil eines Teams von Forschern, die an der Institut Meertens in den Niederlanden (einer der READ MOU-Partner). Das Team hat ein Modell zur automatischen Texterkennung trainiert, um die Handschrift von Michiel de Ruyter, einem niederländischen Admiral aus dem siebzehnten Jahrhundert, zu verarbeiten.

Das Modell wurde mit ca. 20.000 Wörtern des vorhandenen transkribierten Materials aus de Ruyters Tagebüchern trainiert (siehe unten für ein Beispiel seiner kniffligen Handschrift!). Diese Transkriptionen wurden automatisch mit entsprechenden digitalisierten Bildern von de Ruyters Handschrift abgeglichen, wobei die Text2Img-Matching-Technologie verwendet wurde, die von der CITlab Team an der Universität Rostock (einer der READ-Projektpartner).

Das resultierende Modell ist in der Lage, die Handschrift von De Ruyter mit einer Zeichenfehlerrate (CER) von etwa 10% zu erkennen, was ein bemerkenswertes Ergebnis für eine so komplexe Hand ist.

Bild aus der Sammlung De Ruyter aus dem Nationalarchiv der Niederlande, NL HaNA 1.10.72 20 0004

Professor van der Sijs und ihre Kollegen planen, diese Transkriptionen zu nutzen, um ein Online-Korpus von de Ruyters Schriften für den allgemeinen Zugang und die wissenschaftliche linguistische Analyse zusammenzustellen.

Die Forscher des Meertens-Instituts sind auch daran interessiert, diese aufregenden Ergebnisse mit anderen Sammlungen zu replizieren, in denen bereits Transkriptionen vorhanden sind, dank der harten Arbeit von freiwilligen Transkribenten. Die Stichting Vrijwilligersnet Nederlandse Taal (SVNT) ist ein Netzwerk von etwa 100 Freiwilligen, die seit mehr als zehn Jahren historische Bibeln transkribieren. Zu dem von Freiwilligen transkribierten Material gehören auch Segelbriefe aus dem siebzehnten und achtzehnten Jahrhundert sowie gedruckte Zeitungen aus dem siebzehnten Jahrhundert. Die Transkriptionen, die diese Freiwilligen erstellt haben, können in unsere hochmoderne Technologie eingespeist und als Trainingsdaten für die automatische Texterkennung verwendet werden.

  • Haben Sie vorhandene Transkriptionen, die Sie im Rahmen eines Forschungsprojekts erstellt oder gesammelt haben?
  • Schicken Sie sie uns und wir können sie bearbeiten und ein Modell trainieren, um die Schrift in Ihren Dokumenten zu erkennen!
  • Um mehr über das Arbeiten mit vorhandenen Transkripten zu erfahren, konsultieren Sie unsere Wegweiser oder Kontakt.
DIESEN ARTIKEL TEILEN

Neueste Beiträge

25. April 2024
News, Transkribus
Im Januar haben wir unsere neuen Abonnementpläne angekündigt: Einzelpersonen, Stipendiaten und Organisationen. Jeder Plan ist auf eine bestimmte ...
April 17, 2024
News, Transkribus
Einer der größten Vorteile von Transkribus ist die Möglichkeit, benutzerdefinierte Modelle zur Erkennung von handschriftlichem Text zu trainieren. Diese einzigartige Funktion ...
4. April 2024
News
Der Frühling hat begonnen und damit auch die Veröffentlichung von Transkribus im April 2024. Hier ist ein kurzer Überblick über alle ...