+ Lesen des Tagebuchs von Admiral de Ruyter - Nutzung vorhandener Transkripte zum Training der automatischen Texterkennung

Nicoline van der Sijs ist Teil eines Teams von Forschern, die an der Institut Meertens in den Niederlanden (einer der READ MOU-Partner). Das Team hat ein Modell zur automatischen Texterkennung trainiert, um die Handschrift von Michiel de Ruyter, einem niederländischen Admiral aus dem siebzehnten Jahrhundert, zu verarbeiten.

Das Modell wurde mit ca. 20.000 Wörtern des vorhandenen transkribierten Materials aus de Ruyters Tagebüchern trainiert (siehe unten für ein Beispiel seiner kniffligen Handschrift!). Diese Transkriptionen wurden automatisch mit entsprechenden digitalisierten Bildern von de Ruyters Handschrift abgeglichen, wobei die Text2Img-Matching-Technologie verwendet wurde, die von der CITlab Team an der Universität Rostock (einer der READ-Projektpartner).

Das resultierende Modell ist in der Lage, die Handschrift von De Ruyter mit einer Zeichenfehlerrate (CER) von etwa 10% zu erkennen, was ein bemerkenswertes Ergebnis für eine so komplexe Hand ist.

Bild aus der Sammlung De Ruyter aus dem Nationalarchiv der Niederlande, NL HaNA 1.10.72 20 0004

Professor van der Sijs und ihre Kollegen planen, diese Transkriptionen zu nutzen, um ein Online-Korpus von de Ruyters Schriften für den allgemeinen Zugang und die wissenschaftliche linguistische Analyse zusammenzustellen.

Die Forscher des Meertens-Instituts sind auch daran interessiert, diese aufregenden Ergebnisse mit anderen Sammlungen zu replizieren, in denen bereits Transkriptionen vorhanden sind, dank der harten Arbeit von freiwilligen Transkribenten. Die Stichting Vrijwilligersnet Nederlandse Taal (SVNT) ist ein Netzwerk von etwa 100 Freiwilligen, die seit mehr als zehn Jahren historische Bibeln transkribieren. Zu dem von Freiwilligen transkribierten Material gehören auch Segelbriefe aus dem siebzehnten und achtzehnten Jahrhundert sowie gedruckte Zeitungen aus dem siebzehnten Jahrhundert. Die Transkriptionen, die diese Freiwilligen erstellt haben, können in unsere hochmoderne Technologie eingespeist und als Trainingsdaten für die automatische Texterkennung verwendet werden.

  • Haben Sie vorhandene Transkriptionen, die Sie im Rahmen eines Forschungsprojekts erstellt oder gesammelt haben?
  • Schicken Sie sie uns und wir können sie bearbeiten und ein Modell trainieren, um die Schrift in Ihren Dokumenten zu erkennen!
  • Um mehr über das Arbeiten mit vorhandenen Transkripten zu erfahren, konsultieren Sie unsere Wegweiser oder Kontakt.
DIESEN ARTIKEL TEILEN

Neueste Beiträge

November 17, 2022
Transkribus
Wir freuen uns sehr, Ihnen mitteilen zu können, dass wir gestern 100.000 Nutzer auf der Transkribus-Plattform erreicht haben! Trotz unserer jahrelangen, sehr ...
August 12, 2022
Erkennung von handgeschriebenem Text
Hatten Sie schon einmal Probleme, die Handschrift einer anderen Person zu lesen? Vielleicht beruhigt es Sie zu wissen, dass es nicht nur Menschen sind, die ...
22. Juli 2022
Uncategorized
Die neueste Version von Transkribus Lite ist da und bringt eine Reihe von neuen Funktionen. Hier sind die wichtigsten ...