+ Lesen des Tagebuchs von Admiral de Ruyter - Nutzung vorhandener Transkripte zum Training der automatischen Texterkennung

Nicoline van der Sijs ist Teil eines Teams von Forschern, die an der Institut Meertens in den Niederlanden (einer der READ MOU-Partner). Das Team hat ein Modell zur automatischen Texterkennung trainiert, um die Handschrift von Michiel de Ruyter, einem niederländischen Admiral aus dem siebzehnten Jahrhundert, zu verarbeiten.

Das Modell wurde mit ca. 20.000 Wörtern des vorhandenen transkribierten Materials aus de Ruyters Tagebüchern trainiert (siehe unten für ein Beispiel seiner kniffligen Handschrift!). Diese Transkriptionen wurden automatisch mit entsprechenden digitalisierten Bildern von de Ruyters Handschrift abgeglichen, wobei die Text2Img-Matching-Technologie verwendet wurde, die von der CITlab Team an der Universität Rostock (einer der READ-Projektpartner).

Das resultierende Modell ist in der Lage, die Handschrift von De Ruyter mit einer Zeichenfehlerrate (CER) von etwa 10% zu erkennen, was ein bemerkenswertes Ergebnis für eine so komplexe Hand ist.

Bild aus der Sammlung De Ruyter aus dem Nationalarchiv der Niederlande, NL HaNA 1.10.72 20 0004

Professor van der Sijs und ihre Kollegen planen, diese Transkriptionen zu nutzen, um ein Online-Korpus von de Ruyters Schriften für den allgemeinen Zugang und die wissenschaftliche linguistische Analyse zusammenzustellen.

Die Forscher des Meertens-Instituts sind auch daran interessiert, diese aufregenden Ergebnisse mit anderen Sammlungen zu replizieren, in denen bereits Transkriptionen vorhanden sind, dank der harten Arbeit von freiwilligen Transkribenten. Die Stichting Vrijwilligersnet Nederlandse Taal (SVNT) ist ein Netzwerk von etwa 100 Freiwilligen, die seit mehr als zehn Jahren historische Bibeln transkribieren. Zu dem von Freiwilligen transkribierten Material gehören auch Segelbriefe aus dem siebzehnten und achtzehnten Jahrhundert sowie gedruckte Zeitungen aus dem siebzehnten Jahrhundert. Die Transkriptionen, die diese Freiwilligen erstellt haben, können in unsere hochmoderne Technologie eingespeist und als Trainingsdaten für die automatische Texterkennung verwendet werden.

  • Haben Sie vorhandene Transkriptionen, die Sie im Rahmen eines Forschungsprojekts erstellt oder gesammelt haben?
  • Schicken Sie sie uns und wir können sie bearbeiten und ein Modell trainieren, um die Schrift in Ihren Dokumenten zu erkennen!
  • Um mehr über das Arbeiten mit vorhandenen Transkripten zu erfahren, konsultieren Sie unsere Wegweiser oder Kontakt.
DIESEN ARTIKEL TEILEN

Neueste Beiträge

19. September 2023
Transkribus
Wir freuen uns, die Veröffentlichung der Transkribus-Web-App im September 2023 bekannt geben zu können. Nach der erfolgreichen Umstellung auf die ...
30. August 2023
News, Transkribus
Heute ist die neue Transkribus Web-App offiziell gestartet! Transkribus hat schon immer daran gearbeitet, die Digitalisierung und Transkription von ...
21. August 2023
Transkribus Anwenderkonferenz
Die Transkribus User Conference 24 (15. und 16. Februar 2024, Innsbruck) lädt Interessierte, Nutzer, Wissenschaftler und Enthusiasten ein, sich mit dem ...