+ Lesen des Tagebuchs von Admiral de Ruyter - Nutzung vorhandener Transkripte zum Training der automatischen Texterkennung

Nicoline van der Sijs ist Teil eines Teams von Forschern, die an der Institut Meertens in den Niederlanden (einer der READ MOU-Partner). Das Team hat ein Modell zur automatischen Texterkennung trainiert, um die Handschrift von Michiel de Ruyter, einem niederländischen Admiral aus dem siebzehnten Jahrhundert, zu verarbeiten.

Das Modell wurde mit ca. 20.000 Wörtern des vorhandenen transkribierten Materials aus de Ruyters Tagebüchern trainiert (siehe unten für ein Beispiel seiner kniffligen Handschrift!). Diese Transkriptionen wurden automatisch mit entsprechenden digitalisierten Bildern von de Ruyters Handschrift abgeglichen, wobei die Text2Img-Matching-Technologie verwendet wurde, die von der CITlab Team an der Universität Rostock (einer der READ-Projektpartner).

Das resultierende Modell ist in der Lage, die Handschrift von De Ruyter mit einer Zeichenfehlerrate (CER) von etwa 10% zu erkennen, was ein bemerkenswertes Ergebnis für eine so komplexe Hand ist.

Bild aus der Sammlung De Ruyter aus dem Nationalarchiv der Niederlande, NL HaNA 1.10.72 20 0004

Professor van der Sijs und ihre Kollegen planen, diese Transkriptionen zu nutzen, um ein Online-Korpus von de Ruyters Schriften für den allgemeinen Zugang und die wissenschaftliche linguistische Analyse zusammenzustellen.

Die Forscher des Meertens-Instituts sind auch daran interessiert, diese aufregenden Ergebnisse mit anderen Sammlungen zu replizieren, in denen bereits Transkriptionen vorhanden sind, dank der harten Arbeit von freiwilligen Transkribenten. Die Stichting Vrijwilligersnet Nederlandse Taal (SVNT) ist ein Netzwerk von etwa 100 Freiwilligen, die seit mehr als zehn Jahren historische Bibeln transkribieren. Zu dem von Freiwilligen transkribierten Material gehören auch Segelbriefe aus dem siebzehnten und achtzehnten Jahrhundert sowie gedruckte Zeitungen aus dem siebzehnten Jahrhundert. Die Transkriptionen, die diese Freiwilligen erstellt haben, können in unsere hochmoderne Technologie eingespeist und als Trainingsdaten für die automatische Texterkennung verwendet werden.

  • Haben Sie vorhandene Transkriptionen, die Sie im Rahmen eines Forschungsprojekts erstellt oder gesammelt haben?
  • Schicken Sie sie uns und wir können sie bearbeiten und ein Modell trainieren, um die Schrift in Ihren Dokumenten zu erkennen!
  • Um mehr über das Arbeiten mit vorhandenen Transkripten zu erfahren, konsultieren Sie unsere Wegweiser oder Kontakt.
DIESEN ARTIKEL TEILEN

Neueste Beiträge

März 23, 2023
Transkribus
Gehen Sie in ein beliebiges Geschichtsmuseum oder lesen Sie ein Geschichtsbuch, und Sie werden feststellen, dass viele der Geschichten und Ereignisse ...
März 15, 2023
Uncategorized
Von Fiona Park Nicht jeder, der sich mit Geschichte beschäftigt, ist ein professioneller Historiker. Von Hobby-Genealogen bis hin zu Freiwilligen in lokalen ...
März 7, 2023
Transkribus
Die Herstellung von Büchern im Mittelalter war eine Herausforderung. Vor der Einführung des Buchdrucks wurden alle Bücher in mühsamer Kleinarbeit ...