+ Lesen des Tagebuchs von Admiral de Ruyter - Nutzung vorhandener Transkripte zum Training der automatischen Texterkennung

Nicoline van der Sijs ist Teil eines Teams von Forschern, die an der Institut Meertens in den Niederlanden (einer der READ MOU-Partner). Das Team hat ein Modell zur automatischen Texterkennung trainiert, um die Handschrift von Michiel de Ruyter, einem niederländischen Admiral aus dem siebzehnten Jahrhundert, zu verarbeiten.

Das Modell wurde mit ca. 20.000 Wörtern des vorhandenen transkribierten Materials aus de Ruyters Tagebüchern trainiert (siehe unten für ein Beispiel seiner kniffligen Handschrift!). Diese Transkriptionen wurden automatisch mit entsprechenden digitalisierten Bildern von de Ruyters Handschrift abgeglichen, wobei die Text2Img-Matching-Technologie verwendet wurde, die von der CITlab Team an der Universität Rostock (einer der READ-Projektpartner).

Das resultierende Modell ist in der Lage, die Handschrift von De Ruyter mit einer Zeichenfehlerrate (CER) von etwa 10% zu erkennen, was ein bemerkenswertes Ergebnis für eine so komplexe Hand ist.

Bild aus der Sammlung De Ruyter aus dem Nationalarchiv der Niederlande, NL HaNA 1.10.72 20 0004

Professor van der Sijs und ihre Kollegen planen, diese Transkriptionen zu nutzen, um ein Online-Korpus von de Ruyters Schriften für den allgemeinen Zugang und die wissenschaftliche linguistische Analyse zusammenzustellen.

Die Forscher des Meertens-Instituts sind auch daran interessiert, diese aufregenden Ergebnisse mit anderen Sammlungen zu replizieren, in denen bereits Transkriptionen vorhanden sind, dank der harten Arbeit von freiwilligen Transkribenten. Die Stichting Vrijwilligersnet Nederlandse Taal (SVNT) ist ein Netzwerk von etwa 100 Freiwilligen, die seit mehr als zehn Jahren historische Bibeln transkribieren. Zu dem von Freiwilligen transkribierten Material gehören auch Segelbriefe aus dem siebzehnten und achtzehnten Jahrhundert sowie gedruckte Zeitungen aus dem siebzehnten Jahrhundert. Die Transkriptionen, die diese Freiwilligen erstellt haben, können in unsere hochmoderne Technologie eingespeist und als Trainingsdaten für die automatische Texterkennung verwendet werden.

  • Haben Sie vorhandene Transkriptionen, die Sie im Rahmen eines Forschungsprojekts erstellt oder gesammelt haben?
  • Schicken Sie sie uns und wir können sie bearbeiten und ein Modell trainieren, um die Schrift in Ihren Dokumenten zu erkennen!
  • Um mehr über das Arbeiten mit vorhandenen Transkripten zu erfahren, konsultieren Sie unsere Wegweiser oder Kontakt.
DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juni 20, 2022
Transkribus
Von Joe Nockels, Universität Edinburgh Im Rahmen seiner Doktorarbeit an der Universität Edinburgh und der Nationalbibliothek ...
Juni 15, 2022
Transkribus, Webinare
Wir freuen uns, unsere neue "Ask Us Anything"-Webinarreihe zu starten, in der die Teilnehmer uns alles fragen können, was mit ...
Juni 9, 2022
Uncategorized
Die neue Freigabefunktion Es mag eine kleine Schaltfläche für einen Bildschirm sein, aber sie ist eine großartige Funktion für ...