Die Zukunft der Informationsextraktion - Nehmen Sie teil an TUC 2024! 15. und 16. Februar, persönlich und online. Holen Sie sich Ihr Ticket >>

Training eines mehrsprachigen Modells in Transkribus: Jeff Rusten

Die meisten Transkribus-Modelle sind auch darauf trainiert, nur eine Sprache zu lesen - schließlich sind die meisten historischen Dokumente in einer Sprache verfasst. Was aber, wenn Ihr Dokument drei (oder sogar mehr) Sprachen enthält? Kann man ein Modell darauf trainieren, alle drei gleichzeitig zu lesen?

Die Antwort ist ja, wie Jeff Rusten und sein Team an der Cornell University kürzlich bewiesen haben. Rustens Forschungsgruppe hat an einem Wörterbuch aller Wörter gearbeitet, die der antike griechische Komödiendichter Aristophanes verwendet hat. Das unveröffentlichte Lexikon wurde 1910 von Ernst Wüst, einem deutschen Klassizisten, zusammengestellt und ist vollständig in seiner Handschrift verfasst. Es ist in drei verschiedenen Sprachen verfasst: Altgriechisch, Latein und Wüsts Muttersprache Deutsch. 

Da es derzeit kein öffentliches Modell für diese Sprachkombination gibt, musste das Team von Rusten sein eigenes mehrsprachiges Modell von Grund auf trainieren. Wir sprachen mit Rusten und seinem Kollegen Ethan Della Rocca darüber, wie sie ihr mehrsprachiges Modell trainierten und es zur Transkription des Wüst-Lexikons verwendeten.

Das gesamte Lexikon von Wüst wurde von Hand geschrieben. © K G Saur Verlag

Wüsts Lexikon zu Aristophanes

Aristophanes' Komödien aus dem fünften Jahrhundert v. Chr. wurden nicht nur wegen ihrer satirischen Sicht auf das Leben im antiken Athen berühmt, sondern auch wegen ihres ungewöhnlichen Sprachstils. "Aristophanes' Sprache ist im klassischen Griechisch einzigartig, denn sie verbindet hohe Poesie und intellektuelle Terminologie mit Umgangssprache, Begriffen aus dem täglichen Leben und sogar Obszönitäten", erklärt Rusten. "Sein lexikalisches Korpus wurde schon in der Antike geschätzt und studiert."

Um die Sprache des Aristophanes vollständig studieren zu können, muss man jedoch Zugang zu einem umfassenden Lexikon haben, das die Bedeutungen, die semantischen Beziehungen und den Gebrauch mit Schlüsselbeispielen detailliert beschreibt. "Wir dachten, es gäbe kein adäquates Lexikon, aber in der Bibliothek von Cornell fanden wir eine Sammlung von Mikrofiche-Abbildungen des unveröffentlichten Manuskripts von Ernst Wüst aus dem Jahr 1984. Für Uneingeweihte: Ein Mikrofiche ist ein kleines Stück Fotofilm, das Abbildungen von Seiten mit schriftlichem Material enthält. Vor der Digitalisierung wurden sie verwendet, um Materialien wie Zeitungen aufzubewahren, ohne zu viel Platz in einem Archiv einzunehmen. In den 1980er Jahren gab es einen Vorstoß zur Verwendung von Mikrofiches, um sicherzustellen, dass Manuskripte auf verfallendem Papier für immer erhalten bleiben. 

Eines dieser Manuskripte war Wüsts Lexikon zu Aristophanes aus der Zeit um 1910. "Der Verleger K. G. Saur beschloss, das Lexikon zu bewahren, da das Originalmanuskript bis heute nicht auffindbar ist und es sonst vielleicht für immer verloren gegangen wäre. Die Publikation wurde von keinem späteren Wissenschaftler je rezensiert oder auch nur erwähnt, wahrscheinlich weil der Zugang in den 1980er Jahren zu gewagt war, ganz zu schweigen vom Lesen." 

Das Wüst-Lexikon wurde seit den 1980er Jahren als Mikrofiches aufbewahrt. © K G Saur Verlag

Erstellung eines digitalen Lexikons

Der beste Weg, Wüsts Lexikon wirklich zu bewahren, ist natürlich die Erstellung einer digitalen Version, die es Wissenschaftlern ermöglicht, die 1500 Seiten des Manuskripts schnell zu durchsuchen und auch zusätzliche Informationen zu den einzelnen Einträgen bereitzustellen. "Eine digitale Version kann jedes Wort mit seiner Grundbedeutung, seiner Wortfamilie, seiner Semantik und seiner Verbreitung in den Werken des Autors verknüpfen, sowie eine vollständige Liste aller Vorkommen, sortiert nach Werk und mit einem Hyperlink zu der Passage, die ihren Kontext darstellt, bereitstellen." 

Rustens Team hatte bereits eine Online-Plattform, Lexeis.org, geschaffen, die es ermöglicht, digitale Versionen von Lexika auf diese Weise zu veröffentlichen. "Wir haben dies bereits für Thukydides und Platon getan, und nun auch für Aristophanes. Das Hinzufügen des digitalisierten Lexikons von Wüst wird die Plattform erheblich verbessern."

Die Plattform Lexeis.org zeigt sowohl Definitionen als auch Vorkommen der von Aristophanes verwendeten Wörter. © Lexeis.org

Auswahl einer Transkriptionsplattform

Dies war nicht das erste Mal, dass das Team Technologien einsetzte, um den Transkriptionsprozess zu beschleunigen. "Wir hatten bereits ein OCR-Paket für Neugriechisch ausprobiert, aber Altgriechisch hat viel mehr Akzente und andere diakritische Zeichen, die für OCR-Plattformen schwer zu erkennen sind. Wir hatten auch Tesseract verwendet, um das Platon-Lexikon von Ast zu transkribieren (das auch in Altgriechisch, Latein und Deutsch vorliegt), aber wir hatten nur begrenzten Erfolg."

Mit dem Wüst-Lexikon stieß das Team eher zufällig auf Transkribus. "Wir haben die Plattform entdeckt, als wir nach Informationen über die deutsche Kurrentschrift suchten. Dann nahmen wir an einem fünfstündigen Trainingsworkshop von Sara Mansutti in Yale teil, der uns zeigte, dass Transkribus viele klare Vorteile gegenüber anderen Methoden hat."

"Erstens kann es sowohl handschriftliche als auch gedruckte Schriften verarbeiten. Außerdem bietet es eine Computerplattform für das Training von Transkriptionsmodellen für bestimmte Schriften und Hände, basierend auf neuronalen Netzen. Uns gefiel, dass die Methoden klar erklärt und auch für Nichtfachleute zugänglich sind, mit Videos von vergangenen Workshops und instruktiven Webseiten. Schließlich werden die Modelle früherer Nutzer für die Transkription und das erneute Training durch neue Nutzer zur Verfügung gestellt. Das spart eine Menge Zeit bei der Erstellung von Modellen".

Das Team verwendete Transkribus, um automatische Transkriptionen für den Großteil der Seiten zu erstellen. © K G Saur Verlag

Vorbereitung des Lexikons für die Transkription

Nachdem man sich für Transkribus entschieden hatte, bestand die nächste Herausforderung für das Team darin, digitale Scans der 1500 Mikrofiches des Wüst-Lexikons zu erstellen. "Heutzutage gibt es hochwertige digitale Lesegeräte für Mikrofiches. Mit Hilfe der Ausrüstung und des Personals der Cornell Library und nach vielen Versuchen und Fehlern waren wir in der Lage, in etwas mehr als vier Wochen akzeptable jpeg-Bilder (detailliert genug, um hineinzuzoomen, aber immer noch unter der 10-MB-Grenze von Transkribus) von allen 1500 Seiten zu erstellen."

Ausgestattet mit den digitalen Scans wählte das Team dann 50 Seiten aus, die es manuell als "Ground Truth" transkribierte. Della Rocca erläuterte ihre Strategie. "Wir wollten Seiten mit unterschiedlichen Strukturen aufnehmen, darunter sowohl kurze Einträge mit viel Platz zwischen den einzelnen Einträgen als auch längere Einträge mit wenig Platz zwischen den Zeilen. Eine der wichtigsten Überlegungen war es, eine gute Abdeckung der verschiedenen Buchstaben zu erhalten, wenn sie in der Anfangsposition der Zeile platziert sind, da dies die Identifizierung jedes Artikels und seines jeweiligen Lemmas wesentlich erleichtert."

"Wir haben auch Seiten ausgewählt, die repräsentativ für den unterschiedlichen Grad der Marginalien im Text sind, obwohl wir Marginalien ausgeschlossen haben, die zu schwach sind, um sie zu erkennen - vielleicht werden wir eines Tages das Originalmanuskript finden!"

Eine Vielzahl von Seiten wurde als Trainingsdaten ausgewählt. © K G Saur Verlag

Training eines mehrsprachigen Modells

Die manuelle Transkription der 50 ausgewählten Seiten wurde zum Teil von studentischen Mitarbeitern der Universität durchgeführt, die zwar Altgriechisch und Latein, aber nicht immer Deutsch beherrschten. Rusten erinnerte sich: "Das anfängliche Problem für uns Amerikaner war die Unvertrautheit mit der deutschen Kurrentschrift. Wir benutzten die Deutsche Handschrift M1 Modell, um eine erste Transkription der Seiten zu erstellen, an denen wir arbeiteten. Es hat die deutsche Sprache gut erkannt, aber das Lateinische und Griechische wurde ebenfalls als deutsch erkannt." 

"Das bedeutete, dass wir die Teile, die falsch erkannt wurden, manuell transkribieren mussten. Anhand der Bilder, die wir in den kollaborativen Online-Arbeitsbereich von Transkribus geladen hatten, mussten unsere studentischen Mitarbeiter für jede Seite die Schrift oder Sprache finden und transkribieren, die sie am besten kannten, angefangen mit Griechisch von Grund auf, dann Latein, ebenfalls von Grund auf, und schließlich das automatisch transkribierte Deutsch korrigieren. Sobald ein Student alles transkribiert hatte, was er konnte, übergab er die Seite an den nächsten Transkribenten." 

"Da wir verschiedene Leute auf verschiedene Drehbücher angesetzt haben, anstatt jeden zu zwingen, jedes Skript zu übernehmen, haben fünf von uns nur sechs Wochen Vollzeitarbeit für die Transkription gebraucht."

Della Rocca überwachte die letzte Phase. "Nach mehreren Versuchen, das Modell zu optimieren, liegt unsere niedrigste Zeichenfehlerrate (CER) bei 7,21%. Das ist eine Verringerung um etwa 36% gegenüber der CER unseres ursprünglichen Modells von 11,20%, und wir versuchen, sie weiter zu verbessern, indem wir mehr Training durchführen und mit verschiedenen Konfigurationen experimentieren. Dies hat unsere Korrekturzeit pro Seite nach der Transkription erheblich reduziert.

Jeff Rusten (zweiter von rechts), Ethan Della Rocca (links) und der Rest des Lexeis.org-Teams. © Jeff Rusten

Veröffentlichung des Lexikons im Internet

Zurzeit bereitet das Team das Lexikon für die Veröffentlichung auf Lexeis.org vor. "Die Transkription muss noch im XML-Format für Korrekturen und Analysen getaggt und mit unserem XML-Text von Aristophanes verknüpft werden. Dann können wir sie auf die Plattform hochladen. Die Arbeit wird also erst jetzt bekannt, aber die Unterstützung durch die Förderstellen ist erfreulich, und wir freuen uns darauf, sie unter den Wissenschaftlern zu veröffentlichen, sobald sie korrigiert und dokumentiert ist."

Das Team ist sehr zufrieden mit dem Verlauf des Projekts. "Wir wünschten nur, wir hätten Transkribus früher gefunden! Von nun an werden wir es für alle unsere OCR-Arbeiten verwenden, auch für den Druck. Wir sind gerade dabei, einen Text, den wir zuvor bearbeitet hatten, neu zu transkribieren, um das viel genauere Griechisch des Transkribus-Modells zur Korrektur unserer bestehenden Version zu nutzen."

Della Rocca hat einige Ratschläge für andere Forschungsgruppen, die ein mehrsprachiges Modell trainieren wollen. "Bleiben Sie ruhig, wenn der erste Trainingsversuch fehlschlägt - versuchen Sie einfach andere Konfigurationen. Wenn Sie Ihr Modell zum ersten Mal trainieren, experimentieren Sie mit verschiedenen Basismodellen, denn Sie werden feststellen, dass einige hilfreicher sind als andere. Wenn Sie dann ein funktionierendes Modell haben, verfeinern Sie es mit weiteren transkribierten und korrigierten Seiten, um es so genau wie möglich zu machen." Dem können wir nur zustimmen!

Wir bedanken uns bei Jeff und Ethan für das Gespräch über das Projekt und wünschen ihnen viel Erfolg mit Lexeis.org.

Mehr über das Projekt erfahren Sie in Jeff Rustens Vortrag über die Digitalisierung des Wüst-Lexikons: https://www.youtube.com/watch?v=kdNg-j7eKJk

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Feber 22, 2024
Uncategorized
Spannende Neuigkeiten für Liebhaber und Forscher der niederländischen Geschichte! Nach der Ankündigung auf der Transkribus-Nutzerkonferenz 24 in der vergangenen Woche, wird die neue ...
Jänner 31, 2024
News
Wir freuen uns, die neuesten Aktualisierungen unseres Dokumenten-Editors anzukündigen, die Ihnen eine intuitivere und übersichtlichere Benutzeroberfläche bieten. Unser ...
Jänner 17, 2024
News, Transkribus
Muss ich handgeschriebenen Text transkribieren oder übersetzen, um mit ihm arbeiten zu können? Nun, das hängt davon ab ...