Zwei Partner im READ-Projektverbund haben jetzt erfolgreich ein neues Modell zur Erkennung gotischer Handschriften trainiert! Die Staatsarchiv Zürich (READ-Projektpartner) und der Universität Zürich (READ-Projekt Absichtserklärung (Memorandum of Understanding) Partner) haben an der automatischen Erkennung einer Sammlung von mittelalterlichen Urkunden mitgearbeitet.
Im Jahr 1336 wurde ein Kartular geschrieben in Königsfeldenin der Nähe der Stadt Brugg (die heute zur Schweiz gehört). Die Abtei Königsfelden war eine wohlhabende Institution mit engen Verbindungen zu den Herzögen von Habsburg. In sauberer und regelmäßiger Handschrift wurden die Urkunden der Institution auf rund 260 Pergamentseiten abgeschrieben. Das Kartular ist online verfügbar über e-Kodizes.
An der Universität Zürich gibt es ein laufendes Projekt zur Erstellung eines digitale wissenschaftliche Edition der Urkunden der Abtei Königsfelden. Das Kartular ist eine wichtige Quelle für frühe Schreibpraktiken und wurde bereits teilweise transkribiert. Das Projektteam hat mit unserem Transkribus Plattform, um ihre Transkriptionen zu erstellen, und sie verwendeten diese Transkripte zum Trainieren und Testen eines Handwritten Text Recognition (HTR)-Modells.
Das Modell wurde an Transkripten von rund 26.000 Wörtern aus den Chartas trainiert. Diese Dokumente sind in einer regulären Schrift mit gleichmäßig verlaufenden Linien geschrieben, was der Technologie hilft, die Seiten leichter zu verarbeiten. Das HTR-Modell ist in der Lage, automatisch Transkripte von Dokumenten der Sammlung mit einer erstaunlichen Zeichenfehlerrate (CER) von 10% zu erstellen.
Transkribus ist in der Lage, mit einigen der für mittelalterliche Dokumente üblichen Feinheiten umzugehen. Dank der Integration von Unicode können auch hochgestellte Buchstaben, wie z.B. uͤ, vom HTR erkannt werden. Erwarten Sie nicht, dass diese Erkennung perfekt funktioniert, die Zeichen sind manchmal so klein, dass selbst erfahrene Paläographen über ihre Bedeutung streiten!
Außerdem konnte eines der Hauptprobleme der vormodernen Handschrift teilweise behoben werden: Abkürzungen wurden bei der Transkription durch kombinierende Diakritika wie z. B. ' ̄ ' (U+0305 kombinierende Überstreichung) oder durch Eingabe korrekter Zeichen aus Unicode angezeigt.
Da die als Trainingsdaten zur Verfügung gestellten Transkripte konsistent waren, konnte in einigen Fällen die automatische Erkennung von Abkürzungen (bzw. die korrekte Transkription mittels Abkürzungszeichen) erreicht werden. Um gut lesbare Transkriptionen oder sogar wissenschaftliche Editionen zu erstellen, können diese Zeichen in Transkribus oder in einem anderen Editor in einem späteren Schritt gesucht und ersetzt werden.
Aus zwei Gründen wurde beschlossen, keine Wörterbücher zu integrieren, um die Genauigkeit des Modells zu verbessern. Erstens neigen mittelalterliche Texte dazu, voll von verschiedenen Varianten zu sein. Ein und dasselbe Wort kann im selben Text in verschiedenen Schreibweisen vorkommen. Zweitens sind im Kartular, wie auch in anderen mittelalterlichen Dokumenten, Latein und die Volkssprache (in diesem Fall Mitteldeutsch) gemischt. Trotz des Fehlens eines Wörterbuchs war das HTR-Modell in der Lage, diese Dokumente mit einer hohen Genauigkeit zu erkennen.
In Zukunft hoffen wir, allgemeine Modelle erstellen zu können, die auf reguläre Handschriften, wie sie in mittelalterlichen Büchern und Urkunden zu finden sind, angewendet werden können. Alles, was dazu benötigt wird, ist eine große Menge an Trainingsdaten aus verschiedenen mittelalterlichen Dokumenten. Kommen Sie also zu uns und beginnen Sie, Ihr eigenes HTR-Modell zu trainieren!
Von Tobias Hodel, Universität Zürich.