Lateinische Abkürzungen und Silbentrennungen beherrschen - Das Bentham- und DEEDS-Projekt

Eine Zusammenarbeit zwischen dem Bentham-Projekt des University College London und dem DEEDS-Projekt (Documents of Early England Data Set) der University of Toronto nutzt Transkribus für die Transkription eines immensen Korpus mittelalterlicher Urkunden aus dem 12.. zum 15. Jahrhundert. Das handgeschriebene Latein dieser Zeit ist sehr eigenartig und konfrontierte sie mit zwei interessanten Fragen: 

  • Konnte Transkribus konsequent darauf trainiert werden, abgekürzte lateinische Wörter zu verarbeiten, die bis zur Hälfte des Vokabulars mittelalterlicher Rechtstexte ausmachen können und daher in einem beträchtlichen Teil des Documents of Early England Data Set (DEEDS) Korpus an der Universität Toronto enthalten sind?
  • Könnte Transkribus dazu gebracht werden, Wörter mit Bindestrich, die sich über mehrere Textzeilen erstrecken, konsequent zu erkennen (sofern sie sowohl in Latein als auch abgekürzt sind)?

Um Antworten zu finden, beschloss das Team zunächst, ein eigenes Wörterbuch mit über hundert abgekürzten lateinischen Wörtern zu erstellen, sowohl in ihrer abgekürzten als auch in ihrer erweiterten Form. Dies geschah mit Hilfe des unabhängigen Programmierers Ismail Prada aus der Schweiz, der abbrevSolver-master, ein Python-Skript, programmierte. Die verkürzte Form wurde durch kompatible Sonderzeichen dargestellt, die am besten wiedergeben, wie sie in der Schrift erscheinen. Diese Abkürzungen wurden auch als Präfixe, Suffixe oder eigenständige Abkürzungen kategorisiert, was die Art und Weise, wie sie vom Algorithmus verarbeitet werden, verändern würde. Diese Methode erwies sich jedoch als problematisch, da mehrere Versionen der entsprechenden tabulatorgetrennten Excel-Datei erstellt werden mussten, die die abgekürzten Wörter und mehrere Varianten von Sonderzeichen enthielten, damit sie wie vorgesehen funktionierten. Die einzige Möglichkeit, dieses Problem zu lösen, bestand darin, mit dem Suchen und Ersetzen der abgekürzten Wörter ohne die Verwendung des Skripts fortzufahren, indem die Wörter manuell gesucht und ersetzt wurden. Dies bedeutete einen sehr zeitintensiven Prozess und war auf Dauer nicht praktikabel. Mit Hilfe von Prada wurde das Skript jedoch korrigiert und sogar ein übergeordnetes API-Skript entwickelt, das nach Angabe des Benutzernamens und Passworts des Sammlungseditors sowie der Sammlungs-ID direkt mit Transkribus verbunden ist. Das neue Skript ist schneller und einfacher zu bedienen. Nach dem Ausführen eines einfachen Befehls kommuniziert das Skript mit Transkribus und wendet dessen Find-and-Replace-Algorithmus auf jede Untersammlung an, wobei es jeden gefundenen Begriff aus dem Abkürzungswörterbuch durch sein kürzeres Äquivalent ersetzt und als abgekürzt kennzeichnet. In dieser Phase des Projekts wurden fünf neue HTR-Modelle erstellt. Im Laufe des Projekts sanken sowohl der WER als auch der CER in vielversprechender Weise und die Modelle, die nach der Erstellung des neuen Skripts generiert wurden, sind extrem gut. Zusätzlich nutzte das Forschungsteam Material der Oxford University und der Christ Church, um die Ground Truth weiter zu erweitern und konnte zwei weitere Modelle erstellen, die die Testergebnisse des DEEDS-Korpus verbesserten. Auf dem Weg zu den neuen Modellen erschwerten einige Hindernisse, wie z. B. die schlechte Bildqualität und die Kürze der Bilder, die Entwicklung zusätzlich. Dennoch ist das #7-Modell nun für jedermann frei verfügbar. Mehr als 140 000 Wörter wurden trainiert und der CER auf dem Validation Set liegt bei 0,8% Für weitere Details über das Projekt und die entwickelten Modelle besuchen Sie deren Website: https://blogs.ucl.ac.uk/transcribe-bentham/2021/04/20/ucl-university-of-toronto-transkribus-htr-and-medieval-latin-abbreviations/