Erfolgsgeschichte
Veröffentlicht: Vor 3 Monaten

David Brown über Transkribus und das Projekt Beyond 2022

Meine erste Begegnung mit Transkribus war von Neid getrieben. Im Jahr 2014 half ich am Trinity College Dublin bei der Ausarbeitung eines erfolglosen Horizon 2020-Antrags für eine Ausschreibung, die vom READ-Konsortium gewonnen wurde. Daraufhin wurde ich in ein großes Transkriptionsprojekt für die Irish Manuscripts Commission involviert und besuchte die READ-Anwenderkonferenz 2018 in Innsbruck, um festzustellen, (1) ob Transkribus funktioniert und (2) in der Annahme, dass es das nicht tut, wie der ursprüngliche Vorschlag von READ besser war als unserer.
Transkribus hat natürlich sehr gut funktioniert und ist nun eine Schlüsselkomponente einer Suite von Software-Tools, die wir für die Realisierung von Beyond 2022, Irlands virtueller Aktenschatzkammer, einsetzen. Am 30. Juni 1922, bei Ausbruch des irischen Bürgerkriegs, der auf die Unabhängigkeit vom Vereinigten Königreich folgte, wurde das Public Record Office of Ireland vollständig zerstört. Am hundertsten Jahrestag dieser kulturellen Katastrophe, dem 30. Juni 2022, wird das von der irischen Regierung finanzierte und am Trinity College Dublin angesiedelte Projekt Beyond 2022 eine virtuelle Rekonstruktion dieses Gebäudes und digitale Surrogate vieler seiner Inhalte enthüllen. Bei den Kopien handelt es sich um offizielle oder akademische Abschriften, die aus über 50 Bibliotheken und Archiven auf der ganzen Welt stammen. Obwohl einige dieser Kopien gedruckt sind, ist die Mehrheit handschriftlich und reicht von zeitgenössischen Transkriptionen aus dem 13. Jahrhundert bis hin zu offiziellen Kopien aus dem 19. Das Material ist hauptsächlich in Englisch oder Latein.

Jenseits des englischen Sprachmodells von 2022, Transkription einer Seite aus den Depositions von 1641


Wir begannen mit der Herstellung von maßgeschneiderten HTR-Modellen für bestimmte große Serien von Transkriptionen, hauptsächlich unveröffentlichte Kalender von frühem Material, das von den Irish Record Commissioners von 1810 bis 1830 produziert wurde. Da diese in einheitlicher Kupferstich-Handschrift nach sehr hohen Standards geschrieben sind, sind die Ergebnisse von Transkribus hervorragend. Unsere nächsten Schritte waren die Herstellung von Modellen, die auf die eher kursiven Hände der viktorianischen Antiquare zugeschnitten waren. Diese Enthusiasten produzierten manchmal 10.000 Seiten an Transkriptionen, ganz auf eigene Faust und für ihre eigene Forschung. Wir sind in der glücklichen Lage, mehrere Sammlungen dieser für die private Forschung angefertigten Transkriptionen in Bibliotheken bis nach Chicago gefunden zu haben. Die hohen Beamten, die Irland im Auftrag der britischen Krone verwalteten, fertigten normalerweise Kopien der während ihrer Amtszeit erstellten offiziellen Aufzeichnungen an und ließen die Kopien in Irland zurück, wenn sie weiterzogen, wobei sie die Originale mitnahmen. Auch hier handelt es sich um große Sammlungen von etwa 10.000 Seiten, die in der Regel das Werk von ein oder zwei sorgfältig arbeitenden Beamten sind und sich daher ebenfalls ideal für einen Transkribus-Ansatz eignen. Wir haben kürzlich unsere handschriftlichen Modelle zu einem einzigen Basismodell gebündelt, das für die meisten offiziellen Dokumente in englischer Sprache (1600-1900) hervorragende Ergebnisse liefert. Dieses Modell wird am 20. Juni 2021, dem 99. Jahrestag der Zerstörung des Public Record Office of Ireland, allen Transkribus-Nutzern öffentlich zur Verfügung gestellt.
Der Arbeitsablauf von Beyond 2022 besteht darin, digitale Bilder von historischen gedruckten und handschriftlichen Texten von unseren Archivpartnern zu erhalten, diese Dokumente mit ihren zerstörten Äquivalenten "zusammenzufügen" und sie wieder in die virtuellen Regale des PROI zu stellen. Wir haben ein detailliertes 3D-Rendering-Modell des Gebäudes erstellt und die Regalanordnung für die 140.000 Ordner, Kisten, gebundenen Bände und Pergamentrollen, die sein Inhalt waren, wiederhergestellt. So können wir das Original exakt an der Stelle im Gebäude platzieren, an der es zerstört wurde. Mit Transkribus können wir qualitativ hochwertigen, durchsuchbaren Text erzeugen, der dann von unserem eigenen Natural Language Processing System analysiert wird, das wiederum Tripel von Entitäten erzeugt, die die Grundlage für einen Wissensgraphen zur irischen Geschichte bilden. Dieser letzte Schritt ist nicht möglich, ohne dass Transkribus in der Mitte sitzt und Millionen von Wörtern mit qualitativ hochwertigem Text produziert.
Die Trinity College Library trat dem READ COOP im Namen der Universität bei, als READ von einem ERC-finanzierten Forschungsprojekt zu einem unabhängig finanzierten Projekt überging. Beyond 2022 ist eines von mehreren am Trinity angesiedelten Projekten, die die Dienste des COOP nutzen, und viele weitere sind auf dem Weg.
Mehr über Beyond 2022 erfahren Sie auf unserer Website: https://beyond2022.ie/

Übersicht