+ Entfesseln der Trankribus-API

von David Brown und Stephen Crane, Trinity College Dublin

Am 30. Juni 1922, zu Beginn des irischen Bürgerkriegs, zerstörte eine katastrophale Explosion und ein Feuer das Public Record Office of Ireland in den Four Courts in Dublin. Flammen und Hitze verzehrten sieben Jahrhunderte der aufgezeichneten irischen Geschichte, die in einem prächtigen sechsstöckigen viktorianischen Lagerhaus, der sogenannten Record Treasury, aufbewahrt wurden. Anlässlich des hundertsten Jahrestages des Brandes von 1922 hat das Projekt "Beyond 2022 am Trinity College Dublin wird enthüllen Irlands virtuelle Plattenschatzkammer-eine digitale Rekonstruktion des Öffentliches Registeramt von Irland Gebäude und seine Sammlungen.

Große Teile dieser Sammlungen wurden vor dem Brand kopiert: die Arbeit von Antiquaren, Historikern und öffentlich geförderten Projekten, die beabsichtigten, die historisch bedeutendsten Teile der Sammlung als gedrucktes Quellenmaterial für Wissenschaftler zu veröffentlichen. Aus verschiedenen Gründen wurde nur ein kleiner Teil der riesigen Transkriptionsprojekte jemals veröffentlicht, aber Kopien überleben im Manuskript, das Millionen von Seiten handgeschriebenen Textes umfasst. Die Transkriptionen wurden zwischen dem siebzehnten und neunzehnten Jahrhundert in der geschulten Sekretariatshand der Zeit angefertigt. Die meisten Projekte wurden einem einzelnen Transkribenten anvertraut, in der Regel ein Experte auf einem bestimmten Gebiet und einige Einzelpersonen transkribierten bis zu 25.000 Seiten über einen Zeitraum von vielen Jahren. Bei so vielen Beispielen für sehr große Textmengen, die von einer einzigen Hand produziert wurden, könnten die Transkriptionen des Irish Record Office genauso gut mit Transkribus vorbereitet worden sein.

Transkription einer Patentrolle aus dem späten 16. Jahrhundert durch die Irish Record Commission für die unveröffentlichten 'Acta Regia' aus dem 19. Mit freundlicher Genehmigung der Russell Library, Universität Maynooth: Renehan Collection, Vol. 3, S. 14.

Die Sammlungen spiegeln die Katalogisierung im ursprünglichen Archiv wider, und die größten Bestände befassen sich mit Themen, die für das Studium der irischen Geschichte zentral sind: Die elisabethanische Eroberung und Verwaltung, die Plantation von Ulster, die Besetzung Irlands durch die Cromwells, die Wilhelminischen Kriege und die Auflösung der großen Landgüter im neunzehnten Jahrhundert. In diesen Abschriften werden jedoch alle Bereiche der Geschichte abgedeckt, und das Material umfasst frühe zensusartige Aufzeichnungen, Handel, Gerichtsurteile und eine Vielzahl kleinerer thematischer Sammlungen, die sich auf bestimmte Städte und Gemeinden beziehen. Am weitesten fortgeschritten ist die Digitalisierung für die Cromwell-Periode, 1650-1659, und der Umfang der wiederhergestellten Dokumente übertrifft das, was für die meisten Teile Englands erhalten geblieben ist.

Transkribus arbeitet sehr gut auf großen, relativ einheitlichen Sammlungen wie diesen. Mehrere HTR-Modelle wurden für jeweils 15.000 Wörter erstellt, beginnend mit den Händen des neunzehnten Jahrhunderts, und erreichten in einigen Fällen eine Zeichenfehlerrate (CER) von weniger als 2%! Als die Anzahl der trainierten Modelle zunahm, wurde ein separates Projekt ins Leben gerufen, um zu untersuchen, ob die vorhandenen Modelle verwendet werden könnten, um eine Probe aus dem nächsten Satz von Dokumenten teilweise zu erkennen und den Prozess der Erstellung jedes nachfolgenden Satzes von Ground Truth zu beschleunigen. Es wurde beschlossen, für jedes neue Beispiel eine einseitige Grundwahrheit zu erstellen und diese mit dem Text zu vergleichen, der automatisch mit jedem Modell im Projekt generiert wurde, um das beste zu finden, mit dem man arbeiten konnte.

Transkribus besteht aus einer plattformübergreifenden Client-GUI, die heruntergeladen und auf den lokalen Rechnern der Benutzer, Windows, Mac oder Linux, ausgeführt wird. Diese GUI kommuniziert mit einem Remote-Server über das Web. Der Server ermöglicht es, Dokumentensammlungen zu verwalten, HTR-Modelle zu trainieren und Modelle gegen Dokumentensammlungen laufen zu lassen, alles als Reaktion auf Benutzeranfragen über die GUI.

Ungewöhnlich ist, dass das Transkribus-Projekt separat eine Open-Source-Client-Bibliothek veröffentlicht hat, die die GUI verwendet, um Anfragen an den Server zu stellen. Im Rahmen eines Sommerprojekts beschlossen wir, diese Bibliothek als Grundlage für eine Skriptsprache zu verwenden, die es uns ermöglicht, Miniprogramme (Skripte) zu schreiben, die gängige Aufgaben getrennt von der GUI automatisieren, aber dieselben Backend-Dienste wie diese nutzen.

Die mitgelieferte Client-Bibliothek ist in der Programmiersprache Java geschrieben, die auf einer virtuellen Maschine, der JVM, läuft und die es ermöglicht, dass der Client plattformübergreifend ist. Wir haben uns entschieden, unsere Skriptsprache auf Clojure zu stützen, ein idiomatisches modernes Lisp, das ebenfalls in der JVM läuft und eine hervorragende Java-Interoperabilität bietet.

Unsere Skriptsprache, die wir Transkript nennen, ist ebenfalls als Open-Source auf Github veröffentlicht. Sie implementiert nicht die gesamte zugrundeliegende API, sondern nur genug, um ein paar kleine Skriptanwendungen zu ermöglichen: eval-Modelle und run-ocr.

Das erste Skript vergleicht mehrere trainierte Modelle, die mit einer Sammlung verbunden sind, anhand der ersten Seite eines bestimmten Dokuments. Mit der GUI wäre dies eine mühsame Angelegenheit, da die Ausführung jedes Modells einige Zeit in Anspruch nimmt. Ein Benutzer kann unser Skript ausführen und später zurückkehren, um die Ergebnisse zu betrachten.

Das zweite Skript wird verwendet, um einen Ordner mit Bildern hochzuladen, die Seiten eines maschinengeschriebenen Dokuments darstellen, OCR darauf laufen zu lassen und die Textausgabe des OCR-Prozesses herunterzuladen.

Die Stärke unseres Ansatzes besteht darin, dass jedes dieser Skripte nur ein paar Stunden zum Schreiben und Testen benötigte, und der Kern jedes dieser Skripte besteht aus etwa einem Dutzend Zeilen flüssigen Codes, der auch für relativ untechnische Benutzer recht verständlich ist. Die Skriptsprache fügt Transkribus keine neue Funktionalität hinzu, sondern ermöglicht eine drastisch erhöhte Produktivität durch die Stapelverarbeitung einer großen Anzahl von Aufträgen. Es gibt mehrere zusätzliche Skripte, die eingesetzt werden können, um z.B. HTR-Dokumente automatisch zu erstellen, sobald das am besten geeignete Modell von der Software identifiziert wurde. eval-Modelle Skript.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

25. April 2024
News, Transkribus
Im Januar haben wir unsere neuen Abonnementpläne angekündigt: Einzelpersonen, Stipendiaten und Organisationen. Jeder Plan ist auf eine bestimmte ...
April 17, 2024
News, Transkribus
Einer der größten Vorteile von Transkribus ist die Möglichkeit, benutzerdefinierte Modelle zur Erkennung von handschriftlichem Text zu trainieren. Diese einzigartige Funktion ...
4. April 2024
News
Der Frühling hat begonnen und damit auch die Veröffentlichung von Transkribus im April 2024. Hier ist ein kurzer Überblick über alle ...