Erfolgsgeschichte
Veröffentlicht: Vor 4 Monaten

Navigation bei der Transkription niederländischer Preisdokumente

Haben Sie jemals einen Brief verschickt, der nie angekommen ist? Von 1652 bis 1815 beschlagnahmten die britische Marine und Freibeuter alle Arten von Dokumenten von feindlichen Schiffen, Schiffslogbücher, Frachtlisten und sogar private Briefe. Hunderte von Jahren später hat die Huygens-Institut in den Niederlanden begann die Niederländische Preispapiere Projekt zur Digitalisierung und Analyse dieser historischen Dokumente und ihrer Transkription mit Hilfe von Transkribus

Marijcke SchillingsHistorikerin, Forscherin und Koordinatorin der Dutch Prize Papers, erzählte uns mehr über das Projekt von seinem Beginn im Jahr 2016, seine Dokumente und wie die Transkribus-Software zur Erstellung eines KI-Texterkennungsmodells eingesetzt wurde. 

Das Projekt der niederländischen Preispapiere

Was sind die Preispapiere?

Von Schiffslogbüchern, Ladelisten, Aufzeichnungen über Plantagen und Besatzungsverhöre bis hin zu Briefen reichen die Dokumente, aus denen die Niederländische Preispapiere sind alles andere als trivial. Diese Papiere werden aufbewahrt Das Nationalarchiv in Kew (London).

Marijcke Schillings erklärt, dass es sich bei den Prize Papers um Dokumente handelt, die von der britischen Marine und Freibeuter in der Zeit von 1652 bis 1815 von feindlichen Schiffen beschlagnahmt wurden. Als mächtiger Akteur auf den Weltmeeren führte die britische Marine zusammen mit privat betriebenen Schiffen Seekrieg, um den feindlichen Handel zu stören.

"Diese Sammlung enthält auch etwa 38.000 niederländische Geschäfts- und Privatbriefe", so Schillings.1. Mit der großen Vielfalt der Dokumente bieten die Preisschriften daher die Möglichkeit, "verschiedene Arten internationaler Forschung" und Einblicke in "alle sozialen Schichten der Gesellschaft" zu erhalten.

C:\downloads\Blog_5_Transkribus_transcriptie.PNG
PrizePapers Collection, Ordner 1800-1810_25/HCA32-1210-0033, Fragment einer GT-Transkription. Transkribus-Plattform

Was ist das Projekt "Dutch Prize Papers"?

Als nationales Institut für die Erforschung der Geschichte und Kultur der Niederlande ist das Huygens-Institut (HI) widmet sich der innovativen und kooperativen Forschung zu historischen Quellen und literarischen Texten. Ziel des Projekts "Niederländisches Preispapier" war es zum einen, eine große Auswahl digitalisierter (niederländischer) Dokumente für die Forschung zur Verfügung zu stellen, und zum anderen, "gedruckte und handschriftliche Texte besser durchsuchbar und lesbar zu machen". 

Ende 2015 erhielt das Huygens-Institut eine beträchtliche Subvention, die es ermöglichte, den ersten Schritt zu tun.

Im Juni 2019 wurden 72.000 Scans oder 140.000 Seiten hauptsächlich niederländischer Dokumente aus dem siebzehnten bis frühen neunzehnten Jahrhundert und ihre Metadaten online auf der Niederländische Preispapiere Website. Um den Zugang zu den digitalisierten Dokumenten zu verbessern, hat das Huygens-Institut daher eine virtuelle Forschungsumgebung (VRE) geschaffen.

Im Hinblick auf den zweiten Schritt wandten sich Marijcke Schillings und ihre Kollegen vom DPP-Projekt an die Texterkennungssoftware von Transkribus. Da mehrere Projekte des Huygens-Instituts "bereits Erfahrungen mit der benutzerfreundlichen HTR-Plattform gemacht und gute Ergebnisse erzielt hatten", beschloss das Team, ein Pilotprojekt zu starten, dessen Hauptziel die Erforschung der automatischen Texterkennung war.

C:\downloads\Blog_4_Transkribus_LA.PNG

PreisPapiere Collection, Ordner 1800-1810_24/HCA32-1210-0016b, Fragment-Layout-Analyse. Transkribus-Plattform

Erstellung eines AI-Modells mit Transkribus

Für dieses Pilotprojekt wurden 100 Scans von Dokumenten aus verschiedenen Jahrhunderten und in unterschiedlichen Sprachen ausgewählt, um ein benutzerdefiniertes Texterkennungsmodell trainieren.

Layout Grundwahrheit 

Nach der Auswahl des Materials begann das Team mit der Entwicklung von Ground Truth Seiten des Layouts, insbesondere die Textbereiche und das Grundlinien der historischen Seiten. Schillings führt aus, dass die Grundlinien zunächst automatisch gesetzt und dann manuell überprüft wurden, da die Textzeilen dazu neigten, sich aufzulösen oder schief zu sein.

Mittels P2PaLA Layout-Analyse-Tool wurden die Ground Truth-Seiten dann verwendet, um drei Modelle zur Strukturerkennung zu trainieren. Als diese Modelle getestet wurden, waren die Ergebnisse jedoch nicht so genau wie erhofft, was auf die Notwendigkeit von zusätzlichem Trainingsmaterial hinweist. In Anbetracht der Herausforderungen mit den P2PaLA Layout-Analyse-Tool hat Transkribus inzwischen trainierbare Layout-Modelle eingeführt, wie z.B. das Feldmodelle und Tischmodelle. Diese trainierbaren Layout-Modelle benötigen weniger Trainingsdaten und sind gleichzeitig präziser.

Text Grundwahrheit

Der nächste Schritt war die Erstellung von Ground Truth Seiten mit transkribiertem Text, um das Texterkennungsmodell zu trainieren. Die Ground Truth-Seiten wurden mit Hilfe bestehender Modelle generiert und anschließend überprüft und manuell korrigiert. Auf der Grundlage von 100 Seiten Ground Truth erstellte das DPP-Team zwei benutzerdefinierte Texterkennungsmodelle. "Wir beschlossen, ein Modell mit einem Basismodell zu erstellen (d.h. IJsberg) ein erstes und ein zweites Modell, ausgenommen ein Basismodell."

C:\downloads\NL-HaNA_2.22.24_HCA30-342_0253b-fragment.jpg
PreisPapiere Collection, Ordner 1700-1799_11_r2-2/HCA30-342-0253b, Rechnung. Transkribus-Plattform

Vergleich der Modellergebnisse:
DPP= ede gescheept in het Schip de Gesina Mana, Comyn Cannelis

DPP2= Dene gescheept en her Schip de Gesena Aana, Comin Corneeir

Manual=ende gescheept in het schip De Gesina Maria, Captyn Cornelis

Wie vom Team erwartet, hat das erste Modell, einschließlich des Basismodells IJsbergdie besten Ergebnisse erzielt, wie der Vergleich der Texterkennungsergebnisse zeigt.

Arbeiten mit der Transkribus-Plattform 

"Die Erfahrungen mit den Transkribus-Tools waren sehr gut", resümiert Marijcke Schillings. Durch die Erstellung zweier mehrsprachiger Modelle untersuchte das Team das Potenzial der Handschriftlichen Texterkennung (HTR), die das Hauptziel des Pilotprojekts war. Das Ergebnis dieser Bemühungen war ein positiver Bewertungsbericht, der eine deutliche Verbesserung der Lesbarkeit zeigte.

 Aufgrund von Problemen mit der Genauigkeit der Layout-Analyse wurde im Juni 2023 ein anderes Tool namens "Loghi" auf die Dokumente des Dutch Prize Papers Project angewandt, das die Lesbarkeit und Durchsuchbarkeit der Dokumente erheblich verbesserte. 

Aufgrund der Rückmeldungen unserer Nutzer bietet Transkribus nun eine verbesserte und effizientere Möglichkeit, Anlagen zu erkennen: trainierbare Anlagenmodelle. Die trainierbaren Feldmodelle und Tabelle Modelle sind so konzipiert, dass sie selbst bei komplexen Layouts, wie sie in Zeitungen, Karteikarten oder Tabellenkalkulationen vorkommen, genaue Ergebnisse liefern. 

C:\downloads\Blog_3_DPP_Vrachtbewijs.PNG
Website Niederländische Preispapiere, HCA30-1056-0072b, Konnossement

Schaffung von Möglichkeiten für weitere Forschung

Marijcke Schillings kommt zu dem Schluss, dass das DDP-Team mit diesem Projekt in der Lage war, "interessierten Menschen überall eine kleine Auswahl von Papieren" zu ermöglichen, die aus mehr als 100.000 Bildern bestehen, die lesbar und digital verfügbar sind.

Der nächste Schritt des DPP-Projekts besteht darin, eine bestimmte Art von Dokumenten zugänglich zu machen, nämlich die Konnossemente. Konnossemente wurden in der Regel nicht nach der Verschiffung von Waren aufbewahrt, erläutert Schillings. Sie tauchen jedoch in den von britischen Freibeuter beschlagnahmten Ladungen auf2

Wir von Transkribus freuen uns, Teil dieses Pilotprojekts gewesen zu sein und wünschen dem DPP-Projektteam weiterhin viel Erfolg bei der Erforschung von Frachtbriefen.

Vielen Dank, Marijcke Schillings, dass Sie sich die Zeit für ein Gespräch mit uns genommen haben!

1 R. van Gelder, Zeepost. Nooit bezorgde brieven uit de 17de en 18de eeuw (Amsterdam/Antwerpen 2008) 20-21.

2 "Flessen op papier", A.P. v[an] V[liet], in: Buitgemaakt en teruggevonden. Nederlandse brieven en scheepspapieren in een Engels archief. Seglerische Briefe Journaal V. Onder redactie van E. van der Doe, P. Moree, D.J. Tang, met medewerking van P. de Bode (Zutphen 2013) 196-197.

Thumnail: Logo Website Niederländische Preispapiere

Übersicht