Erfolgsgeschichte
Veröffentlicht: Vor 3 Jahren

Wie man eine komplette Sammlung mit Transkribus zugänglich macht. Ein Best-Practice-Beispiel aus dem Tiroler Landesarchiv

Von der Digitalisierung mit dem ScanTentüber den Einsatz von künstlicher Intelligenz zur Erkennung der handschriftlichen Formulare bis hin zur Veröffentlichung der Dokumente mittels read&search - Mit dem Projekt "Militärische Personalstammblätter" des Tiroler Landesarchivs hat READ-COOP SCE alle Register gezogen mit Transkribus Plattform. Nun sind mehr als 98.000 Akten für die Öffentlichkeit zugänglich. Sie spiegeln die Schicksale von rund 90.000 jungen Soldaten aus der historischen Region Tirol wider, die Ende des 19. Jahrhunderts ihren Militärdienst in der österreichisch-ungarischen Armee leisteten. Diese einzigartige Sammlung ist für Wissenschaftler und viele Familienhistoriker von großer Bedeutung und wurde bereits stark nachgefragt.

Christoph Haidacher, Direktor des Tiroler Landesarchivs, kommentiert: "Für das Tiroler Landesarchiv bot sich durch die Kooperation mit Dr. Günter Mühlberger und READ-COOP SCE die einmalige Chance, eine in der Europaregion Tirol stark nachgefragte Sammlung über die Grenzen unseres Lesesaals hinaus online und damit für alle Interessierten zugänglich zu machen. Die Verfügbarkeit ausgewählter Archivbestände im weltweiten Netz in Verbindung mit künstlicher Handschriftenerkennung bedeutet einen zukunftsweisenden Weg, den das Tiroler Landesarchiv mit seinen Partnern gerne beschreitet.

Das Projekt wurde in mehreren Etappen durchgeführt: Im Januar und Februar 2020 wurden die Datenblätter aus Südtirol und Trentino gescannt, im Februar und März 2021 die Blätter aus Nordtirol - zusammen etwas mehr als 98.000 Einzelscans. Jeder Scan stellt die erste Seite einer Personalakte dar.

Meldebogen der k. u. k. Armee.

Die Akte besteht meist aus mehreren Blättern, die mit Heftklammern oder Klebeband gebunden wurden. Aufgrund eines sonst stark erhöhten Arbeitsaufkommens wurde jeweils nur die erste Seite der Akte digitalisiert. Scans der restlichen Seiten können gegen eine geringe Gebühr im Rahmen eines On-Demand-Verfahrens bestellt werden.

Für die Digitalisierung wurden mehrere ScanTents verwendet, in der Regel arbeiteten fünf bis sieben Studenten gleichzeitig.

Digitalisierung mit ScanTent und Smartphone

Mittels DocScan App wurden die Seiten gescannt, beschnitten und sofort in die Transkribus-Plattform hochgeladen. Die Benennung der Dateien erfolgte entsprechend der Beschriftung der Originalkartons. Die gesamte Sammlung konnte so in weniger als 20 Arbeitstagen komplett digitalisiert werden.

In einem weiteren Schritt wurde ein spezielles Modell zur Erkennung des Layouts trainiert. Hier kam das Tool P2PaLa zum Einsatz. Da es sich bei den militärischen Grundbuchsblättern um komplexe Formulare handelt, die sich im Laufe der Jahre verändert haben und teilweise sehr uneinheitlich sind, wurde die Handschrifterkennung bewusst auf Name, Geburtsort und Geburtsjahr beschränkt. Diese drei Felder, die in allen Formulartypen vorhanden sind, wurden an mehreren hundert Beispielen trainiert. Die Felder werden von der Software recht zuverlässig erkannt, wie das folgende Beispiel zeigt ("Name" = Name, "Ort" = (Geburts-)Ort, "Jahrgang" = Geburtsjahr).

Text- und Strukturerkennung mit Transkribus

Parallel zur Erstellung des Layoutmodells wurde ein spezielles Handschriftenmodell trainiert, um die tatsächlichen Familien- und Vornamen, d.h. die Schrift innerhalb der zuvor identifizierten "Namens"-Felder, zu erkennen. Dazu wurden die ersten 10 Seiten jedes Dokuments der Südtiroler Sammlung manuell transkribiert und einige Dokumente komplett als Trainingsdaten verwendet. Darüber hinaus wurden auch Namensdaten aus anderen Projekten, wie z.B. dem des Franziskaner-Katasters, hinzugefügt und das allgemeine Modell "Transkribus German Kurrent M2" als Basismodell verwendet. Mit diesem speziellen Modell wurde nur das Namensfeld erkannt - eine Eigenschaft, die wahrscheinlich noch viel zu wenig bekannt ist.

Erkennung für ein Strukturfeld

Transkribus erlaubt die Anwendung unterschiedlicher Modelle auf einzelne Strukturfelder. Die beiden verbleibenden Felder, d.h. Geburtsort und Geburtsjahr, wurden mit dem Standardmodell "German Kurrent M2" erkannt. Die Erkennungsqualität von ca. 89% ist in Anbetracht der recht anspruchsvollen Formularfelder, der vielen verschiedenen Schriftarten und -typen und der relativ kleinen Menge an Trainingsdaten zufriedenstellend. Die automatisierte Verarbeitung, die direkt in der Plattform durchgeführt wurde, dauerte mehrere Wochen, inklusive Wartezeiten aufgrund der vielen Einzelaufträge.

Der letzte Teil bestand dann darin, die Daten über die Weboberfläche "read&search" zur Verfügung zu stellen. Dieser Prozess konnte relativ schnell abgeschlossen werden, da die Dokumente bereits in Transkribus vorhanden waren und nur noch die entsprechende Website mit den benötigten Hintergrundbildern, Beschreibungstexten, Schriftarten, Farben etc. eingerichtet werden musste.

Die militärischen Personalstammblätter des Tiroler Landesarchivs sind nun online abrufbar unter: http://transkribus.eu/r/grundbuchblaetter/.

In den kommenden Monaten soll das Projekt um eine Crowd-Sourcing-Komponente erweitert werden. Über das in der Entwicklung befindliche Tool "citizen@science" sollen interessierte Nutzer freiwillig bei der Korrektur des erkannten Textes sowie bei der Vervollständigung der restlichen Formulardaten helfen und damit diese wertvolle historische Ressource weiter deutlich bereichern.

Übersicht