Erfolgsgeschichte
Veröffentlicht: Vor 2 Monaten

Transkribieren von 3 Millionen Scans im Nationalarchiv der Niederlande

Manche Transkribus-Projekte sind nur ein paar Seiten lang. Viele sind ein paar hundert oder tausend Seiten lang. Aber das neueste Transkribus-Projekt auf der Nationalarchiv der Niederlande umfasste satte 3 Millionen Seiten an Dokumenten. Und das ist erst der Anfang. In den nächsten Jahren will das niederländische Archiv etwa 10% seiner gesamten Sammlung scannen - das sind mehr als 10 Millionen Scans pro Jahr - und zumindest einen Teil der Sammlung transkribieren, um sie besser zugänglich zu machen.

Wir sprachen mit Liesbeth Keijser, Projektmanagerin für Digitalisierung im Nationalarchiv der Niederlande, um mehr über die Digitalisierung solch großer Dokumentensammlungen mit Transkribus zu erfahren.

Willkommen bei den Nationalen Archiven der Niederlande

Das Nationalarchiv der Niederlande mit Sitz in der niederländischen Küstenstadt Den Haag ist das größte Archiv des Landes. Es beherbergt Hunderte von Jahren staatlicher und offizieller Dokumente sowie private Dokumente, die für die Geschichte der Niederlande relevant sind. Millionen von Seiten werden im Archiv verwaltet. Die Sammlung ist so umfangreich, dass sie sich, wenn man sie aneinander reihen würde, über 140 km erstrecken würde!

Das Nationalarchiv der Niederlande ist das größte Archiv des Landes © Tineke Dijkstra

Die meisten Dokumente des Archivs sind jedoch immer noch in Papierform vorhanden, was den Zugang in zweierlei Hinsicht erschwert. Erstens muss man nach Den Haag reisen, um das Archiv zu durchsuchen. Zweitens, und das ist wahrscheinlich noch wichtiger, gibt es keine Möglichkeit, ganze Sammlungen schnell nach bestimmten Informationen zu durchsuchen. Anstatt einfach einen Suchbegriff in eine Datenbank einzugeben, muss man die Sammlungen von Papieren manuell durchsuchen, was unendlich viel zeitaufwändiger ist.

Vor diesem Hintergrund hat das Nationalarchiv eine ehrgeizige Digitalisierungsstrategie in Angriff genommen. "Unser Plan ist es, in den nächsten 15 Jahren 10% unserer Archive zu scannen", erklärt Digitalisierungsmanagerin Liesbeth. "Das wird in ein paar Jahren mehr als 100 Millionen Scans ergeben." 

Um die Scans besser zugänglich zu machen, setzt das Archiv eine Technologie zur Erkennung von handgeschriebenem Text ein, um den handgeschriebenen Text automatisch zu transkribieren und in eine digitale Textdatei umzuwandeln. Man beschloss, mit einer Sammlung von 3 Millionen Seiten zu beginnen, die hauptsächlich Aufzeichnungen über die Niederländische Ostindien-Kompanie im 17. und 18. Jahrhundert sowie notarielle Urkunden aus dem 19. Dieses erste Projekt sollte den Grundstein für die weiteren Teile der Digitalisierungsstrategie legen.

Erstellung eines AI-Modells mit Transkribus

Das Nationalarchiv begann vor etwa fünf Jahren mit der Handschrifterkennungstechnologie zu arbeiten, und das Team war angenehm überrascht, wie einfach sie ist. "Die Verwendung von Transkribus und die Erstellung eines benutzerdefinierten KI-Modells war eigentlich recht einfach", so Liesbeth. Zu Beginn strebten wir eine CER [Zeichenfehlerrate] von 20% an, damit wären wir zufrieden gewesen. Aber nachdem wir 6000 Seiten an Trainingsdaten erstellt hatten, kamen wir auf eine CER von 7%, was für uns noch besser war.

Im Einklang mit den kooperativen Werten von Transkribus beschloss Liesbeths Team außerdem, ihr KI-Modell zu veröffentlichen, damit auch andere Menschen von ihrer Arbeit profitieren können. Ihr Modell, Niederländische Handschrift 17. bis 19. Jahrhundertenthält nun fast 1,5 Millionen Wörter und kann von jedem Transkribus-Nutzer verwendet werden, der mit ähnlichen Dokumenten arbeitet.

Veröffentlichung der Transkriptionen

Für Liesbeth und ihr Team war die Transkription eigentlich der weniger komplizierte Schritt des Projekts. "Alles zu transkribieren war der einfache Teil", erklärt sie. "Alles online zu veröffentlichen war viel komplexer, sowohl aus archivarischer als auch aus technischer Sicht. Die Entscheidung, wie alles in einem logischen Online-Format organisiert werden sollte, war eine Herausforderung, die Suche nach Leuten mit den richtigen Entwicklungsfähigkeiten, um genau das zu erstellen, was das Archiv brauchte, eine andere.

Über 3 Millionen Seiten wurden während des Projekts automatisch transkribiert © Zoeken in transcripties

Nachdem das Team verschiedene Lösungen in Betracht gezogen hatte, entschied es sich, ein maßgeschneidertes System zu bauen, das in ein Back-End und ein separates Front-End unterteilt war und von zwei Lieferanten geliefert wurde. Das Ergebnis war das "Zoeken in transcriptiesPlattform". Obwohl das Projekt noch nicht abgeschlossen ist, bietet die Plattform bereits Zugang zu einer Fülle von Dokumenten, die es Forschern und Interessierten wesentlich erleichtern, die benötigten Informationen zu finden. Das Team fügte dem System auch die Erkennung benannter Entitäten hinzu, so dass es die Transkriptionen automatisch mit benannten Entitäten wie Personen und Orten anreichert.

"Im Idealfall hätten wir eine Plattform, die sich nahtlos in unsere bestehende IT-Infrastruktur integrieren lässt. Das ist noch nicht ganz möglich, aber wir sind mit den bisherigen Ergebnissen sehr zufrieden."

Die Vorteile der Digitalisierung

Und nicht nur Liesbeths Team ist mit der neuen digitalisierten Sammlung zufrieden. "Wir sind noch dabei, genaue Daten über die Zufriedenheit der Nutzer zu erheben, aber wir haben den Eindruck, dass die Leute das neue System mögen.

"Ein gutes Beispiel dafür war das bittersüße Feedback, das wir von einigen akademischen Forschern erhielten. Es gefiel ihnen sehr, dass so viele Dokumente plötzlich so leicht zugänglich waren. Aber weil sie plötzlich so viele neue Quellen hatten, mit denen sie arbeiten konnten, wurde ihnen klar, dass sie ihre bisherigen Schlussfolgerungen verwerfen und neu beginnen mussten. Ich denke, das zeigt, wie sehr sich ein Digitalisierungsprojekt wie dieses auf die akademische Forschung auswirken kann."

Vielen Dank, Liesbeth, für das Gespräch mit uns!

Liesbeths Transkribus-Tipp:

"Wenn Sie ein Projekt wie dieses in Angriff nehmen, sollten Sie sicherstellen, dass jemand in Ihrem Team einen Hintergrund in KI hat. Es ist schwer, verschiedene Technologien miteinander zu vergleichen, wenn man die Unterschiede zwischen ihnen nicht versteht, also stellen Sie sicher, dass das Team diese Kenntnisse hat, bevor Sie beginnen.

Titelbild: © Anne Reitsma Fotografie

Übersicht