Erfolgsgeschichte
Veröffentlicht: Vor 2 Monaten

Wie das Staatsarchiv Zürich 50.000 Seiten mit read&search veröffentlichte

Die Staatsarchiv Zürich ist das zentrale Archiv des Kantons Zürich, Schweiz. Es ist zuständig für die Aufbewahrung und Erhaltung von Dokumenten von Räten, Gerichten, Verwaltungen und vielen anderen öffentlichen Einrichtungen des Kantons, die einen reichen Einblick in die letzten 1150 Jahre der Zürcher Geschichte geben. 

Das Staatsarchiv Zürich ist eines der größten Archive der Schweiz. © Staatsarchiv Zürich

Aber natürlich kann man diese Erkenntnisse nur gewinnen, wenn man auch Zugang zu den Dokumenten selbst hat. Und das ist aufgrund der schieren Menge an Dokumenten im Archiv nicht immer einfach. In der Vergangenheit gab es keine Möglichkeit, ganze vormoderne Sammlungen schnell nach relevanten Dokumenten zu durchsuchen, d. h. man musste sich durch Regale und Kisten wühlen, um die benötigten Unterlagen zu finden. 

Um dieses Problem zu lösen und den Zugang zu vormodernen Dokumenten zu erleichtern, verwendet das Archiv derzeit Transkribus und read&search um digitale Versionen ihrer Sammlungen zu erstellen. Wir sprachen mit Christian Sieber, dem Leiter des Digitalisierungsteams des Zürcher Archivs, über das erste Transkribus-Projekt und seine Erfahrungen mit der Software.

50.000 Seiten transkribierte Sitzungsprotokolle

Die Geschichte des Staatsarchivs mit Transkribus reicht viele Jahre zurück - es war einer der Partner des ursprünglichen Forschungsprojekt READ, die von 2016 bis 2019 lief. Damals hat das Zürcher Archiv vor allem manuell transkribiert, was sehr viel weniger zeitsparend ist, und man erkannte sofort den Vorteil der automatischen Transkription. "Früher haben wir handschriftliche Texte manuell transkribiert - und wir wissen, wie viel Aufwand das ist", erklärt er. "Deshalb war für uns schon früh klar, dass wir Transkribus in Zukunft für unsere eigenen Projekte nutzen wollen."  

Das Archiv beherbergt Dokumente aus den letzten tausend Jahren der Schweizer Geschichte. © Staatsarchiv Zürich

Im Jahr 2019 war das Archiv bereit, sein erstes grosses Transkribus-Projekt zu starten. Als Dokumente wurden Sitzungsprotokolle des Zürcher Rats aus dem 18. Jahrhundert ausgewählt, da sie Einblicke in fast jede Interaktion zwischen dem Stadtrat und seinen Einwohnern zu dieser Zeit geben. Da diese Sammlung jedoch über 50.000 Seiten umfasste, war einiges an Arbeit nötig. Als erstes erstellte das Team ein KI-Modell. Sie transkribierten manuell 203.189 Wörter und erreichten einen CER von nur 4,80% auf dem Train Set. Damit war eine solide Grundlage für die Transkription der restlichen Dokumente geschaffen. 

Wie bei jedem großen Projekt gab es auch hier einige Probleme. "Eine der Herausforderungen bei den Texten waren die Marginalien, deren Layout nicht immer richtig erkannt wurde", erklärt Christian. "Eine andere waren die verschiedenen Schreiber, die an den Protokollen gearbeitet haben. Aber mit Transkribus konnten wir in nur drei Jahren über 50.000 Seiten Zürcher Ratsprotokolle verarbeiten, was mit einer manuellen Transkription niemals möglich gewesen wäre."

Bereitstellung der Sammlung in digitaler Form

Natürlich ist das Transkribieren nur die halbe Miete. Um Sammlungen wie diese für Forscher und die Öffentlichkeit zugänglich zu machen, müssen die Transkriptionen in einer Online-Datenbank veröffentlicht werden - vorzugsweise in einer, die sowohl zuverlässig als auch leicht durchsuchbar ist. Für das Staatsarchiv Zürich war es die beste Option, die Schwesterplattform von Tranksribus zu nutzen: read&search.

"Für uns war es wichtig, eine Standardlösung zu haben, die von vielen anderen Projekten genutzt wird und kontinuierlich weiterentwickelt wird", so Christian über den Entscheidungsprozess. "READ-COOP hat mit read&search eine Publishing-Lösung angeboten, die uns überzeugt hat."

Da das Archiv bereits alle Transkriptionen mit Transkribus durchgeführt hatte, konnten die digitalen Bestände einfach hochgeladen werden zu read&searchzusammen mit allen Metadaten und Tags, die während der Transkription vergeben wurden. Das bedeutet, dass jemand, der z. B. alle Protokolle von Ratssitzungen finden möchte, die ein bestimmtes Ratsmitglied betreffen, einfach nach dem Namen dieser Person suchen kann und die Protokolle findet, in denen sie erwähnt wird. 

"In den vergangenen Wochen haben wir bereits positives Feedback von vielen Forschern erhalten. Einige haben vorgeschlagen, die Texte mit Citizen Science manuell zu korrigieren und so weiter zu verbessern."

Die Zukunft sieht rosig aus

Dieses Projekt ist nur das erste von mehreren, die das Archiv geplant hat. Ab nächstem Jahr wird das Team mit der Digitalisierung der Zürcher Ratsprotokolle aus dem 15. bis 17. Jahrhundert beginnen und damit eine Online-Datenbank mit fast 400 Jahren Ratsdokumenten schaffen. In den nächsten Jahren sollen alle wichtigen Dokumente des Archivs online frei zugänglich gemacht werden, damit Forscher und andere Interessierte die gewünschten Informationen möglichst schnell und einfach finden können.

"Mit der Digitalisierung unserer Sammlungen schaffen wir eine unschätzbare Ressource, die der grossen Nachfrage von Forschern aus der ganzen Welt, die sich für die Geschichte Zürichs interessieren, gerecht wird."

Christians Transkribus-Ratschläge

"Stellen Sie sicher, dass Sie einen guten Überblick über die Texte haben, die Sie digitalisieren wollen. Das macht es einfacher, alles so zu planen, dass es Ihren Anforderungen entspricht, und keine Zeit und kein Geld zu verschwenden. Kurz gesagt: Je besser Sie Ihre Texte kennen, desto besser können Sie das Projekt planen."

Die Dokumente des Archivs bieten eine Fülle von Einblicken in die Geschichte der Stadt Zürich. © Staatsarchiv Zürich
Übersicht