Erfolgsgeschichte
Veröffentlicht: Vor 2 Monaten

Meine READ/Transkribus Geschichte: Tobias Hodel

2016 bin ich dem READ-Projekt für das Staatsarchiv Zürich beigetreten. Innerhalb des Grossprojekts wurde ich Teil der Arbeitsgruppe Dissemination und verantwortlich für den Abgleich von mehr als 100'000 Seiten handschriftlicher Protokolle der Zürcher Exekutiven des 19.. Jahrhundert. Dank READ konnte ich nicht nur Europa und die USA für mehr als 50 Transkribus-bezogene Workshops und Vorträge bereisen. Darüber hinaus kam ich mit zahlreichen Gelehrten, Archivaren, Bibliothekaren und Wissenschaftlern in Kontakt, die versuchen, das Beste aus HTR, KWS, (semantisch erweiterter) Layoutanalyse und vielem mehr herauszuholen. Ich hatte das Privileg, schriftliches Kulturgut in seiner unglaublichen Vielfalt zu sehen und mit Experten über seine Besonderheiten zu diskutieren.

Eine der Folgen des täglichen Nutzens, Denkens und Redens über maschinelles Lernen war es, diesem Ansatz und seinen Vorteilen und Problemen eingehend zu begegnen und meine Forschung entsprechend zu gestalten. Das Ergebnis meiner Nutzung von Transkribus waren also nicht nur Hunderte von HTR+- und PyLAIA-Modellen sowie die Erstellung von Tausenden von Seiten Ground Truth (siehe z.B. das öffentliche Modell StAZH_RRB_German_Kurrent_XIX basierend auf 26 Millionen Wörtern). Es ist vielmehr die Einsicht, dass es unsere Pflicht als Wissenschaftler ist, Deep Learning nicht nur zu nutzen und kritisch zu analysieren, um kulturelles Erbe zugänglich zu machen, sondern auch, um die Technologie und ihre Fallstricke zu unserem zukünftigen Nutzen zu verstehen.

Was Transkribus betrifft, so verstehe ich die Plattform als einsatzbereit, wenn mehrere hundert Bilder verarbeitet werden müssen und eine stabile Umgebung erforderlich ist. Für ein wissenschaftliches Editionsprojekt (koenigsfelden.uzh.ch) haben wir Transkribus als Drehscheibe für Transkriptionen verwendet, was zu einigen HTR-Modellen als Nebenprodukt führte. Am Ende meiner Amtszeit im Staatsarchiv Zürich starteten wir eine Reihe von Projekten, die auf HTR+ und p2pala aufbauten, um riesige Mengen an vormodernen Texten aufzubereiten und semantische Annotationen zur Beschleunigung der archivischen Erschließung zu nutzen. Für das gesamte GLAM-Feld halte ich dies für den richtigen Weg.

Im Jahr 2019 wurde mir - nicht zuletzt dank des Erfolgs von READ - eine Tenure-Track-Stelle an der Universität Bern angeboten, mit der Aufgabe, die Fakultät mit Ansätzen der Digital Humanities zu versorgen. Seitdem setze ich Transkribus in der Lehre ein und denke derzeit über die nächsten Schritte in der Textannotation nach, darunter Named Entity Recognition (insbesondere für historische Sprachen) und Content Extraction (z.B. mittels Topic Modeling).

Wollen Sie mehr wissen? Ich habe auf Deutsch und Englisch über Transkribus, HTR und Konsequenzen des Einsatzes von maschinellem Lernen in den Geisteswissenschaften veröffentlicht (neben einigem Stoff über das Mittelalter 😉 )

Siehe meine Seite an der Universität Bern hier, und mein ORCiD-Profil, oder folgen Sie mir auf Twitter.

Übersicht