Meine READ/Transkribus-Geschichte: Tobias Hodel

2016 bin ich dem READ-Projekt für das Staatsarchiv Zürich beigetreten. Innerhalb des Grossprojekts wurde ich Teil der Arbeitsgruppe Dissemination und verantwortlich für den Abgleich von mehr als 100'000 Seiten handschriftlicher Protokolle der Zürcher Exekutiven des 19.^. Jahrhundert. Dank READ konnte ich nicht nur Europa und die USA für mehr als 50 Transkribus-bezogene Workshops und Vorträge bereisen. Darüber hinaus kam ich mit zahlreichen Gelehrten, Archivaren, Bibliothekaren und Wissenschaftlern in Kontakt, die versuchen, das Beste aus HTR, KWS, (semantisch erweiterter) Layoutanalyse und vielem mehr herauszuholen. Ich hatte das Privileg, schriftliches Kulturgut in seiner unglaublichen Vielfalt zu sehen und mit Experten über seine Besonderheiten zu diskutieren.

Eine der Folgen des täglichen Nutzens, Denkens und Redens über maschinelles Lernen war es, diesem Ansatz und seinen Vorteilen und Problemen eingehend zu begegnen und meine Forschung entsprechend zu gestalten. Das Ergebnis meiner Nutzung von Transkribus waren also nicht nur Hunderte von HTR+- und PyLAIA-Modellen sowie die Erstellung von Tausenden von Seiten Ground Truth (siehe z.B. das öffentliche Modell StAZH_RRB_German_Kurrent_XIX basierend auf 26 Millionen Wörtern). Es ist vielmehr die Einsicht, dass es unsere Pflicht als Wissenschaftler ist, Deep Learning nicht nur zu nutzen und kritisch zu analysieren, um kulturelles Erbe zugänglich zu machen, sondern auch, um die Technologie und ihre Fallstricke zu unserem zukünftigen Nutzen zu verstehen.

Was Transkribus betrifft, so verstehe ich die Plattform als einsatzbereit, wenn mehrere hundert Bilder verarbeitet werden müssen und eine stabile Umgebung erforderlich ist. Für ein wissenschaftliches Editionsprojekt (koenigsfelden.uzh.ch) haben wir Transkribus als Drehscheibe für Transkriptionen verwendet, was zu einigen HTR-Modellen als Nebenprodukt führte. Am Ende meiner Amtszeit im Staatsarchiv Zürich starteten wir eine Reihe von Projekten, die auf HTR+ und p2pala aufbauten, um riesige Mengen an vormodernen Texten aufzubereiten und semantische Annotationen zur Beschleunigung der archivischen Erschließung zu nutzen. Für das gesamte GLAM-Feld halte ich dies für den richtigen Weg.

Im Jahr 2019 wurde mir - nicht zuletzt dank des Erfolgs von READ - eine Tenure-Track-Stelle an der Universität Bern angeboten, mit der Aufgabe, die Fakultät mit Ansätzen der Digital Humanities zu versorgen. Seitdem setze ich Transkribus in der Lehre ein und denke derzeit über die nächsten Schritte in der Textannotation nach, darunter Named Entity Recognition (insbesondere für historische Sprachen) und Content Extraction (z.B. mittels Topic Modeling).

Wollen Sie mehr wissen? Ich habe auf Deutsch und Englisch über Transkribus, HTR und Konsequenzen des Einsatzes von maschinellem Lernen in den Geisteswissenschaften veröffentlicht (neben einigem Stoff über das Mittelalter 😉 )

Siehe meine Seite an der Universität Bern hier erläutert, und mein ORCiD-Profil, oder folgen Sie mir auf Twitter.

Cookie	Beschreibung	Dauer
viewed_cookie_policy	Das Cookie wird vom GDPR Cookie Consent Plugin gesetzt und dient dazu, zu speichern, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine persönlichen Daten.	1 Stunde
PHPSESSID	Dieses Cookie ist in PHP-Anwendungen enthalten. Der Cookie wird verwendet, um die eindeutige Sitzungs-ID eines Benutzers zu speichern und zu identifizieren, um die Benutzersitzung auf der Website zu verwalten. Das Cookie ist ein Sitzungscookie und wird gelöscht, wenn alle Browserfenster geschlossen werden.	1 Jahr

Cookie	Beschreibung	Dauer
BESUCHER_INFO1_LIVE	Dieses Cookie wird von Youtube gesetzt. Wird verwendet, um die Informationen der eingebetteten Youtube-Videos auf einer Website zu verfolgen.	5 Monate
IDE	Wird von Google DoubleClick verwendet und speichert Informationen darüber, wie der Nutzer die Website und andere Werbung vor dem Besuch der Website nutzt. Dies wird verwendet, um Nutzern Anzeigen zu präsentieren, die für sie entsprechend dem Nutzerprofil relevant sind.	2 Jahre

Cookie	Beschreibung	Dauer
GPS	Dieses Cookie wird von Youtube gesetzt und registriert eine eindeutige ID für die Nachverfolgung von Benutzern basierend auf ihrem geografischen Standort	30 Minuten
tk_oder	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	5 Jahre
tk_r3d	Das Cookie wird von JetPack installiert. Wird für die internen Metriken für Benutzeraktivitäten verwendet, um die Benutzererfahrung zu verbessern	3 Tage
tk_lr	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	1 Jahr
_ga	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Besucher-, Sitzungs- und Camapign-Daten zu berechnen und die Nutzung der Website für den Analysebericht der Website zu verfolgen. Die Cookies speichern Informationen anonym und weisen eine zufällig generierte Nummer zu, um eindeutige Besucher zu identifizieren.	2 Jahre
_gid	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Informationen darüber zu speichern, wie Besucher eine Website nutzen, und hilft bei der Erstellung eines Analyseberichts darüber, wie sich die Website verhält. Die gesammelten Daten umfassen die Anzahl der Besucher, die Quelle, von der sie kommen, und die besuchten Seiten in anonymer Form.	1 Tag
matomo	Für die statistische Analyse verwenden wir auf dieser Website "Matomo". Dies ist ein Open-Source-Tool für die Webanalyse. Matomo überträgt keine Daten an Server außerhalb der Kontrolle von READ-COOP. Matomo ist deaktiviert, wenn Sie unsere Website besuchen. Nur wenn Sie aktiv zustimmen, wird Ihr Nutzungsverhalten anonymisiert erfasst.	1 Jahr

Cookie	Beschreibung	Dauer
YSC	Dieses Cookie wird von Youtube gesetzt und dient dazu, die Aufrufe von eingebetteten Videos zu verfolgen.	1 Jahr
_gat	Dieses Cookie wird von Google Universal Analytics installiert, um die Abfragerate zu drosseln und so die Datensammlung auf stark frequentierten Seiten zu begrenzen.	1 Minute

Meine READ/Transkribus Geschichte: Tobias Hodel

Die COOP

Produkte & Dienstleistungen

Nützliche Informationen

Hilfreiche Ressourcen

Community