Eine kurze Geschichte von Transkribus mit Günter Mühlberger

Transkribus wurde nicht über Nacht entwickelt. Vielmehr war es das Ergebnis jahrzehntelanger harter Arbeit. Und obwohl verschiedene Personen im Laufe der Jahre zur Entwicklung von Transkribus beigetragen haben, gibt es einen Mann, der von Anfang an dabei war: Günter Mühlberger. Der Germanist interessierte sich bereits Ende der 1990er Jahre für die digitalen Geisteswissenschaften, als das Internet noch in den Kinderschuhen steckte und die Vorstellung, dass ein Computerprogramm Tausende von handschriftlichen Dokumenten auf Knopfdruck automatisch transkribieren könnte, noch ein Traum war.

Heute, zwei Jahrzehnte später, wird genau dieses Programm von Menschen auf der ganzen Welt für die sinnvolle Erforschung historischer Dokumente genutzt. Als Vorsitzender von READ-COOP ist Günter dafür verantwortlich, dass sich Transkribus weiterentwickelt und diese Forscher bei ihrer Arbeit unterstützt. Wir haben uns mit Günter zusammengesetzt, um mehr über die Geschichte von Transkribus zu erfahren und herauszufinden, wie es mit der Plattform weitergeht.

Günter Mühlberger spielte eine entscheidende Rolle bei der Entwicklung von Transkribus.

Es begann alles mit einer Weihnachtsfeier

Die späten 1990er Jahre waren eine ganz andere Zeit als heute. Internet und E-Mail waren gerade erst eingeführt worden, was die Funktionsweise der Universitäten radikal veränderte und den Forschern eine Vielzahl von Möglichkeiten eröffnete. 

Einer dieser Forscher war Günter Mühlberger von der Universität Innsbruck. Der Germanist hatte bereits einige Erfahrung im wachsenden Bereich der digitalen Geisteswissenschaften, doch eine Entdeckung an Weihnachten erwies sich als Initialzündung für eine neue Art von Projekt.

"Wir hatten um 19 Uhr die betriebliche Weihnachtsfeier, und ich hatte vorher noch eine Stunde Zeit im Büro. Ich habe ein bisschen im Internet recherchiert und herausgefunden, dass es bei der EU ein Programm namens 'Telematik für Bibliotheken' gibt", erklärt Günter. "Ich dachte sofort an den Zeitungsausschnittdienst in unserer Abteilung, der früher interessante Zeitungsartikel zu literarischen Themen aus verschiedenen deutschen Zeitungen ausgeschnitten und in einem großen Archiv abgelegt hat."

Die Bibliothek der Universität Innsbruck, in der das erste OCR-Projekt von Günter stattfand. © Universität Innsbruck

"Auf der Weihnachtsfeier sprach ich den Leiter dieses Archivs an und sagte, dass ich eine Idee für die Digitalisierung dieser Art von Sammlungen habe und dass wir vielleicht Geld von der EU bekommen könnten. Und wir beschlossen, es zu versuchen." Das Team reichte einen Antrag ein, und obwohl sie nicht den vollen Betrag erhielten, gab die EU ihnen genug Mittel, um diese erstes großes OCR-Projekt ins Leben gerufen. Es gelang ihnen, ein System zu entwickeln, mit dem die Zeitungsausschnitte digitalisiert und digital gespeichert werden konnten, anstatt sie physisch zu speichern. "Jeder wollte das Projekt haben, und es war klar, dass dies der Beginn von etwas Größerem war.

Erstellen des ALTO-Formats

Dieses größere Projekt wurde in Form eines zweiten OCR-Projekts, dem Metadaten-Engine. In englischsprachigen Ländern hatten Bibliotheken schon seit einiger Zeit OCR zur Digitalisierung von Büchern eingesetzt. Aber im deutschsprachigen Raum wurden die meisten Bücher bis 1942 in Frakturschrift gedruckt, und es gab noch keine OCR-Maschinen, die Fraktur erkennen konnten. Also machten sich Günter und sein Team daran, dieses Problem mit der Metadata Engine zu lösen.

"Es gab noch keine Lösung, also haben wir die ABBYY Unternehmen um die erste OCR-Engine für Fraktur zu entwickeln. Damals waren die digitalen Daten, die aus der Maschine kamen, hauptsächlich Volltext, enthielten aber nicht alle internen Informationen, wie zum Beispiel die Koordinaten der Wörter. Wir waren der Meinung, dass wir ein offenes Format brauchen, das auch alle diese Daten enthält, damit wir später damit arbeiten können.

© Benutzer:Berteun / Wikimedia Commons / CC-BY-SA-3.0

Das Team setzte sich zusammen und entwickelte das ALTO-Format (Analysed Layout and Text Object), das es ermöglichte, Texte und Layouts so zu speichern, dass sie für verschiedene Zwecke verwendet werden konnten, z. B. für die gemeinsame Anzeige von Text und Bild, wie es heute bei Transkribus der Fall ist.

Um die im Rahmen des Projekts geleistete Arbeit bekannt zu machen, unternahm das Team eine Tournee durch Bibliotheken in den USA. "Wir waren in Harvard, Stanford, der New York Public Library und sogar in der Kongressbibliothek in Washington DC, wo wir ein Publikum von fast 450 Personen hatten".

"Es fing nicht gut an. Wir standen im Stau und kamen mehr als eine Stunde zu spät zum Veranstaltungsort. Dann funktionierte der Projektor nicht und die Leute mussten eine weitere halbe Stunde warten. Aber trotz alledem haben alle sehr aufmerksam zugehört, und es war wirklich toll, mit allen zu sprechen und ihnen zu erklären, was wir tun. Und kurz darauf beschloss die Library of Congress, das ALTO-Format in ihre Systeme zu integrieren, was ein wirklich großer Erfolg war." 

Umwandlung von OCR in HTR

Nach dem Erfolg des Projekts "Metadata Engine" nahm Günter dann als Teilprojektleiter an einem weiteren großen OCR-Projekt teil, das von der Königliche Bibliothek der Niederlande. Das IMPACT-Projekt konzentrierte sich auf die Erkennung alter Bücher und Zeitungen. "Es war ein wirklich großes Projekt mit 12 Millionen Euro", erklärte Günter. "Aber es ist mehr oder weniger komplett gescheitert, weil es zu sehr darauf ausgerichtet war, die alte Technologie zu verbessern."

Anders als die heutige HTR-Technologie arbeitete die traditionelle OCR-Technologie mit einer Reihe von Vorlagen für jedes Zeichen. Wurde dem OCR-System ein Bild eines neuen Zeichens vorgelegt, verglich es die Form des Zeichens mit allen verschiedenen Vorlagen und wählte diejenige aus, der es am ähnlichsten war.

"Aber bei komplizierten Zeichen, wie etwa handgeschriebenen, funktioniert diese Technologie nicht. Die Zeichen unterscheiden sich einfach so sehr von den Vorlagen, dass das System sie nicht erkennen kann. Das macht die Erkennung von handschriftlichen Dokumenten sehr schwierig."

Glücklicherweise war auch ein Team von IBM an dem Projekt beteiligt, das eine faszinierende Lösung vorschlug. "Sie hatten die Idee, einzelne Wörter zu isolieren und dem Nutzer dann die digitale Version des Wortes zu präsentieren. Der Benutzer kann dann eventuelle Fehler in der Transkription korrigieren, und diese Informationen gehen zurück an die Maschine, um das Ganze zu verbessern. Das ist die Idee, auf der Transkribus basiert, und man könnte sagen, dass dies der Anfang der Plattform war."

Transkribus wurde geschaffen, um den Zugang zu Archiven für jedermann zu erleichtern. © Universität Innsbruck

Eine erfolgreiche Zusammenarbeit

Das IBM-Team war nicht das einzige, das an dieser Art von Technologie arbeitete. Die Technische Universität von Valencia forschten ebenfalls an neuen Texterkennungssystemen und sprachen das Innsbrucker Team auf eine Zusammenarbeit an. "Wir hatten ein gutes Standing bei der EU, und es gab eine neue Ausschreibung für die Digitalisierung des kulturellen Erbes. Valencia entwarf einen Vorschlag, der angenommen wurde, und zusammen mit mehreren Partnern wie University College LondonDas Projekt TranScriptorium wurde Anfang 2013 gestartet."

TranScriptorium war das erste echte Projekt zur Handschrifterkennung. Damals war die Technologie viel langsamer - es dauerte etwa 20 Minuten, um nur eine einzige Seite zu erkennen. Der größte Unterschied zwischen damals und heute war jedoch, dass die gesamte Grundwahrheit vom Team selbst generiert wurde. Es gab keine Möglichkeit für den Benutzer, seine eigenen Ground-Truth-Daten einzugeben oder zu trainieren.

"Mir war von Anfang an klar, dass es eine Menge Arbeit sein würde, Ground Truth für den Lernalgorithmus zu generieren. Außerdem würden wir dafür ein Benutzerwerkzeug benötigen, damit die Bodenwahrheit einfach erstellt und in einem standardisierten Format und an einem zentralen Ort gesammelt werden kann. Sebastian Colutto entwickelte ein Java-Tool für die Erstellung von Ground Truth, das dann mit einem zentralen Server verbunden wurde, auf dem alle Ground Truths gespeichert werden konnten." 

Dieses rudimentäre Tool war quasi die erste Transkribus-Benutzeroberfläche und legte den Grundstein für die spätere Plattform. "Die allererste Version ging im Februar 2015 online. Im darauffolgenden Sommer machten wir sie öffentlich und die Leute mochten sie. Sie mochten, dass man eine automatische Transkription haben konnte, ohne die Verbindung zum Bild zu verlieren." 

Schaffung einer virtuellen Forschungsumgebung

Während das TranScriptorium-Projekt lief, erschien eine weitere interessante EU-Projektausschreibung. "Sie stellte Mittel für die Schaffung virtueller Forschungsumgebungen zur Verfügung, und das war genau das, was wir machen wollten. Also entwarfen wir einen Vorschlag und erhielten als einziger von etwa 70 oder 80 Vorschlägen die maximale Punktzahl von 15. Das gab uns die Chance, unsere Idee mit einer öffentlichen Investition von 8,2 Millionen Euro zu verwirklichen."

Die Idee war, eine Plattform zu schaffen, die es Nutzern ermöglicht, automatische Transkriptionen handschriftlicher Dokumente zu erhalten und KI-Modelle zu trainieren, die bestimmte Arten von Handschriften lesen können. Mit anderen Worten: Das Team wollte Transkribus Wirklichkeit werden lassen.

"Wir hatten versprochen, die Plattform vom ersten Tag des Projekts an, also am 1. Januar 2016, zum Laufen zu bringen." Von diesem Zeitpunkt an wurde Transkribus immer beliebter. Auf der allerersten Transkribus-Nutzerkonferenz im Jahr 2017 wurde die CITlab Team der Universität Rostock zusammen mit dem Planet AI Unternehmen demonstrierte die neue Technologie zur Erkennung von Grundlinien, die die Layout-Analyse erheblich verbessern würde und bei den 120 Konferenzteilnehmern sehr gut ankam.

"Bald darauf führte das CITlab-Team auch die neue HTR+-Engine ein, die 40-50% besser war als die vorherige. Vorher lag die Fehlerquote bei 15%. Mit denselben Trainingsdaten und der neuen Engine lag die Fehlerrate bei 7-8%. Und die Resonanz war überwältigend. Mit der neuen und verbesserten Fehlerquote wurde Transkribus plötzlich für die meisten Forscher zu einer praktikablen Option. Dann wurde die Team aus Valencia eingeführt PyLaia - eine quelloffene HTR-Engine, die jetzt die Kern-Engine von Transkribus ist.

Die Gründung von READ-COOP

Zu diesem Zeitpunkt war klar, dass Transkribus auf Dauer angelegt war. Aber es stellte sich die Frage: Wer würde für die Plattform verantwortlich sein? Wer würde Bugs und Wartungsprobleme beheben und die Plattform weiterentwickeln? Damals war alles an der Universität Innsbruck angesiedelt. Da jedoch nur ein kleiner Prozentsatz der Nutzer aus Österreich stammte, war es unwahrscheinlich, dass sie die Plattform für immer hosten wollten.

Außerdem musste sichergestellt werden, dass alle Projektpartner ein Mitspracherecht bei der Verwaltung der Plattform haben, an deren Aufbau sie alle so hart gearbeitet hatten. Die Lösung bestand darin, eine Genossenschaft zu gründen, so dass die Interessengruppen gemeinsam die Verantwortung tragen konnten. "Die Idee war, dass es sich um eine Art Shared Service handeln könnte, aber mit kommerziellen Auswirkungen, so dass wir für die Wartung und Entwicklung der Plattform bezahlen könnten. Damals wusste jedoch niemand von uns wirklich etwas über Genossenschaften".

Das READ-COOP-Büro heute.

Und die Gründung erwies sich als schwieriger, als das Team es sich vorgestellt hatte. "Wir waren so ziemlich die erste europäische Genossenschaft, die in Österreich gegründet wurde, also gab es eine Menge Bürokratie zu bewältigen. Und dann war da noch die Frage des Geldes. Das Team musste einen bestimmten Geldbetrag aufbringen, um die Genossenschaft zu gründen, und die Projektpartner wurden gebeten, gegen eine geringe Gebühr "Gründungsmitglieder" zu werden. "Es war nicht allzu schwierig, genügend Gründungsmitglieder zu finden, um dies zu tun. Schwieriger war es, sie alle zur gleichen Zeit in einen Raum zu bekommen, um die Papiere zu unterschreiben.

Doch dank viel Geduld, harter Arbeit und bürokratischem Know-how haben die österreichischen Gerichte die Genossenschaft schließlich abgesegnet. Im Juli 2019 - über 20 Jahre nachdem Günter die Idee für sein "Telematik"-Projekt hatte - wurde READ-COOP offizieller Hüter der Transkribus-Plattform.

20 Jahre Erfolgsgeschichte der Digitalisierung

Die letzten zwei Jahrzehnte waren eine aufregende Zeit für die Handschrifterkennung, und die Projekte von Günter Mühlberger standen an der Spitze dieser Technologie. Wir haben Günter gefragt, worauf er in dieser Zeit am meisten stolz ist.

"Ich bin auf zwei Dinge stolz. Erstens, dass wir ein so tolles Team haben, das daran arbeitet. Zweitens, dass heute so viele Menschen Transkribus für ihre Forschung nutzen. Meine Rolle bei dieser ganzen Sache war es, das Gefühl zu haben, dass dies der richtige Moment ist, dass es da draußen Leute mit der richtigen Technologie gibt und dass wir unsere Fähigkeiten kombinieren und ein Werkzeug schaffen können, das vielen Menschen nicht nur im akademischen und archivarischen Bereich, sondern auch mit ihren Familiendokumenten helfen wird."

"Für die Zukunft hoffe ich, dass wir die Menschen weiterhin auf diese Weise unterstützen können. Nur ein sehr kleiner Prozentsatz der Dokumente in der Welt ist digitalisiert und es gibt noch so viele interessante Dokumente, die darauf warten, entdeckt zu werden: Sie mit dem HTR zu erforschen, wird der historischen Forschung einen großen Schub geben."

Vielen Dank, Günter, für das Gespräch mit uns!

Transkribus wäre nichts ohne seine Community. Transkribus Anwenderkonferenz 2022

DIESEN ARTIKEL TEILEN

Neueste Beiträge

April 17, 2024
News, Transkribus
Einer der größten Vorteile von Transkribus ist die Möglichkeit, benutzerdefinierte Modelle zur Erkennung von handschriftlichem Text zu trainieren. Diese einzigartige Funktion ...
4. April 2024
News
Der Frühling hat begonnen und damit auch die Veröffentlichung von Transkribus im April 2024. Hier ist ein kurzer Überblick über alle ...
3. April 2024
News
Man kann viel über die französische Geschichte lernen, wenn man Bücher liest oder Dokumentarfilme sieht. Diese Arten von Quellen sind gut für ...