Ein gemeinschaftlicher Ansatz: READ-COOP und die Europeana Foundation bündeln ihre Kräfte, um die Transcribathon-Plattform zu verbessern

Von Fiona Park

Nicht jeder, der sich mit Geschichte beschäftigt, ist ein professioneller Historiker. Von Hobby-Genealogen bis hin zu Freiwilligen in lokalen Museen haben Laien schon immer eine wichtige Rolle dabei gespielt, die Geschichte lebendig zu halten. Und im digitalen Zeitalter gibt es für Freiwillige eine neue Möglichkeit, sich zu engagieren.

Die EnrichEuropeana+ Projekt ist ein Bürgerwissenschaft Initiative. Sie bringt gewöhnliche Menschen zusammen, um an einem gemeinsamen wissenschaftlichen oder akademischen Ziel zu arbeiten. Im Fall von Enrich Europeana geht es darum, vollständig kommentierte digitale Versionen der Europeana Collections zu erstellen. Um dies zu erreichen, transkribieren und ergänzen Freiwillige aus ganz Europa handschriftliche Quellen mit Hilfe der Transcribathon-Plattform: einer maßgeschneiderten Website, die es Freiwilligen ermöglicht, von zu Hause aus mit ihrem normalen Computer zu transkribieren.

Im Jahr 2021 beschloss EnrichEuropeana+, die Transcribathon-Plattform mit neuer Technologie und einem neuen Look zu aktualisieren. Als Experte für Transkriptionssoftware wurde READ-COOP gebeten, an dem Projekt teilzunehmen, und wir haben gerne zugesagt. Hier ist, was passiert ist.

Bereicherung des europäischen Kulturerbes

Das Projekt Europeana wurde im Jahr 2008 ins Leben gerufen. Ziel war es, kulturelles Erbe wie Briefe, Porträts und offizielle Dokumente aus dem gesamten Kontinent zu bewahren und der Öffentlichkeit zugänglich zu machen. Daraus entstand die Europeana Collections: digitale Sammlungen von Objekten, die nach Themen oder Zeiträumen gruppiert sind. Zum Beispiel, wenn Sie sich die Sammlung "Gebäude"finden Sie ein Foto des Gebäude der Manhattan Life Insurance in New York (untergebracht im Schwedisches Nationalmuseum für Wissenschaft und Technologiey) sowie einen Zeitungsartikel über den Bau einer neues Studentenhaus in Bulgarien (untergebracht im Öffentliche Bibliothek Pencho Slaveykov in Varna). Indem wir Artefakte wie diese digital zur Verfügung stellen, kann sich jeder an ihnen erfreuen und von ihnen lernen, ohne dafür eine Reise nach Stockholm oder Varna unternehmen zu müssen.

Manhattan Life Insurance Gebäude in New York © Okänd

Der größte Vorteil digitaler Sammlungen ist jedoch, dass sie vollständig durchsuchbar sind. Wenn ein Benutzer nach Zeitungsartikeln über Bauvorhaben in Bulgarien sucht, kann er diese Suchbegriffe einfach eingeben und findet das Gesuchte viel schneller als bei der Suche in einer physischen Sammlung. Ermöglicht wird der Suchvorgang durch Metadaten - zusätzliche Informationen über das Artefakt, die in seine digitale Version einprogrammiert sind. Zu den Metadaten gehören nicht nur der Titel, das Datum und die Beschreibung, wie sie in einem normalen Museum zu finden sind, sondern auch viele andere Elemente wie Namen und Orte, die im Artefakt erwähnt werden, oder Tags, die dessen Inhalt zusammenfassen. Wenn der Benutzer einen Suchbegriff eingibt, durchsucht die Sammlung die Metadaten aller Objekte, findet diejenigen, die dem Suchbegriff entsprechen, und zeigt dem Benutzer das Objekt an.

Eine große bürgerwissenschaftliche Initiative

Die Transkription digitaler Artefakte und ihre Anreicherung mit Metadaten erfordert jedoch, dass ein Mensch das Material ansieht oder durchliest, Tags und andere Metadaten zuordnet und diese in ein Computersystem eingibt. Idealerweise sollten die Transkription und die Metadaten auch von einem zweiten Menschen überprüft werden, um sicherzustellen, dass alles korrekt eingegeben wurde. Dies ist natürlich sehr zeitaufwändig, und die meisten Museen, Bibliotheken und Archive haben einfach nicht die Ressourcen, um Transkriptionen und Metadaten selbst einzugeben.

Daher hat Europeana eine neue Lösung für dieses Problem gefunden: Bürgerwissenschaft. Die Transkriptionen und Metadaten würden von einem Team von Freiwilligen zu den digitalen Artefakten hinzugefügt werden, so dass das Museumspersonal mehr Zeit für die fachliche Arbeit hätte. Die Freiwilligen würden darin geschult, wie sie die Daten auf ihrem eigenen Computer zu Hause eingeben können, so dass jeder auf der ganzen Welt zur Digitalisierung des Europeana Collections beitragen kann. 

Dokumente aus dem Lauf "Sachsen am Werk" © Europeana Foundation

Ein wichtiger Bestandteil des Projekts ist die Europeana-Plattform Transcribathonwo Freiwillige von ihrem normalen Computer zu Hause aus Materialien einsehen, Texte transkribieren und mit Metadaten anreichern können. Europeana organisiert auch Transkriptionsveranstaltungen, so genannte "Runs". Jeder Lauf hat ein bestimmtes Thema, zum Beispiel, Sachsens Industriekultur oder theatralische Handschriften in Portugiesischund einen bestimmten Zeitraum, in der Regel mehrere Tage oder Wochen. Während des Laufs können die Freiwilligen die Dokumente zu diesem Thema transkribieren und oft auch gegeneinander antreten, um zu sehen, wer in diesem Zeitraum die meisten Dokumente bearbeiten kann. Die "Gewinner" gewinnen zwar oft nicht mehr als die Ehre, an der Spitze der Rangliste zu stehen, aber das Gefühl des Wettbewerbs steigert die Motivation der Freiwilligen und sorgt dafür, dass die gesamte Veranstaltung allen mehr Spaß macht.

Einbindung von Transkribus in Transcribathon

Die ursprüngliche Transcribathon-Plattform, die 2016 geschaffen wurde, war ein reiner Transkriptionseditor. Freiwillige konnten Text manuell mit ihrem Computer transkribieren, aber es waren keine automatischen Transkriptionen möglich. Im Jahr 2021 beschloss Europeana, die Plattform mit einer Handschrifterkennungssoftware zu aktualisieren. Dies würde bedeuten, dass Freiwillige keine zeitaufwändigen manuellen Transkriptionen mehr vornehmen müssten, sondern einfach eine automatische Transkription Korrektur lesen könnten. Da das Korrekturlesen in der Regel viel weniger Zeit in Anspruch nimmt, könnten die Freiwilligen in der gleichen Zeit mehr Dokumente bearbeiten, was zu einem schnelleren Ausbau der Online-Sammlungen beitragen würde.

Der einfachste Weg, eine neue digitale Plattform zu schaffen, besteht darin, sie auf etwas zu gründen, das bereits existiert, und genau das hat Europeana getan. READ-COOP verfügte bereits über eine funktionierende Plattform für die Transkription und Anreicherung historischer Dokumente (Transkribus) und eine Möglichkeit für andere Plattformen, direkt mit Transkribus zu kommunizieren (die metagrapho API). Dies würde die Grundlage für die neue Transcribathon-Plattform bilden.

Die metagrapho API ermöglicht anderen Plattformen den Zugang zur Transkribus-Technologie © READ-COOP

Für Uneingeweihte ist eine API ein Stück Software, das als Bote zwischen zwei verschiedenen Plattformen fungiert. Ein Nutzer fordert Informationen auf einer Plattform an, und die Plattform sendet diese Anfrage an die API einer anderen Plattform. Sobald die zweite Plattform eine Antwort auf die Anfrage hat, leitet die API diese an die erste Plattform zurück, und die Person erhält die gewünschten Informationen. Ein gutes Beispiel hierfür ist eine Flugbuchungsseite. Ein Benutzer möchte herausfinden, welche Flüge zwischen zwei verschiedenen Städten verfügbar sind, also gibt er einen Abflughafen und ein Ziel auf einer Flugbuchungsseite ein. Eine API sendet diese Nachricht dann an eine zweite Plattform, in diesem Fall an das Computersystem der Fluggesellschaft. Dieses Computersystem findet die möglichen Flüge und die API sendet diese Informationen zurück an die Flugbuchungsseite. Der Nutzer kann dann alle verfügbaren Flüge sehen.

Die neue Transcribathon-Plattform funktioniert auf ähnliche Weise. Wenn ein Freiwilliger eine automatische Transkription eines Textes erhalten möchte, fordert er dies auf der Transcribathon-Plattform an. Transcribathon sendet diese Anfrage dann an die metagrapho API, die das Bild mit Hilfe von Handschrifterkennungstechnologie verarbeitet und eine automatische Transkription erstellt. Sobald die Verarbeitung abgeschlossen ist, kann die Transcribathon-Plattform auf die Transkription zugreifen und sie dem Freiwilligen zeigen, wiederum über die metagrapho-API. 

Die Verwendung einer bestehenden API auf diese Weise bedeutete, dass das Europeana-Team sein eigenes Texterkennungssystem nicht von Grund auf neu entwickeln musste. Es musste lediglich eine Plattform entwickeln, mit der die metagrapho API interagieren konnte, um auf die Technologie der Transkribus-Plattform zugreifen zu können. Dies bedeutete, dass die Texterkennungstechnologie von Transkribus recht schnell und ohne allzu große Entwicklungskosten in die Plattform integriert werden konnte.

Eine kroatische Postkarte aus der Europeana Collections. © Dragutin Hirc

Ein einfach zu bedienender Transkriptionseditor

Die Aktualisierung der Technologie hinter Transcribathon bedeutete, dass der Transkriptionseditor - der Teil, den ein Freiwilliger zur Eingabe oder zum Korrekturlesen von Transkriptionen verwendet - nicht mehr in der Lage war, mit dem reichhaltigeren Datenformat umzugehen, das er von der metagrapho API zurückerhielt. Daher war es notwendig, einen neuen Transkriptionseditor für Transcribathon zu entwickeln. Dieser würde es den Freiwilligen unter anderem ermöglichen, auf eine Zeile der Transkription zu klicken, um die entsprechende Zeile im Bild des Textes zu sehen.

Auch hier wurde beschlossen, keinen neuen Editor von Grund auf zu entwickeln. Stattdessen nahm READ-COOP den bestehenden Editor der Transkribus-Software, passte ihn an die Anforderungen von Transcribathon an und verwandelte ihn in ein Widget. Das Widget wurde dann einfach in die Transcribathon-Plattform eingefügt, so dass die Benutzer auf die von der metagrapho-API generierten Transkriptionen zugreifen und diese bearbeiten können. Wie bei der API konnten auch hier durch die Verwendung des bestehenden Transkribus-Editors und seine einfache Modifizierung wertvolle Entwicklungszeit und -kosten eingespart werden.

Der neu gestaltete Transcribathon-Editor © Europeana Foundation

Die Macht der Zusammenarbeit

Kurz gesagt, durch die Nutzung der bestehenden Transkribus-Technologie konnte das EnrichEuropeana+-Projekt die Transcribathon-Plattform viel schneller und effizienter aktualisieren, als es möglich gewesen wäre, wenn sie alles von Grund auf neu entwickelt hätten. Mit der metagrapho-API und dem benutzerdefinierten Transkriptions-Editor-Widget konnte Transcribathon das Beste aus der READ-COOP-Technologie herausholen und es an die Anforderungen dieses einzigartigen Citizen-Science-Projekts anpassen.

Und das Projekt war bereits ein Erfolg. Die neue Version der Plattform wurde vor kurzem für mehrere Läufe verwendet, darunter die Transkription von historische Dokumente in kroatischer Sprache sowie eine mehrsprachige Auflage von Dokumente aus dem 19. Jahrhundertbei dem Freiwillige in nur 6 Wochen über 1400 Dokumente bearbeiteten. Wir sind gespannt, was die künftige Zusammenarbeit zwischen EnrichEuropeana+ und Transkribus bringen wird!

Eines der vielen Dokumente aus dem Zagreber Lauf © Ivan Ulčnik

Dieses Projekt war ein Europeana Generic Services Projekt und wurde von der Connecting Europe Facility der Europäischen Union kofinanziert.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

25. April 2024
News, Transkribus
Im Januar haben wir unsere neuen Abonnementpläne angekündigt: Einzelpersonen, Stipendiaten und Organisationen. Jeder Plan ist auf eine bestimmte ...
April 17, 2024
News, Transkribus
Einer der größten Vorteile von Transkribus ist die Möglichkeit, benutzerdefinierte Modelle zur Erkennung von handschriftlichem Text zu trainieren. Diese einzigartige Funktion ...
4. April 2024
News
Der Frühling hat begonnen und damit auch die Veröffentlichung von Transkribus im April 2024. Hier ist ein kurzer Überblick über alle ...