Kulturelles Erbe bewahren: Transkribus-Integration mit Wikimedia-Projekten

Ab Juli 2023 ist Transkribus stolz darauf, eine Texterkennungsmaschine auf Wikisourcedie eine digitale Online-Bibliothek mit gemeinfreien und frei lizenzierten Quellentexten und historischen Dokumenten ist, sowie eine Schwesterprojekt von Wikipedia

Historisches Wissen zu bewahren und weiterzugeben ist wichtiger denn je, aber die Aufgabe, historische Manuskripte zu transkribieren und zugänglich zu machen, ist nicht ohne Herausforderungen, weshalb sich innovative Organisationen für ein gemeinsames Ziel zusammenschließen. 

Die Wikimedia-Stiftung - die gemeinnützige Organisation, die Wikipedia, Wikisource und andere Wikimedia-Projekte für freies Wissen betreibt - und Transkribus haben kürzlich eine spannende Zusammenarbeit begonnen, die mit der Wikisources liebt Manuskripte Projekt, das sich an der Digitalisierung und Transkription historischer balinesischer Manuskripte orientiert. In diesem Artikel erläutern wir, wie es zu dieser Partnerschaft kam und wie Transkribus der Wikisource-Gemeinschaft nützen kann. Außerdem zeigen wir Ihnen, wie Sie Transkribus innerhalb der Wikisource-Plattform für einen nahtlosen Transkriptionsprozess nutzen können.

Wikisource liebt Manuskripte vertikales Logo. Über Wikimedia Commons / CC BY-SA 4.0

Wikisource liebt Manuskripte" und Transkribus

Die Wikisource-Plattform verfügt über eine umfangreiche Sammlung historischer Dokumente, darunter gedruckte und handschriftliche Quellen. Menschen können dazu beitragen, all diese Quellen zugänglich zu machen, indem sie sie entweder manuell transkribieren oder die Wikimedia Optische Zeichenerkennung (OCR) Tool zur Transkription der Seiten.

Das Projekt "Wikisource Loves Manuscripts" wurde am 24. Internationalen Tag der Muttersprache mit dem ursprünglichen Ziel ins Leben gerufen, 20.000 Seiten indonesischer Manuskripte zu digitalisieren und zu transkribieren und sie in Wikimedia-Projekten zur Verfügung zu stellen. Als es jedoch um die Transkription der balinesischen Manuskripte ging, unterstützten die OCR-Integrationen von Wikisource nicht speziell handschriftliche Texte. Transkribus erwies sich als sehr geeignet, vor allem wegen seiner Handwritten Text Recognition (HTR)-Fähigkeiten, die es der weltweiten Wikimedia-Freiwilligen-Gemeinschaft nun ermöglichen, Texterkennungsmodelle auf der Grundlage der handgeschriebenen Texte ihrer Wahl zu erstellen und zu verbessern. 

Die Wikimedia Foundation hat Transkribus auf die Möglichkeit einer Zusammenarbeit angesprochen. Da sowohl die Wikimedia Foundation als auch Transkribus die Aufgabe haben, das kulturelle Erbe zu bewahren und für künftige Generationen zugänglich zu machen, waren wir bei Transkribus gerne bereit, mit dem Projekt "Wikisource Loves Manuscripts" zusammenzuarbeiten und es voll zu unterstützen.

Schrift auf einem Palmblattmanuskript. Tropenmuseum Collection. Gemeinfrei, über Wikimedia Commons / CC BY-SA 3.0

Transkription balinesischer Palmblattmanuskripte 

Die balinesische Schrift, ein traditionelles Schriftsystem aus Bali, Indonesien, besteht aus 47 Buchstaben und wurde für balinesische, altjavanische und Sanskrit-Texte verwendet. Obwohl die balinesische Schrift heute meist in lateinischer Schrift geschrieben wird und weniger Menschen mit der balinesischen Schrift vertraut sind, bleibt sie kulturell bedeutsam, da sie in Traditionen wie der Erstellung von Palmblattmanuskripten, den sogenannten Lontar, verwendet wird, in denen religiöse und literarische Texte über Jahrhunderte hinweg aufbewahrt werden. 

Transkribus unterscheidet sich von der Standard-OCR dadurch, dass es die HTR-Technologie nutzt, um ganze Textzeilen auf einmal zu scannen, wodurch es sich besonders gut für die Entzifferung komplexer balinesischer Manuskripte eignet. Während die Standard-OCR bei gedruckten Materialien und weit verbreiteten Sprachen gut funktioniert, hat sie bei kleineren Sprachen und einzigartigen Handschriften ihre Schwierigkeiten. Im Gegensatz dazu liegt der Hauptvorteil von Transkribus in seiner Fähigkeit, Modelle für jede Schrift und Sprache zu trainieren, auch für weniger verbreitete. Dies macht Transkribus zu einer idealen Lösung für die Bewahrung und Transkription historischer Dokumente mit unterschiedlichem sprachlichen Hintergrund. Durch die Integration der fortschrittlichen KI-Technologie von Transkribus in Wikisource steht sie Freiwilligen zur Verfügung, die sich für eine effiziente und genaue Transkription historischer Manuskripte einsetzen und dabei mehrere Sprachen und Schriften unterstützen. Dank dieses speziellen Ansatzes war Transkribus in der Lage, die Transkription balinesischer Palmblattmanuskripte erfolgreich zu unterstützen.

Ausbildung eines Transkribus-Modells zusammen mit dem IIIT Hyderabad

Die Reise, um die balinesischen Manuskripte zugänglich zu machen, begann mit einem "Wikisource Loves Manuscripts"-Crowdsourcing-Projekt für deren Transkription. Transkribus bot daraufhin an, zunächst ein eigenes Texterkennungsmodell speziell für die balinesischen Manuskripte zu trainieren und stellte über 60.000 kostenlose Transkribus-Credits zur Unterstützung des Projekts zur Verfügung. Später verbesserte die Wikisource-Gemeinschaft das Modell weiter und machte es öffentlich. Mit einem Transkribus-Texterkennungsmodell, das für die Erkennung von Handschriften und Sprachschriften trainiert ist, würde das Ergebnis eine integrierte Transkribus-Engine sein, die gescannte handschriftliche Seiten automatisch in digitalen Text umwandeln kann, den Wikimedia-Freiwillige überprüfen und verbessern.

Um den Ausbildungsprozess zu beginnen, muss ein P2PaLA (Page to Page Layout Analysis) diente als Ausgangspunkt für die Erkennung der Textbereiche der Palmblattmanuskripte. Daraufhin wurde ein Basismodell mit 50 Seiten von Ground Truthd.h. 50 Seiten korrekt und verifiziert transkribierter Text. Auf dieser Grundlage wurde ein Texterkennungsmodell entwickelt, das gut genug funktioniert, um die balinesischen Manuskripte zu transkribieren. Gemeinsam haben die balinesische Wikimedia-Gemeinschaft, das Wikisource-Team, das Team des Internationales Institut für Informationstechnologie Hyderabad unter der Leitung von Dr. Ravi Kiran und Transkribus haben Verbesserungen an der Balinesisches Modell. Da es immer Raum für Verbesserungen gibt, ist die Arbeit an diesem Modell noch im Gange. Darüber hinaus wird derzeit auch ein neues javanisches Modell entwickelt.

In einem letzten Schritt hat Transkribus dem Team Culture & Heritage der Wikimedia Foundation und dem Team des IIIT Hyderabad, das an dem Projekt arbeitet, Anweisungen gegeben, wie sie ihre eigenen Modelle trainieren können, so dass sie in der Lage sind, künftige Transkriptionen selbständig durchzuführen.

Screenshot des Briefes von Aubrey Hall an Helen, 1935-12-24, p6.png. Über Wikisource / CC BY-SA 4.

Wie man Transkribus in Wikisource benutzt

Die Wikimedia Foundation hat erfolgreich integrierte Texterkennungstechnologie von Transkribus in die Wikisource Plattform. Jetzt können die Benutzer auswählen, welches HTR/OCR-System sie für die Transkription historischer Dokumente verwenden möchten. Diese Integration ermöglicht die direkte Übertragung von Bildern an die Transkribus-Server, was zu einer genauen Transkription führt und den Prozess weiter rationalisiert.

Transkribus ist derzeit verfügbar auf 27 verschiedene Sprachversionen von Wikisource und vor der Transkription müssen Sie die gescannten Dokumente auf WIkimedia Commons. Dann können Sie mit der Transkription von Dokumenten unter Verwendung von Transkribus als Texterkennungsmaschine beginnen, indem Sie auf das Dropdown-Menü "Text transkribieren" oben links im Texteditor klicken. Zur weiteren Erläuterung sehen Sie sich bitte Folgendes an Wikisource Informationsseite

Eine gemeinschaftliche Anstrengung 

Mit Blick auf die Zukunft eröffnet die Zusammenarbeit zwischen der Wikimedia Foundation und Transkribus neue Möglichkeiten, da diese Integration dazu beiträgt, den Digitalisierungsprozess zu optimieren und historische Inhalte für die globale Wikimedia-Freiwilligengemeinschaft besser zugänglich zu machen. Mit der Transkription balinesischer Manuskripte kann diese Zusammenarbeit als erfolgreiches Beispiel für die Bewahrung und gemeinsame Nutzung des kulturellen Erbes im digitalen Zeitalter angesehen werden. 

Der Erfolg dieser Manuskripte hat die Idee geweckt, diese Initiative auf andere Manuskripte innerhalb und außerhalb Südostasiens auszuweiten, um das reiche kulturelle Erbe der Region zu bewahren und es einem weltweiten Publikum zugänglich zu machen.



Thumbnail Image: Wikisource liebt Manuskripte vertikales Logo. Über Wikimedia Commons / CC BY-SA 4.0

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juli 3, 2024
News, Transkribus
Einige Transkribus-Projekte enden mit einer vollständig digitalisierten Sammlung in Transkribus. Andere nehmen diese digitalisierte Quelle und verwenden sie ...
Juni 12, 2024
News, Transkribus
Wenn man an karolingische (oder karolingische) Minuskeln denkt, kommen einem wahrscheinlich Karl der Große und sein riesiges karolingisches Reich in den Sinn. Während die ...
Mai 14, 2024
Uncategorized
Das Verstehen historischer Dokumente ist der Schlüssel zum Verständnis der Geschichte. Das Verstehen historischer Dokumente auf Polnisch kann jedoch eine Herausforderung sein. Nicht nur ...