Wenn man sich die Liste der öffentlichen KI-Modelle von Transkribus ansieht, könnte man meinen, dass die Plattform nur für europäische Sprachen in lateinischer Schrift, wie Deutsch, Englisch oder Niederländisch, verwendet werden kann. Aber zum Glück für Forscher, die mit "ungewöhnlicheren" Sprachen arbeiten, ist das nicht der Fall. Transkribus verfügt über eine Vielzahl öffentlicher Modelle für viele verschiedene Schriften und Sprachen, die alle für die automatische Transkription gedruckter oder handschriftlicher Texte in diesen Sprachen verwendet werden können.
In diesem Beitrag werfen wir einen Blick auf vier öffentliche KI-Modelle für die nicht-lateinischen Schriften Äthiopisch, Hebräisch, Devanagari, Balinesisch und osmanisches Türkisch und sehen, wie sie Ihre Arbeit mit Dokumenten in diesen Schriften effizienter machen können.
Ahmet Sudi Bosnawi (gest. ca. 1595), Shehr-i Hafiz, signiert Taher 'Umar, Osmanische Türkei, datiert 1821-2. Gemeingut, über Wikimedia Commons
Osmanisch Türkisch Druck
Als Amtssprache des Osmanischen Reiches (14. bis 20. Jahrhundert n. Chr.) war das Osmanische Türkisch in erster Linie eine Literatursprache, die in arabischer Schrift geschrieben und stark vom Arabischen und Persischen beeinflusst war. Mit dem Ende des Osmanischen Reichs im Jahr 1928 und der Gründung der Republik Türkei folgte eine Sprachreform, bei der der öffentliche Gebrauch des Osmanischen Türkisch durch das so genannte "moderne Türkisch" ersetzt wurde. Im Rahmen dieser Reform wurden Lehnwörter persischen und arabischen Ursprungs durch ihre türkischen Entsprechungen ersetzt, und die osmanische Türkischschrift wurde durch ein lateinisches Alphabet für die türkische Sprache ersetzt. Da das osmanische Türkisch mehrere Jahrhunderte lang eine offizielle Schrift im Osmanischen Reich war, auch wenn es heute als "tote" Schrift betrachtet werden könnte, ist es wertvoll, lesbare und verfügbare Quellen zu haben, die uns helfen, die Vergangenheit zu verstehen.
Dieses Modell für osmanisches Türkisch wurde vom Team für digitale osmanische Korpora unter der Leitung von Süphan Kırmızıaltın erstellt, das daran arbeitet, gedruckte osmanische türkische Texte in modernes Türkisch zu transkribieren, um sie besser zugänglich zu machen. Als Material zum Trainieren des Modells dienten sechs osmanisch-türkische Zeitschriften aus dem späten 19. und frühen 20.
König Theodores Bibel, Doppelblatt: St. Johannes. Wellcome Collection. Gemeinfrei, über Wikimedia Commons
Äthiopisch - Klassische äthiopische Schriften aus Äthiopien und Eritrea
Das klassische Äthiopisch, oft auch als Ge-ez bezeichnet, war eine der wichtigsten semitischen Sprachen in dem Teil Afrikas, der heute zu Äthiopien und Eritrea gehört. Dieser Teil der Welt hatte in der Spätantike und im Mittelalter einen beträchtlichen kulturellen, politischen und religiösen Einfluss, so dass das Verständnis der äthiopischen Sprache wichtig ist, um die zu dieser Zeit geschriebenen Primärquellen zu verstehen. Äthiopisch ist zwar keine lebende Sprache mehr, aber eng mit den heutigen Sprachen Tigrinya, Arabisch und Hebräisch verwandt und ist nach wie vor die liturgische Sprache sowohl der äthiopischen als auch der eritreischen orthodoxen Tewahedo-Kirche.
Dieses klassisch-äthiopische Modell wurde im Rahmen des Beta maṣāḥǝft Projektdie von der Hiob Ludolf Zentrum für Äthiopische Studien im Universität Hamburg. Das Projekt zielt darauf ab, eine multimediale Forschungsumgebung für das Studium klassischer äthiopischer Manuskripte zu schaffen, und die Trainingsdaten für dieses Modell wurden auch für die Datenbank des Projekts verwendet. Das Modell hat einen CER von nur 3,8%.
Bhagavata Purana Manuskript, 18. Jahrhundert. Bhaktivedanta-Forschungszentrum, Kolkata. Öffentlicher Bereich, über Wikimedia Commons
Devanagari Gemischt M1A
Die Devanagari-Schrift, die manchmal fälschlicherweise als "indisches Alphabet" bezeichnet wird, ist das Schriftsystem, das für mehrere indische arische Sprachen wie Hindi, Sanskrit und Marathi verwendet wird. Die Buchstaben des Devanagari-Alphabets haben jeweils einen langen horizontalen Strich am oberen Ende, der mit den Strichen aller anderen Buchstaben der Welt verbunden ist. Die Devanagari-Schrift wird nicht nur tagtäglich von Millionen von Menschen auf der ganzen Welt verwendet, sondern ist auch die Schrift, die für die meisten heiligen Texte im Hinduismus sowie für viele im Buddhismus und Jainismus verwendet wird, und hat daher auch eine wichtige religiöse Bedeutung.
Dieses Modell für die Devanagari-Schrift wurde an einer Reihe von Materialien in den Sprachen Hindi, Sanskrit, Braj Bhasha und Awadhi geübt. Alle Materialien wurden im späten 19. und frühen 20. Jahrhundert von der Naval Kishore Press in Lakhnau, Nordindien, gedruckt. Das Modell wurde erstellt von der Universitätsbibliothek Heidelberg und hat eine GEB von nur 2,2%.
"Allerseelen Deuteronomium" aus den Schriftrollen vom Toten Meer. Leon Levy Dead Sea Scrolls Digital Library. Gemeinfrei, über Wikimedia Commons
Hebräische Schrift Sprachen
Die hebräische Schrift, ein Nachkomme des aramäischen Alphabets, ist das Schriftsystem nicht nur für die semitische Sprache Hebräisch, sondern auch für mehrere andere Sprachen wie Jiddisch und Ladino. Es ist auch die Schrift, die für die meisten heiligen jüdischen Texte sowie für viele andere kulturelle Werke verwendet wird, was sie zu einer der am meisten studierten nicht-lateinischen Schriften macht. Interessanterweise enthielt das hebräische Alphabet ursprünglich nur Konsonanten, und die Sprecher mussten die Vokale selbst einsetzen, wenn sie Texte laut vorlasen. Im Laufe der Jahre begannen Gelehrte und Schreiber jedoch, Vokale mit einer Reihe von Punkten zu markieren, die als niqqud.
Dieses Modell für hebräische Schriftsprachen wurde im Rahmen des von Dr. Sinai Rusinek ins Leben gerufenen Projekts "Digitizing Jewish Studies" an der Universität Haifa und unterstützt von der Rothschild-Stiftung Hanadiv Europa. Das Modell wurde mit Texten in mehreren Sprachen trainiert, darunter Hebräisch, Jiddisch und Judäo-Arabisch, so dass es für eine Vielzahl von Dokumenten in hebräischer Schrift geeignet ist.
Schrift auf einem Palmblattmanuskript. Tropenmuseum Collection. Gemeinfrei, über Wikimedia Commons
Balinesische Palmblatt-Manuskripte 16. Jahrhundert
Die balinesische Schrift ist ein traditionelles Schriftsystem von der Insel Bali, Indonesien, das für Texte in der balinesischen Sprache sowie in Altjavanisch und Sanskrit verwendet wurde. Das Alphabet besteht aus 47 Buchstaben - von denen nicht alle in der balinesischen Sprache verwendet werden - und verwendet diakritische Zeichen, um die Aussprache bestimmter Silben zu kennzeichnen. Heutzutage wird die balinesische Sprache meist in lateinischer Schrift geschrieben, und immer weniger Menschen sind mit der balinesischen Schrift vertraut. Sie hat jedoch nach wie vor eine große kulturelle Bedeutung und ist Bestandteil vieler Traditionen auf der Insel.
Eine dieser Traditionen ist die Herstellung von Palmblattmanuskripten, auch Lontar genannt. Diese werden seit Jahrhunderten zur Aufbewahrung von Texten verwendet, von religiösen Schriften bis hin zu Werken der Literatur. Entwickelt von Forschern des NIT Trichy und das IIIT Hyderabad Dieses Modell, das in Indien entwickelt wurde, basiert auf einer Reihe von Palmblattmanuskripten in der balinesischen Schrift. Das gesamte Schulungsmaterial stammt aus dem 16. Jahrhundert und ist somit ideal für die Transkription von Manuskripten aus dieser Zeit.
Wenn Sie mit Palmblattmanuskripten arbeiten, interessiert Sie vielleicht auch unsere aktuelle Zusammenarbeit mit dem Wikimedia-Stiftungdas die Digitalisierung und Transkription von über 20 000 handschriftlichen indonesischen Palmblattmanuskripten zum Ziel hat. Sie können mehr darüber erfahren auf ihrer Website.
Wie kann ich ein öffentliches AI-Modell mit Transkribus verwenden?
Die Transkriptionen von Transkribus beruhen auf KI-Modellen. Jedes Modell wurde darauf trainiert, eine bestimmte Art von handgeschriebenem oder gedrucktem Text in einer bestimmten Sprache zu lesen, und oft auch eine bestimmte Zeitspanne oder ein bestimmtes Genre.
Wenn Sie ein Dokument mit Transkribus transkribieren möchten, müssen Sie zunächst einen Scan des Dokuments hochladen und dann ein Modell auswählen. Derzeit sind 94 öffentliche Modelle verfügbar, die alle kostenlos genutzt werden können. Transkribus übernimmt die im Modell gespeicherten Informationen und wendet sie auf Ihr Dokument an, so dass eine sofortige Transkription entsteht.
Was aber, wenn es kein Modell gibt, das für den Text in Ihren Dokumenten geeignet ist? Dann haben Sie auch die Möglichkeit, Ihr eigenes zu trainieren. Dazu benötigen Sie eine Reihe von vorab beschriebenen Dokumenten, die als "Ground Truth" bezeichnet werden. Je mehr Ground Truth Sie zum Trainieren Ihres Modells verwenden, desto mehr Informationen wird es enthalten und desto genauer wird es bei der Transkription neuer Dokumente sein. Um Zeit zu sparen, verwenden viele Anwender ein öffentliches Modell als Grundlage für ihr individuelles Modell und passen es dann mit weiteren Ground Truths an.