Äthiopisch, Hebräisch, Devanagari, Balinesisch und osmanisches Türkisch: 5 öffentliche KI-Modelle für die Transkription nicht-lateinischer Schriften

Mai 3, 2023
Transkribus

Wenn man sich die Liste der öffentlichen KI-Modelle von Transkribus ansieht, könnte man meinen, dass die Plattform nur für europäische Sprachen in lateinischer Schrift, wie Deutsch, Englisch oder Niederländisch, verwendet werden kann. Aber zum Glück für Forscher, die mit "ungewöhnlicheren" Sprachen arbeiten, ist das nicht der Fall. Transkribus verfügt über eine Vielzahl öffentlicher Modelle für viele verschiedene Schriften und Sprachen, die alle für die automatische Transkription gedruckter oder handschriftlicher Texte in diesen Sprachen verwendet werden können.

In diesem Beitrag werfen wir einen Blick auf vier öffentliche KI-Modelle für die nicht-lateinischen Schriften Äthiopisch, Hebräisch, Devanagari, Balinesisch und osmanisches Türkisch und sehen, wie sie Ihre Arbeit mit Dokumenten in diesen Schriften effizienter machen können.

Ahmet Sudi Bosnawi (gest. ca. 1595), Shehr-i Hafiz, signiert Taher 'Umar, Osmanische Türkei, datiert 1821-2. Gemeingut, über Wikimedia Commons

Osmanisch Türkisch Druck

Als Amtssprache des Osmanischen Reiches (14. bis 20. Jahrhundert n. Chr.) war das Osmanische Türkisch in erster Linie eine Literatursprache, die in arabischer Schrift geschrieben und stark vom Arabischen und Persischen beeinflusst war. Mit dem Ende des Osmanischen Reichs im Jahr 1928 und der Gründung der Republik Türkei folgte eine Sprachreform, bei der der öffentliche Gebrauch des Osmanischen Türkisch durch das so genannte "moderne Türkisch" ersetzt wurde. Im Rahmen dieser Reform wurden Lehnwörter persischen und arabischen Ursprungs durch ihre türkischen Entsprechungen ersetzt, und die osmanische Türkischschrift wurde durch ein lateinisches Alphabet für die türkische Sprache ersetzt. Da das osmanische Türkisch mehrere Jahrhunderte lang eine offizielle Schrift im Osmanischen Reich war, auch wenn es heute als "tote" Schrift betrachtet werden könnte, ist es wertvoll, lesbare und verfügbare Quellen zu haben, die uns helfen, die Vergangenheit zu verstehen.

Dieses Modell für osmanisches Türkisch wurde vom Team für digitale osmanische Korpora unter der Leitung von Süphan Kırmızıaltın erstellt, das daran arbeitet, gedruckte osmanische türkische Texte in modernes Türkisch zu transkribieren, um sie besser zugänglich zu machen. Als Material zum Trainieren des Modells dienten sechs osmanisch-türkische Zeitschriften aus dem späten 19. und frühen 20.

→ Zum Modell gehen

König Theodores Bibel, Doppelblatt: St. Johannes. Wellcome Collection. Gemeinfrei, über Wikimedia Commons

Äthiopisch - Klassische äthiopische Schriften aus Äthiopien und Eritrea

Das klassische Äthiopisch, oft auch als Ge-ez bezeichnet, war eine der wichtigsten semitischen Sprachen in dem Teil Afrikas, der heute zu Äthiopien und Eritrea gehört. Dieser Teil der Welt hatte in der Spätantike und im Mittelalter einen beträchtlichen kulturellen, politischen und religiösen Einfluss, so dass das Verständnis der äthiopischen Sprache wichtig ist, um die zu dieser Zeit geschriebenen Primärquellen zu verstehen. Äthiopisch ist zwar keine lebende Sprache mehr, aber eng mit den heutigen Sprachen Tigrinya, Arabisch und Hebräisch verwandt und ist nach wie vor die liturgische Sprache sowohl der äthiopischen als auch der eritreischen orthodoxen Tewahedo-Kirche.

Dieses klassisch-äthiopische Modell wurde im Rahmen des Beta maṣāḥǝft Projektdie von der Hiob Ludolf Zentrum für Äthiopische Studien im Universität Hamburg. Das Projekt zielt darauf ab, eine multimediale Forschungsumgebung für das Studium klassischer äthiopischer Manuskripte zu schaffen, und die Trainingsdaten für dieses Modell wurden auch für die Datenbank des Projekts verwendet. Das Modell hat einen CER von nur 3,8%.

→ Zum Modell gehen

Bhagavata Purana Manuskript, 18. Jahrhundert. Bhaktivedanta-Forschungszentrum, Kolkata. Öffentlicher Bereich, über Wikimedia Commons

Devanagari Gemischt M1A

Die Devanagari-Schrift, die manchmal fälschlicherweise als "indisches Alphabet" bezeichnet wird, ist das Schriftsystem, das für mehrere indische arische Sprachen wie Hindi, Sanskrit und Marathi verwendet wird. Die Buchstaben des Devanagari-Alphabets haben jeweils einen langen horizontalen Strich am oberen Ende, der mit den Strichen aller anderen Buchstaben der Welt verbunden ist. Die Devanagari-Schrift wird nicht nur tagtäglich von Millionen von Menschen auf der ganzen Welt verwendet, sondern ist auch die Schrift, die für die meisten heiligen Texte im Hinduismus sowie für viele im Buddhismus und Jainismus verwendet wird, und hat daher auch eine wichtige religiöse Bedeutung.

Dieses Modell für die Devanagari-Schrift wurde an einer Reihe von Materialien in den Sprachen Hindi, Sanskrit, Braj Bhasha und Awadhi geübt. Alle Materialien wurden im späten 19. und frühen 20. Jahrhundert von der Naval Kishore Press in Lakhnau, Nordindien, gedruckt. Das Modell wurde erstellt von der Universitätsbibliothek Heidelberg und hat eine GEB von nur 2,2%.

→ Zum Modell gehen

"Allerseelen Deuteronomium" aus den Schriftrollen vom Toten Meer. Leon Levy Dead Sea Scrolls Digital Library. Gemeinfrei, über Wikimedia Commons

Hebräische Schrift Sprachen

Die hebräische Schrift, ein Nachkomme des aramäischen Alphabets, ist das Schriftsystem nicht nur für die semitische Sprache Hebräisch, sondern auch für mehrere andere Sprachen wie Jiddisch und Ladino. Es ist auch die Schrift, die für die meisten heiligen jüdischen Texte sowie für viele andere kulturelle Werke verwendet wird, was sie zu einer der am meisten studierten nicht-lateinischen Schriften macht. Interessanterweise enthielt das hebräische Alphabet ursprünglich nur Konsonanten, und die Sprecher mussten die Vokale selbst einsetzen, wenn sie Texte laut vorlasen. Im Laufe der Jahre begannen Gelehrte und Schreiber jedoch, Vokale mit einer Reihe von Punkten zu markieren, die als niqqud.

Dieses Modell für hebräische Schriftsprachen wurde im Rahmen des von Dr. Sinai Rusinek ins Leben gerufenen Projekts "Digitizing Jewish Studies" an der Universität Haifa und unterstützt von der Rothschild-Stiftung Hanadiv Europa. Das Modell wurde mit Texten in mehreren Sprachen trainiert, darunter Hebräisch, Jiddisch und Judäo-Arabisch, so dass es für eine Vielzahl von Dokumenten in hebräischer Schrift geeignet ist.

→ Zum Modell gehen

Schrift auf einem Palmblattmanuskript. Tropenmuseum Collection. Gemeinfrei, über Wikimedia Commons

Balinesische Palmblatt-Manuskripte 16. Jahrhundert

Die balinesische Schrift ist ein traditionelles Schriftsystem von der Insel Bali, Indonesien, das für Texte in der balinesischen Sprache sowie in Altjavanisch und Sanskrit verwendet wurde. Das Alphabet besteht aus 47 Buchstaben - von denen nicht alle in der balinesischen Sprache verwendet werden - und verwendet diakritische Zeichen, um die Aussprache bestimmter Silben zu kennzeichnen. Heutzutage wird die balinesische Sprache meist in lateinischer Schrift geschrieben, und immer weniger Menschen sind mit der balinesischen Schrift vertraut. Sie hat jedoch nach wie vor eine große kulturelle Bedeutung und ist Bestandteil vieler Traditionen auf der Insel.

Eine dieser Traditionen ist die Herstellung von Palmblattmanuskripten, auch Lontar genannt. Diese werden seit Jahrhunderten zur Aufbewahrung von Texten verwendet, von religiösen Schriften bis hin zu Werken der Literatur. Entwickelt von Forschern des NIT Trichy und das IIIT Hyderabad Dieses Modell, das in Indien entwickelt wurde, basiert auf einer Reihe von Palmblattmanuskripten in der balinesischen Schrift. Das gesamte Schulungsmaterial stammt aus dem 16. Jahrhundert und ist somit ideal für die Transkription von Manuskripten aus dieser Zeit.

Wenn Sie mit Palmblattmanuskripten arbeiten, interessiert Sie vielleicht auch unsere aktuelle Zusammenarbeit mit dem Wikimedia-Stiftungdas die Digitalisierung und Transkription von über 20 000 handschriftlichen indonesischen Palmblattmanuskripten zum Ziel hat. Sie können mehr darüber erfahren auf ihrer Website.

→ Zum Modell gehen

Wie kann ich ein öffentliches AI-Modell mit Transkribus verwenden?

Die Transkriptionen von Transkribus beruhen auf KI-Modellen. Jedes Modell wurde darauf trainiert, eine bestimmte Art von handgeschriebenem oder gedrucktem Text in einer bestimmten Sprache zu lesen, und oft auch eine bestimmte Zeitspanne oder ein bestimmtes Genre.

Wenn Sie ein Dokument mit Transkribus transkribieren möchten, müssen Sie zunächst einen Scan des Dokuments hochladen und dann ein Modell auswählen. Derzeit sind 94 öffentliche Modelle verfügbar, die alle kostenlos genutzt werden können. Transkribus übernimmt die im Modell gespeicherten Informationen und wendet sie auf Ihr Dokument an, so dass eine sofortige Transkription entsteht.

Was aber, wenn es kein Modell gibt, das für den Text in Ihren Dokumenten geeignet ist? Dann haben Sie auch die Möglichkeit, Ihr eigenes zu trainieren. Dazu benötigen Sie eine Reihe von vorab beschriebenen Dokumenten, die als "Ground Truth" bezeichnet werden. Je mehr Ground Truth Sie zum Trainieren Ihres Modells verwenden, desto mehr Informationen wird es enthalten und desto genauer wird es bei der Transkription neuer Dokumente sein. Um Zeit zu sparen, verwenden viele Anwender ein öffentliches Modell als Grundlage für ihr individuelles Modell und passen es dann mit weiteren Ground Truths an.

Weitere Informationen über Modelle und deren Ausbildung finden Sie in unserem Hilfe-Center.

Laden Sie ein Dokument hoch und probieren Sie Transkribus aus:

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juli 3, 2024

News, Transkribus

Kartierung der Konzerte von Beethoven und Haydn: das Projekt "Konzertleben in Wien".

Einige Transkribus-Projekte enden mit einer vollständig digitalisierten Sammlung in Transkribus. Andere nehmen diese digitalisierte Quelle und verwenden sie ...

Juni 12, 2024

News, Transkribus

Was ist die karolingische Minuskel?

Wenn man an karolingische (oder karolingische) Minuskeln denkt, kommen einem wahrscheinlich Karl der Große und sein riesiges karolingisches Reich in den Sinn. Während die ...

Mai 14, 2024

Uncategorized

KI-Modelle für das Lesen von kursiven und gedruckten polnischen Texten

Das Verstehen historischer Dokumente ist der Schlüssel zum Verständnis der Geschichte. Das Verstehen historischer Dokumente auf Polnisch kann jedoch eine Herausforderung sein. Nicht nur ...

Cookie	Beschreibung	Dauer
viewed_cookie_policy	Das Cookie wird vom GDPR Cookie Consent Plugin gesetzt und dient dazu, zu speichern, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine persönlichen Daten.	1 Stunde
PHPSESSID	Dieses Cookie ist in PHP-Anwendungen enthalten. Der Cookie wird verwendet, um die eindeutige Sitzungs-ID eines Benutzers zu speichern und zu identifizieren, um die Benutzersitzung auf der Website zu verwalten. Das Cookie ist ein Sitzungscookie und wird gelöscht, wenn alle Browserfenster geschlossen werden.	1 Jahr

Cookie	Beschreibung	Dauer
BESUCHER_INFO1_LIVE	Dieses Cookie wird von Youtube gesetzt. Wird verwendet, um die Informationen der eingebetteten Youtube-Videos auf einer Website zu verfolgen.	5 Monate
IDE	Wird von Google DoubleClick verwendet und speichert Informationen darüber, wie der Nutzer die Website und andere Werbung vor dem Besuch der Website nutzt. Dies wird verwendet, um Nutzern Anzeigen zu präsentieren, die für sie entsprechend dem Nutzerprofil relevant sind.	2 Jahre

Cookie	Beschreibung	Dauer
GPS	Dieses Cookie wird von Youtube gesetzt und registriert eine eindeutige ID für die Nachverfolgung von Benutzern basierend auf ihrem geografischen Standort	30 Minuten
tk_oder	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	5 Jahre
tk_r3d	Das Cookie wird von JetPack installiert. Wird für die internen Metriken für Benutzeraktivitäten verwendet, um die Benutzererfahrung zu verbessern	3 Tage
tk_lr	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	1 Jahr
_ga	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Besucher-, Sitzungs- und Camapign-Daten zu berechnen und die Nutzung der Website für den Analysebericht der Website zu verfolgen. Die Cookies speichern Informationen anonym und weisen eine zufällig generierte Nummer zu, um eindeutige Besucher zu identifizieren.	2 Jahre
_gid	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Informationen darüber zu speichern, wie Besucher eine Website nutzen, und hilft bei der Erstellung eines Analyseberichts darüber, wie sich die Website verhält. Die gesammelten Daten umfassen die Anzahl der Besucher, die Quelle, von der sie kommen, und die besuchten Seiten in anonymer Form.	1 Tag
matomo	Für die statistische Analyse verwenden wir auf dieser Website "Matomo". Dies ist ein Open-Source-Tool für die Webanalyse. Matomo überträgt keine Daten an Server außerhalb der Kontrolle von READ-COOP. Matomo ist deaktiviert, wenn Sie unsere Website besuchen. Nur wenn Sie aktiv zustimmen, wird Ihr Nutzungsverhalten anonymisiert erfasst.	1 Jahr

Cookie	Beschreibung	Dauer
YSC	Dieses Cookie wird von Youtube gesetzt und dient dazu, die Aufrufe von eingebetteten Videos zu verfolgen.	1 Jahr
_gat	Dieses Cookie wird von Google Universal Analytics installiert, um die Abfragerate zu drosseln und so die Datensammlung auf stark frequentierten Seiten zu begrenzen.	1 Minute

Äthiopisch, Hebräisch, Devanagari, Balinesisch und osmanisches Türkisch: 5 öffentliche KI-Modelle für die Transkription nicht-lateinischer Schriften

Osmanisch Türkisch Druck

Äthiopisch - Klassische äthiopische Schriften aus Äthiopien und Eritrea

Devanagari Gemischt M1A

Hebräische Schrift Sprachen

Balinesische Palmblatt-Manuskripte 16. Jahrhundert

Wie kann ich ein öffentliches AI-Modell mit Transkribus verwenden?

Weitere Informationen über Modelle und deren Ausbildung finden Sie in unserem Hilfe-Center.

Laden Sie ein Dokument hoch und probieren Sie Transkribus aus:

Neueste Beiträge

Kartierung der Konzerte von Beethoven und Haydn: das Projekt "Konzertleben in Wien".

Was ist die karolingische Minuskel?

KI-Modelle für das Lesen von kursiven und gedruckten polnischen Texten

Die COOP

Produkte & Dienstleistungen

Nützliche Informationen

Hilfreiche Ressourcen

Community