+ Erkennen von gedruckten asiatischen Texten mit Transkribus

Ja, Sie haben richtig gelesen - unser Transkribus Plattform kann tatsächlich gedruckte indische Texte erkennen.

Herkömmliche OCR-Software hat normalerweise Schwierigkeiten, die komplexen südasiatischen Schriften zu entziffern. Zwei Projekte haben kürzlich mit gedruckten Texten aus dem 19. Jahrhundert in Transkribus gearbeitet, in der Hoffnung, bessere Ergebnisse zu erzielen. Mit Bildern und Abschriften aus einer Sammlung können Transkribus-Benutzer ein Modell trainieren, um gedruckten Text jeder Art zu erkennen.

Zunächst einmal, die British Library Zwei Jahrhunderte indischer Druck Projekt erstellt eine digitalisierte Sammlung von Werken, die in Südasien im achtzehnten und neunzehnten Jahrhundert veröffentlicht wurden. Das Projektteam trainierte ein Texterkennungsmodell in Transkribus mit 50 Seiten (mit 5.700 Wörtern) digitalisierter Bilder und Transkripte aus bengalischen Büchern. Das resultierende Modell kann Transkripte von Seiten aus der Sammlung mit einer durchschnittlichen Zeichenfehlerrate von 21% erzeugen. Obwohl dies eine relativ hohe Fehlerrate ist, plant das Team, das Modell neu zu trainieren, indem es mehr Seiten mit Trainingsdaten erstellt und sich auf die Verbesserung der Erkennung von Elementen der bengalischen Schriftzeichen konzentriert, die manchmal von der Software übersehen wurden.

Die Naval Kishore Presse war ein Verlag des neunzehnten Jahrhunderts, der Werke zu verschiedenen Themen in Hindi, Urdu, Arabisch, Persisch und Sanskrit auf den Markt brachte. Ein Teil seiner Ausgaben befindet sich in der Bibliothek des Südasien-Instituts (SAI) der Universität Heidelberg. Die Bibliothek des Südasien-Instituts und die Universitätsbibliothek Heidelberg arbeiten gemeinsam an der Naval Kishore Press - digital Projekt, bei dem es darum ging, eine Auswahl von Texten, die von dieser Presse veröffentlicht wurden, zu digitalisieren und maschinenlesbar zu machen. Das Projektteam verwendete 200 Seiten an Bildern und Transkripten, um ein Modell in Transkribus zu trainieren, das Hindi- und Sanskrit-Texte erkennt. Dieses Modell kann Transkripte der Sammlung mit einer Zeichenfehlerrate von etwa 5% erstellen. Vollständig durchsuchbare Bilder und Transkripte aus der Sammlung können nun im Online-Katalog der Universitätsbibliothek Heidelberg eingesehen, heruntergeladen und mit Anmerkungen versehen werden.

Lesen Sie mehr:

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juli 3, 2024
News, Transkribus
Einige Transkribus-Projekte enden mit einer vollständig digitalisierten Sammlung in Transkribus. Andere nehmen diese digitalisierte Quelle und verwenden sie ...
Juni 12, 2024
News, Transkribus
Wenn man an karolingische (oder karolingische) Minuskeln denkt, kommen einem wahrscheinlich Karl der Große und sein riesiges karolingisches Reich in den Sinn. Während die ...
Mai 14, 2024
Uncategorized
Das Verstehen historischer Dokumente ist der Schlüssel zum Verständnis der Geschichte. Das Verstehen historischer Dokumente auf Polnisch kann jedoch eine Herausforderung sein. Nicht nur ...