+ Erkennen von gedruckten asiatischen Texten mit Transkribus

Ja, Sie haben richtig gelesen - unser Transkribus Plattform kann tatsächlich gedruckte indische Texte erkennen.

Herkömmliche OCR-Software hat normalerweise Schwierigkeiten, die komplexen südasiatischen Schriften zu entziffern. Zwei Projekte haben kürzlich mit gedruckten Texten aus dem 19. Jahrhundert in Transkribus gearbeitet, in der Hoffnung, bessere Ergebnisse zu erzielen. Mit Bildern und Abschriften aus einer Sammlung können Transkribus-Benutzer ein Modell trainieren, um gedruckten Text jeder Art zu erkennen.

Zunächst einmal, die British Library Zwei Jahrhunderte indischer Druck Projekt erstellt eine digitalisierte Sammlung von Werken, die in Südasien im achtzehnten und neunzehnten Jahrhundert veröffentlicht wurden. Das Projektteam trainierte ein Texterkennungsmodell in Transkribus mit 50 Seiten (mit 5.700 Wörtern) digitalisierter Bilder und Transkripte aus bengalischen Büchern. Das resultierende Modell kann Transkripte von Seiten aus der Sammlung mit einer durchschnittlichen Zeichenfehlerrate von 21% erzeugen. Obwohl dies eine relativ hohe Fehlerrate ist, plant das Team, das Modell neu zu trainieren, indem es mehr Seiten mit Trainingsdaten erstellt und sich auf die Verbesserung der Erkennung von Elementen der bengalischen Schriftzeichen konzentriert, die manchmal von der Software übersehen wurden.

Die Naval Kishore Presse war ein Verlag des neunzehnten Jahrhunderts, der Werke zu verschiedenen Themen in Hindi, Urdu, Arabisch, Persisch und Sanskrit auf den Markt brachte. Ein Teil seiner Ausgaben befindet sich in der Bibliothek des Südasien-Instituts (SAI) der Universität Heidelberg. Die Bibliothek des Südasien-Instituts und die Universitätsbibliothek Heidelberg arbeiten gemeinsam an der Naval Kishore Press - digital Projekt, bei dem es darum ging, eine Auswahl von Texten, die von dieser Presse veröffentlicht wurden, zu digitalisieren und maschinenlesbar zu machen. Das Projektteam verwendete 200 Seiten an Bildern und Transkripten, um ein Modell in Transkribus zu trainieren, das Hindi- und Sanskrit-Texte erkennt. Dieses Modell kann Transkripte der Sammlung mit einer Zeichenfehlerrate von etwa 5% erstellen. Vollständig durchsuchbare Bilder und Transkripte aus der Sammlung können nun im Online-Katalog der Universitätsbibliothek Heidelberg eingesehen, heruntergeladen und mit Anmerkungen versehen werden.

Lesen Sie mehr:

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Dezember 7, 2022
Community
Der November 2022 war ein Meilenstein in der Geschichte von Transkribus. Nach drei Jahren als Teil einer europäischen Genossenschaft wird die Plattform ...
November 17, 2022
Transkribus
Wir freuen uns sehr, Ihnen mitteilen zu können, dass wir gestern 100.000 Nutzer auf der Transkribus-Plattform erreicht haben! Trotz unserer jahrelangen, sehr ...
August 12, 2022
Erkennung von handgeschriebenem Text
Hatten Sie schon einmal Probleme, die Handschrift einer anderen Person zu lesen? Vielleicht beruhigt es Sie zu wissen, dass es nicht nur Menschen sind, die ...