Ja, Sie haben richtig gelesen - unser Transkribus Plattform kann tatsächlich gedruckte indische Texte erkennen.
Herkömmliche OCR-Software hat normalerweise Schwierigkeiten, die komplexen südasiatischen Schriften zu entziffern. Zwei Projekte haben kürzlich mit gedruckten Texten aus dem 19. Jahrhundert in Transkribus gearbeitet, in der Hoffnung, bessere Ergebnisse zu erzielen. Mit Bildern und Abschriften aus einer Sammlung können Transkribus-Benutzer ein Modell trainieren, um gedruckten Text jeder Art zu erkennen.
Zunächst einmal, die British Library Zwei Jahrhunderte indischer Druck Projekt erstellt eine digitalisierte Sammlung von Werken, die in Südasien im achtzehnten und neunzehnten Jahrhundert veröffentlicht wurden. Das Projektteam trainierte ein Texterkennungsmodell in Transkribus mit 50 Seiten (mit 5.700 Wörtern) digitalisierter Bilder und Transkripte aus bengalischen Büchern. Das resultierende Modell kann Transkripte von Seiten aus der Sammlung mit einer durchschnittlichen Zeichenfehlerrate von 21% erzeugen. Obwohl dies eine relativ hohe Fehlerrate ist, plant das Team, das Modell neu zu trainieren, indem es mehr Seiten mit Trainingsdaten erstellt und sich auf die Verbesserung der Erkennung von Elementen der bengalischen Schriftzeichen konzentriert, die manchmal von der Software übersehen wurden.
Die Naval Kishore Presse war ein Verlag des neunzehnten Jahrhunderts, der Werke zu verschiedenen Themen in Hindi, Urdu, Arabisch, Persisch und Sanskrit auf den Markt brachte. Ein Teil seiner Ausgaben befindet sich in der Bibliothek des Südasien-Instituts (SAI) der Universität Heidelberg. Die Bibliothek des Südasien-Instituts und die Universitätsbibliothek Heidelberg arbeiten gemeinsam an der Naval Kishore Press - digital Projekt, bei dem es darum ging, eine Auswahl von Texten, die von dieser Presse veröffentlicht wurden, zu digitalisieren und maschinenlesbar zu machen. Das Projektteam verwendete 200 Seiten an Bildern und Transkripten, um ein Modell in Transkribus zu trainieren, das Hindi- und Sanskrit-Texte erkennt. Dieses Modell kann Transkripte der Sammlung mit einer Zeichenfehlerrate von etwa 5% erstellen. Vollständig durchsuchbare Bilder und Transkripte aus der Sammlung können nun im Online-Katalog der Universitätsbibliothek Heidelberg eingesehen, heruntergeladen und mit Anmerkungen versehen werden.
Lesen Sie mehr: