Tibetisch Modern U-chen Druck

Kostenloses öffentliches KI-Modell für die Erkennung von handgeschriebenem Text mit Transkribus

Tibetisch Modern U-chen Druck

Tibetan Modern U-chen Print 0.1 (TMUP) ist das erste Transkribus HTR-Modell für gedruckte tibetischsprachige Publikationen in Uchen (དབུ་ཅན་ dbu-Dose) Schrift. Es wurde mit Texten trainiert, die zwischen den 1950er und 1980er Jahren in der VR China veröffentlicht wurden, ohne dass ein Basismodell verwendet wurde.

Dieses Modell wurde auf 522 Seiten in 20 Dokumenten trainiert. Der Trainingssatz besteht aus 470 Seiten; der Validierungssatz besteht aus 52 (10%) automatisch ausgewählten Seiten.

Die Seiten für die Schulung wurden aus verschiedenen Quellen ausgewählt, darunter drei Seiten mit hauptsächlich tibetischen Ziffern aus dem Tibet-Spiegel (veröffentlicht in Indien), um alle Einflüsse des Englischen und des Chinesischen auf die moderne tibetische Rechtschreibung widerzuspiegeln (insbesondere die Zeichensetzung, Lehnwörter und die Wiedergabe des labiodentalen Frikativs /f/, den es im Tibetischen traditionell nicht gibt).
TMUP 0.1 kann sowohl die traditionelle tibetische Zeichensetzung als auch die traditionelle chinesische und moderne tibetische Zeichensetzung transkribieren.

Das Modell eignet sich am besten für rein tibetische Texte und ist nur sehr begrenzt in der Lage, gelegentlich chinesische oder englische Texte zu transkribieren (das Divergent Discourses Project plant, die chinesischen Sprachfähigkeiten des Modells zu erweitern).

Das Modell wurde von Franz Xaver Erhard (Universität Leipzig) und Xiaoying 笑影 (Universität Leipzig) für das Divergierende Diskurse Projekt (DFG/AHRC).


Modell-Übersicht

Name:
Tibetan Modern U-chen Print 0.1
Ersteller:
Franz Xaver Erhard (Universität Leipzig), Xiaoying 笑影
Modell-ID:
60669
Jahrhundert:
20.
Sprachen:
Tibetisch
Schrift:
Tibetisch Modern U-chen
Engine:
PyLaia
Material:
Gedruckt
CER auf Validierungssatz:
1.8 %
Einfach ein Bild hochladen und dieses Modell testen

Mit dem Hochladen eines Bildes akzeptieren Sie unsere Allgemeinen Geschäftsbedingungen und unsere Datenschutzpolitik

Tibetan Modern U-chen Print 0.1 ist für jeden frei verfügbar

Starten Sie mit Transkribus und nutzen Sie es für Ihr eigenes Material
Sie können dieses Modell verwenden, um Druckdokumente mit handschriftlicher Texterkennung in Transkribus automatisch zu transkribieren. Dieses Modell kann in der Transkribus Expert Client möglich als auch mit Transkribus Lite.
Dieses KI-Modell wurde darauf trainiert, Text aus Bildern historischer tibetischer moderner U-chen-Dokumente automatisch in editierbaren und durchsuchbaren Text umzuwandeln.