Tibetan Modern U-chen Print 0.1 (TMUP) ist das erste Transkribus HTR-Modell für gedruckte tibetischsprachige Publikationen in Uchen (དབུ་ཅན་ dbu-Dose) Schrift. Es wurde mit Texten trainiert, die zwischen den 1950er und 1980er Jahren in der VR China veröffentlicht wurden, ohne dass ein Basismodell verwendet wurde.
Dieses Modell wurde auf 522 Seiten in 20 Dokumenten trainiert. Der Trainingssatz besteht aus 470 Seiten; der Validierungssatz besteht aus 52 (10%) automatisch ausgewählten Seiten.
Die Seiten für die Schulung wurden aus verschiedenen Quellen ausgewählt, darunter drei Seiten mit hauptsächlich tibetischen Ziffern aus dem Tibet-Spiegel (veröffentlicht in Indien), um alle Einflüsse des Englischen und des Chinesischen auf die moderne tibetische Rechtschreibung widerzuspiegeln (insbesondere die Zeichensetzung, Lehnwörter und die Wiedergabe des labiodentalen Frikativs /f/, den es im Tibetischen traditionell nicht gibt).
TMUP 0.1 kann sowohl die traditionelle tibetische Zeichensetzung als auch die traditionelle chinesische und moderne tibetische Zeichensetzung transkribieren.
Das Modell eignet sich am besten für rein tibetische Texte und ist nur sehr begrenzt in der Lage, gelegentlich chinesische oder englische Texte zu transkribieren (das Divergent Discourses Project plant, die chinesischen Sprachfähigkeiten des Modells zu erweitern).
Das Modell wurde von Franz Xaver Erhard (Universität Leipzig) und Xiaoying 笑影 (Universität Leipzig) für das Divergierende Diskurse Projekt (DFG/AHRC).