Tibetan Modern U-chen Print 0.1 (TMUP) è il primo modello HTR di Transkribus per le pubblicazioni in lingua tibetana stampata in Uchen (དབུ་ཅན་). dbu può). È stato addestrato su testi pubblicati nella RPC tra gli anni '50 e '80, senza l'utilizzo di un modello di base.
Questo modello è stato addestrato su 522 pagine di 20 documenti. L'insieme di addestramento è costituito da 470 pagine; l'insieme di validazione è costituito da 52 (10%) pagine selezionate automaticamente.
Le pagine per la formazione sono state selezionate da fonti diverse, tra cui tre pagine con cifre prevalentemente tibetane dal Specchio Tibet (pubblicato in India), per riflettere tutte le influenze delle lingue inglese e cinese sull'ortografia tibetana moderna (in particolare, punteggiatura, parole di prestito e la resa della fricativa labiodentale /f/, che tradizionalmente non esiste in tibetano).
TMUP 0.1 è in grado di trascrivere la punteggiatura tibetana tradizionale e la punteggiatura cinese tradizionale e tibetana moderna.
Il modello è più adatto al testo tibetano puro e ha una capacità molto limitata di trascrivere testi occasionali in cinese o in inglese (il Divergent Discourses Project prevede di migliorare le capacità del modello in lingua cinese).
Il modello è stato sviluppato da Franz Xaver Erhard (Università di Lipsia) e da Xiaoying 笑影 (Università di Lipsia) per la Discorsi divergenti (DFG/AHRC).