Il modello si basa su una selezione di manoscritti tedeschi tardomedievali del XV e XVI secolo. Con un focus geografico sull'Austria e sulla regione anseatica del Baltico, nel materiale didattico sono rappresentati sia testi in medio basso che in nuovo alto tedesco. Tra i caratteri utilizzati, i più comuni sono il gotico corsivo, il bastarda e il primo kurrent.
Il set di dati di addestramento è composto da circa 77.000 parole. La verità di base è stata raccolta da diversi progetti attualmente in corso presso varie istituzioni. L'obiettivo è quello di ampliarlo e diversificarlo in futuro per addestrare un modello generico. Il modello attuale ha quindi lo status di prototipo, con un CER di 5,60% su un set di validazione.
Contatto: j.helmchen@fu-berlin.de
Immagine: WStLA 2.1.2.1.B1.6b.2 - Gewährbuch C, fol. 292r (1420)