Il modello è stato addestrato con testi in occitano antico, principalmente del XIII e XIV secolo, provenienti dalla Linguadoca o dalla Provenza. Complessivamente, sono stati utilizzati 7 testi per un totale di circa 830 pagine e circa 190.000 token.
Sono stati utilizzati i seguenti testi:
Las Leys d'amors (= Bibliothèque municipale de Toulouse, cote 2883/-4),
Le roman de Flamenca (=Bibliothèque municipale de Carcassonne, cote 34),
e dalla Bibliothèque nationale de France (BnF):
La vida de sant Enimia (= Arsenal 6355), NAF 11180, NAF 1050, Latin 1139 e Français 846.
Il modello effettua segmentazioni indipendenti delle parole ed è in grado di risolvere le abbreviazioni più comuni. La punteggiatura viene lasciata come nel manoscritto (cioè le vocali elise, ad esempio nell'articolo, non vengono sostituite da apostrofi). Il CER sul set di addestramento è di 2,6%, sul set di validazione di 3,51%.