Das Modell wurde mit altokzitanischen Texten, hauptsächlich aus dem 13. und 14. Jahrhundert aus dem Languedoc oder der Provence, trainiert. Insgesamt wurden dafür 7 Texte mit insgesamt etwa 830 Seiten und etwa 190.000 Token verwendet.
Die folgenden Texte wurden verwendet:
Las Leys d'amors (= Bibliothèque municipale de Toulouse, cote 2883/-4),
Der Roman von Flamenca (=Bibliothèque municipale de Carcassonne, cote 34),
und von der Bibliothèque nationale de France (BnF):
La vida de sant Enimia (= Arsenal 6355), NAF 11180, NAF 1050, Latin 1139 und Français 846.
Das Modell nimmt unabhängige Wortsegmentierungen vor und ist in der Lage, die üblichen Abkürzungen aufzulösen. Die Interpunktion wird so belassen, wie sie im Manuskript steht (d.h. weggelassene Vokale, z.B. im Artikel, werden nicht durch Apostrophe ersetzt). Der CER für die Trainingsmenge beträgt 2,6%, für die Validierungsmenge 3,51%.