Modello PyLaia creato a partire dai dati Ground Truth risultanti dalla trascrizione e dalla segmentazione manuale di un campione di 193 pagine della stampa spagnola del XVIII-XIX secolo, in particolare dei volumi del "Diario de Madrid 1788-1825" (https://hemerotecadigital.bne.es/hd/card?oid=0001510462).
Questo modello è stato sviluppato nell'ambito del progetto CLARA-HD (https://clara-nlp.uned.es/home/dh) fondato dal Ministero spagnolo e valido per la trascrizione automatica di stampe spagnole simili dello stesso periodo. Si raccomanda la segmentazione manuale poiché i giornali contengono solitamente tabelle e colonne. È stato ottenuto un CER di 1% sul set di validazione.
Per ulteriori informazioni o dettagli si prega di contattare Eva Sánchez Salido al numero evasan@lsi.uned.es o Ana García Serrano all'indirizzo agarcia@lsi.uned.es.
Si prega di citare questo modello come: Menta, A., Sánchez-Salido, E., & García-Serrano, A. (2022). Trascrizione di documenti storici: Aproximación CLARA-HD. Atti della Conferenza annuale dell'Associazione spagnola per l'elaborazione del linguaggio naturale 2022: progetti e dimostrazioni (SEPLN-PD 2022).