PyLaia-Modell, das auf der Grundlage von Ground Truth-Daten erstellt wurde, die aus der Transkription und manuellen Segmentierung einer Stichprobe von 193 Seiten der spanischen Presse des XVIII-XIX Jahrhunderts stammen, insbesondere aus Bänden des "Diario de Madrid 1788-1825" (https://hemerotecadigital.bne.es/hd/card?oid=0001510462).
Dieses Modell wurde im Rahmen des CLARA-HD-Projekts entwickelt (https://clara-nlp.uned.es/home/dh), die vom spanischen Ministerium gegründet wurde und für die automatische Transkription ähnlicher spanischer Drucke desselben Zeitraums geeignet ist. Eine manuelle Segmentierung wird empfohlen, da Zeitungen in der Regel Tabellen und Spalten enthalten. Es wurde ein CER von 1% auf der Validierungsmenge erreicht.
Für weitere Informationen oder Einzelheiten wenden Sie sich bitte an Eva Sánchez Salido unter evasan@lsi.uned.es oder Ana García Serrano unter agarcia@lsi.uned.es.
Bitte zitieren Sie dieses Modell als: Menta, A., Sánchez-Salido, E., & García-Serrano, A. (2022). Transcripción de periódicos históricos: Aproximación CLARA-HD. Proceedings of the Annual Conference of the Spanish Association for Natural Language Processing 2022: Projects and Demonstrations (SEPLN-PD 2022).