Questo modello è stato addestrato su un set di documenti rumeni del XIX secolo provenienti dalle biblioteche universitarie centrali (BCU) di Timișoara, Iași e Cluj-Napoca, in Romania.
Il dataset di addestramento comprende 147 pagine di testi rumeni scritti in RTS (Romanian Transitional Script). La scrittura RTS è una combinazione di caratteri latini e cirillici utilizzata nel XIX secolo nelle province rumene. Il suo scopo era quello di facilitare la transizione dalla scrittura cirillica rumena alla moderna scrittura latina.
Le immagini contenute nel set di dati coprono il periodo tra il 1833 e il 1864, fornendo una rappresentazione completa delle variazioni linguistiche e tipografiche di quel periodo. I testi selezionati comprendono una vasta gamma di generi letterari, tra cui poesie, romanzi, drammi, storie, giornali e testi religiosi.
Per maggiori dettagli sul progetto, visitate il nostro sito web:
https://transitional-romanian-transliteration.azurewebsites.net/
Il set di dati è disponibile per il download da Kaggle: https://www.kaggle.com/datasets/mariuspenteliuc/rts-ocr
Questo lavoro è stato sostenuto da una sovvenzione del Ministero rumeno della Ricerca, dell'Innovazione e della Digitalizzazione, CCCDI - UEFISCDI, progetto numero PN-III-P2-2.1-PED-2021-0693, nell'ambito del PNCDI III.