Dieses Modell wurde mit einem Datensatz rumänischer Dokumente aus dem 19. Jahrhundert trainiert, die aus den Zentralen Universitätsbibliotheken (BCU) von Timișoara, Iași und Cluj-Napoca in Rumänien stammen.
Der Trainingsdatensatz umfasst 147 Seiten rumänischer Texte, die in der rumänischen Übergangsschrift (RTS) geschrieben sind. Die RTS-Schrift ist eine Kombination aus lateinischen und kyrillischen Zeichen, die im 19. Jahrhundert in den rumänischen Provinzen verwendet wurde. Jahrhundert in den rumänischen Provinzen verwendet wurde. Ihr Zweck war es, den Übergang von der rumänischen kyrillischen Schrift zur modernen lateinischen Schrift zu erleichtern.
Die Bilder des Datensatzes umfassen den Zeitraum zwischen 1833 und 1864 und bieten eine umfassende Darstellung der sprachlichen und typografischen Veränderungen in dieser Zeit. Die ausgewählten Texte umfassen ein breites Spektrum an literarischen Gattungen, darunter Gedichte, Romane, Dramen, Erzählungen, Zeitungen und religiöse Texte.
Weitere Informationen über das Projekt finden Sie auf unserer Website:
https://transitional-romanian-transliteration.azurewebsites.net/
Der Datensatz steht bei Kaggle zum Download bereit: https://www.kaggle.com/datasets/mariuspenteliuc/rts-ocr
Diese Arbeit wurde durch einen Zuschuss des rumänischen Ministeriums für Forschung, Innovation und Digitalisierung, CCCDI - UEFISCDI, Projektnummer PN-III-P2-2.1-PED-2021-0693, im Rahmen von PNCDI III unterstützt.