Il gruppo di ricerca sulla storia di genere dell'Università di Jena (Turingia, Germania) sta sperimentando Transkribus come parte di un progetto di progetto di edizione digitale sulla corrispondenza del reggente del XVIII secolo, Erdmuthe Benigna von Reuß-Ebersdorf (1670-1732).
Le prime scritture moderne sono molto impegnative per la tecnologia di riconoscimento automatico del testo perché le lettere tendono ad essere strettamente intrecciate, le abbreviazioni si verificano abbastanza spesso e l'ortografia delle parole non è standardizzata. Come suggerisce il seguente esempio, la scrittura di Erdmuthe non è facile da seguire! Aveva uno stile di scrittura unico e spesso spezzava le parole in parti separate.
Al fine di addestrare un modello per riconoscere la scrittura di Erdmuthe, il team di ricerca di Gender History ha utilizzato circa 250 pagine di trascrizioni esistenti che erano state prodotte nel corso del loro lavoro sull'edizione digitale. Hanno anche usato queste stesse trascrizioni per creare un dizionario del vocabolario di Erdmuthe che può essere integrato nel processo di riconoscimento.
Il modello risultante è in grado di produrre trascrizioni automatiche della scrittura di Erdmuthe con un tasso di errore dei caratteri (CER) inferiore a 9%. Quando un dizionario è incluso nel processo di riconoscimento, gli errori si riducono ulteriormente.
Martin Prell del team del progetto ha elaborato questo esperimento in un rapporto (in tedesco). Copre l'esperienza della preparazione dei dati di allenamento per il riconoscimento del testo e del lavoro diretto con Transkribus. Se stai pensando di usare Transkribus per il tuo progetto, questo documento molto istruttivo potrebbe aiutarti!
Rapporto:
- Rapporto dettagliato sugli esperimenti del progetto con Transkribus (in tedesco) DOI: 10.22032 / dbt.34849
Altri link: