Ci sono ora migliaia di Transkribus utenti che lavorano con documenti di tutti i tipi di date, lingue e formati. Oggi vorremmo evidenziare alcuni dei grandi lavori sui primi modelli di Automated Text Recognition per la scrittura danese.
Vagn Mørkeberg Christiansen è un volontario in pensione dell'Archivio del Comune di Faxe in Danimarca. L'archivio era interessato ad usare Transkribus per aprire una collezione di verbali del primo Novecento per la trascrizione e la ricerca. Vagn è stato invitato ad intraprendere questo esperimento.
Vagn ha usato Transkribus per creare dati di allenamento per l'Automated Text Recognition trascrivendo alcune centinaia di pagine da una collezione di verbali della parrocchia di Braaby. Questi verbali sono stati scritti tra il 1912 e il 1931 da J. P. Jensen e O. Christov, che erano entrambi presidenti del consiglio locale. Entrambe le persone hanno scritto in modo relativamente chiaro, anche se i documenti contengono alcune complicazioni come abbreviazioni e somiglianze tra diversi caratteri.
All'ultimo conteggio, Vagn ha trascritto circa 325 pagine in Transkribus. Queste pagine sono state utilizzate per creare tre modelli di riconoscimento del testo per le due diverse mani della collezione.
Il primo modello è stato addestrato su 17.500 parole della scrittura di Jensen e i risultati sono stati promettenti. Le trascrizioni automatiche generate con questo modello hanno raggiunto un tasso medio di errore di carattere di 7,7%.
I due modelli successivi sono stati addestrati sulla scrittura di Christov, il primo con circa 16.000 parole e il secondo con circa 23.000 parole. Fortunatamente, c'è stato un miglioramento significativo nei risultati della trascrizione automatica quando sono state usate più pagine di dati di allenamento. Il tasso medio di errore sui caratteri delle trascrizioni automatiche è sceso da 9,9% a 4,7%.
Queste cifre rappresentano ottimi risultati per il riconoscimento automatico del testo. Le trascrizioni con questo tipo di tasso di errore sui caratteri possono essere facilmente lette, ricercate e corrette.
Il miglioramento del modello addestrato per riconoscere la calligrafia di Christov è anche un'eccellente dimostrazione dell'approccio big data dietro Transkribus. Più immagini e trascrizioni vengono inviate alla nostra piattaforma come dati di allenamento, più il riconoscimento può diventare accurato.
Vagn è entusiasta di questi risultati e prevede di continuare a trascrivere e addestrare i modelli. Il suo prossimo obiettivo è quello di riaddestrare il modello Christov ancora una volta - questa volta con 40.000 parole trascritte!
Se vuoi addestrare il tuo modello di riconoscimento automatico del testo in Transkribus, dai un'occhiata alle guide How to Guides sul sito wiki di Transkribus.
Stiamo anche lavorando su una versione beta di Transkribus Webuna versione web semplificata di Transkribus dove i volontari come Vagn saranno in grado di trascrivere materiale di allenamento per il riconoscimento del testo più facilmente.
Vorremmo ringraziare Vagn Mørkeberg Christiansen per aver fornito le informazioni per questo articolo.