+ Il volontario di Transkribus affronta la calligrafia danese

Ci sono ora migliaia di Transkribus utenti che lavorano con documenti di tutti i tipi di date, lingue e formati. Oggi vorremmo evidenziare alcuni dei grandi lavori sui primi modelli di Automated Text Recognition per la scrittura danese.

Vagn Mørkeberg Christiansen è un volontario in pensione dell'Archivio del Comune di Faxe in Danimarca. L'archivio era interessato ad usare Transkribus per aprire una collezione di verbali del primo Novecento per la trascrizione e la ricerca. Vagn è stato invitato ad intraprendere questo esperimento.

Vagn ha usato Transkribus per creare dati di allenamento per l'Automated Text Recognition trascrivendo alcune centinaia di pagine da una collezione di verbali della parrocchia di Braaby. Questi verbali sono stati scritti tra il 1912 e il 1931 da J. P. Jensen e O. Christov, che erano entrambi presidenti del consiglio locale. Entrambe le persone hanno scritto in modo relativamente chiaro, anche se i documenti contengono alcune complicazioni come abbreviazioni e somiglianze tra diversi caratteri.

Pagina della calligrafia di J. P. Jensen del 1913. Immagine per gentile concessione dell'Archivio del Comune di Faxe, Danimarca.

All'ultimo conteggio, Vagn ha trascritto circa 325 pagine in Transkribus. Queste pagine sono state utilizzate per creare tre modelli di riconoscimento del testo per le due diverse mani della collezione.

Il primo modello è stato addestrato su 17.500 parole della scrittura di Jensen e i risultati sono stati promettenti. Le trascrizioni automatiche generate con questo modello hanno raggiunto un tasso medio di errore di carattere di 7,7%.

I due modelli successivi sono stati addestrati sulla scrittura di Christov, il primo con circa 16.000 parole e il secondo con circa 23.000 parole. Fortunatamente, c'è stato un miglioramento significativo nei risultati della trascrizione automatica quando sono state usate più pagine di dati di allenamento. Il tasso medio di errore sui caratteri delle trascrizioni automatiche è sceso da 9,9% a 4,7%.

Pagina della calligrafia di O. Christov del 1922. Immagine per gentile concessione degli archivi del comune di Faxe, Danimarca.

Queste cifre rappresentano ottimi risultati per il riconoscimento automatico del testo. Le trascrizioni con questo tipo di tasso di errore sui caratteri possono essere facilmente lette, ricercate e corrette.

Il miglioramento del modello addestrato per riconoscere la calligrafia di Christov è anche un'eccellente dimostrazione dell'approccio big data dietro Transkribus. Più immagini e trascrizioni vengono inviate alla nostra piattaforma come dati di allenamento, più il riconoscimento può diventare accurato.

Vagn è entusiasta di questi risultati e prevede di continuare a trascrivere e addestrare i modelli. Il suo prossimo obiettivo è quello di riaddestrare il modello Christov ancora una volta - questa volta con 40.000 parole trascritte!

Se vuoi addestrare il tuo modello di riconoscimento automatico del testo in Transkribus, dai un'occhiata alle guide How to Guides sul sito wiki di Transkribus.

Stiamo anche lavorando su una versione beta di Transkribus Webuna versione web semplificata di Transkribus dove i volontari come Vagn saranno in grado di trascrivere materiale di allenamento per il riconoscimento del testo più facilmente.

Vorremmo ringraziare Vagn Mørkeberg Christiansen per aver fornito le informazioni per questo articolo.

CONDIVIDI QUESTO ARTICOLO

Post recenti

28 febbraio 2024
News, Transkribus
Con oltre 80 relatori provenienti da circa 40 paesi, presentazioni coinvolgenti e discussioni ponderate, la Conferenza degli utenti di Transkribus 2024 ci ha ...
22 febbraio 2024
Uncategorized
Notizie entusiasmanti per gli appassionati e i ricercatori di storia olandese! Dopo l'annuncio della scorsa settimana alla Transkribus Users Conference 24, il nuovo ...
31 gennaio 2024
News
Siamo lieti di annunciare gli ultimi aggiornamenti del nostro editor di documenti, con un'interfaccia più intuitiva e pulita. Il nostro ...