+ Il volontario di Transkribus affronta la calligrafia danese

Marzo 12, 2018
Modelli HTR, Storie di successo, Transkribus

Ci sono ora migliaia di Transkribus utenti che lavorano con documenti di tutti i tipi di date, lingue e formati. Oggi vorremmo evidenziare alcuni dei grandi lavori sui primi modelli di Automated Text Recognition per la scrittura danese.

Vagn Mørkeberg Christiansen è un volontario in pensione dell'Archivio del Comune di Faxe in Danimarca. L'archivio era interessato ad usare Transkribus per aprire una collezione di verbali del primo Novecento per la trascrizione e la ricerca. Vagn è stato invitato ad intraprendere questo esperimento.

Vagn ha usato Transkribus per creare dati di allenamento per l'Automated Text Recognition trascrivendo alcune centinaia di pagine da una collezione di verbali della parrocchia di Braaby. Questi verbali sono stati scritti tra il 1912 e il 1931 da J. P. Jensen e O. Christov, che erano entrambi presidenti del consiglio locale. Entrambe le persone hanno scritto in modo relativamente chiaro, anche se i documenti contengono alcune complicazioni come abbreviazioni e somiglianze tra diversi caratteri.

Pagina della calligrafia di J. P. Jensen del 1913. Immagine per gentile concessione dell'Archivio del Comune di Faxe, Danimarca.

All'ultimo conteggio, Vagn ha trascritto circa 325 pagine in Transkribus. Queste pagine sono state utilizzate per creare tre modelli di riconoscimento del testo per le due diverse mani della collezione.

Il primo modello è stato addestrato su 17.500 parole della scrittura di Jensen e i risultati sono stati promettenti. Le trascrizioni automatiche generate con questo modello hanno raggiunto un tasso medio di errore di carattere di 7,7%.

I due modelli successivi sono stati addestrati sulla scrittura di Christov, il primo con circa 16.000 parole e il secondo con circa 23.000 parole. Fortunatamente, c'è stato un miglioramento significativo nei risultati della trascrizione automatica quando sono state usate più pagine di dati di allenamento. Il tasso medio di errore sui caratteri delle trascrizioni automatiche è sceso da 9,9% a 4,7%.

Pagina della calligrafia di O. Christov del 1922. Immagine per gentile concessione degli archivi del comune di Faxe, Danimarca.

Queste cifre rappresentano ottimi risultati per il riconoscimento automatico del testo. Le trascrizioni con questo tipo di tasso di errore sui caratteri possono essere facilmente lette, ricercate e corrette.

Il miglioramento del modello addestrato per riconoscere la calligrafia di Christov è anche un'eccellente dimostrazione dell'approccio big data dietro Transkribus. Più immagini e trascrizioni vengono inviate alla nostra piattaforma come dati di allenamento, più il riconoscimento può diventare accurato.

Vagn è entusiasta di questi risultati e prevede di continuare a trascrivere e addestrare i modelli. Il suo prossimo obiettivo è quello di riaddestrare il modello Christov ancora una volta - questa volta con 40.000 parole trascritte!

Se vuoi addestrare il tuo modello di riconoscimento automatico del testo in Transkribus, dai un'occhiata alle guide How to Guides sul sito wiki di Transkribus.

Stiamo anche lavorando su una versione beta di Transkribus Webuna versione web semplificata di Transkribus dove i volontari come Vagn saranno in grado di trascrivere materiale di allenamento per il riconoscimento del testo più facilmente.

Vorremmo ringraziare Vagn Mørkeberg Christiansen per aver fornito le informazioni per questo articolo.

CONDIVIDI QUESTO ARTICOLO

Post recenti

3 luglio 2024

News, Transkribus

Mappatura dei concerti di Beethoven e Haydn: il progetto "Vita concertistica a Vienna".

Alcuni progetti Transkribus terminano con una collezione completa digitalizzata in Transkribus. Alcuni prendono la fonte digitalizzata e la usano per ...

12 giugno 2024

News, Transkribus

Che cos'è la minuscola carolingia?

Quando si pensa alla minuscola carolingia (o carolina), probabilmente vengono in mente Carlo Magno e il suo vasto impero carolingio. Mentre il ...

14 maggio 2024

Uncategorized

Modelli di intelligenza artificiale per la lettura di testi polacchi corsivi e stampati

La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo ...

Cookie	Descrizione	Durata
politica dei cookie visualizzati	Il cookie è impostato dal plugin GDPR Cookie Consent e viene utilizzato per memorizzare se l'utente ha acconsentito o meno all'uso dei cookie. Non memorizza alcun dato personale.	1 ora
PHPSESSID	Questo cookie è nativo delle applicazioni PHP. Il cookie viene utilizzato per memorizzare e identificare l'ID di sessione unico di un utente allo scopo di gestire la sessione dell'utente sul sito web. Il cookie è un cookie di sessione e viene cancellato quando tutte le finestre del browser vengono chiuse.	1 anno

Cookie	Descrizione	Durata
VISITATORE_INFO1_LIVE	Questo cookie è impostato da Youtube. Utilizzato per tracciare le informazioni dei video di YouTube incorporati in un sito web.	5 mesi
IDE	Utilizzato da Google DoubleClick e memorizza le informazioni su come l'utente utilizza il sito web e qualsiasi altra pubblicità prima di visitare il sito. Questo viene utilizzato per presentare agli utenti gli annunci che sono rilevanti per loro in base al profilo dell'utente.	2 anni

Cookie	Descrizione	Durata
GPS	Questo cookie è impostato da Youtube e registra un ID unico per tracciare gli utenti in base alla loro posizione geografica	30 minuti
tk_or	Questo cookie è impostato dal plugin JetPack sui siti che utilizzano WooCommerce. Questo è un cookie di riferimento utilizzato per analizzare il comportamento dei referrer per Jetpack	5 anni
tk_r3d	Il cookie è installato da JetPack. Utilizzato per le metriche interne delle attività dell'utente per migliorare l'esperienza dell'utente	3 giorni
tk_lr	Questo cookie è impostato dal plugin JetPack sui siti che utilizzano WooCommerce. Questo è un cookie di riferimento utilizzato per analizzare il comportamento dei referrer per Jetpack	1 anno
{\an8}Che cosa?	Questo cookie è installato da Google Analytics. Il cookie viene utilizzato per calcolare i dati del visitatore, della sessione, del camapign e per tenere traccia dell'utilizzo del sito per il rapporto di analisi del sito. Il cookie memorizza le informazioni in modo anonimo e assegna un numero generato randoly per identificare i visitatori unici.	2 anni
_gid	Questo cookie è installato da Google Analytics. Il cookie viene utilizzato per memorizzare informazioni su come i visitatori utilizzano un sito web e aiuta a creare un rapporto analitico su come sta andando il sito web. I dati raccolti includono il numero di visitatori, la fonte da cui provengono e le pagine visitate in forma anonima.	1 giorno
matomo	Per l'analisi statistica, usiamo "Matomo" su questo sito web. Si tratta di uno strumento open source per l'analisi del web. Matomo non trasmette dati a server al di fuori del controllo di READ-COOP. Matomo viene disattivato quando si visita il nostro sito web. Solo se lei acconsente attivamente, il suo comportamento d'uso viene registrato in modo anonimo.	1 anno

Cookie	Descrizione	Durata
YSC	Questo cookie è impostato da Youtube e viene utilizzato per monitorare le visualizzazioni dei video incorporati.	1 anno
_gat	Questo cookie è installato da Google Universal Analytics per strozzare il tasso di richiesta per limitare la raccolta di dati su siti ad alto traffico.	1 minuto

+ Il volontario di Transkribus affronta la calligrafia danese

Post recenti

Mappatura dei concerti di Beethoven e Haydn: il progetto "Vita concertistica a Vienna".

Che cos'è la minuscola carolingia?

Modelli di intelligenza artificiale per la lettura di testi polacchi corsivi e stampati

La COOP

Prodotti e servizi

Informazioni utili

Risorse utili

Community