+ Diari di ciclismo inglese riconosciuti dall'Università di Warwick

Abbiamo dei risultati straordinari da segnalare relativi a un'interessante collezione di documenti conservati al Centro di documentazione moderna all'Università di Warwick.

L'archivista Elizabeth Wood e il suo team hanno recentemente addestrato un modello di Handwritten Text Recognition (HTR) per riconoscere la scrittura in una collezione di diari di ciclismo scritti in inglese all'inizio del ventesimo secolo da David Allan Hamilton.

Le pagine del diario di Hamilton sono piccole e spesso interrotte da foto, mappe e schizzi della vita sulla strada. Questo significa che il team di Warwick ha deciso di presentare un maggior numero di pagine trascritte per addestrare il loro modello.

Il modello Hamilton è stato addestrato su circa 200 pagine trascritte (contenenti quasi 20.000 parole) da un volume dei diari di Hamilton.

Le trascrizioni automatiche prodotte da questo modello hanno un impressionante Character Error Rate di appena 5% - il che significa che una media di 95% di caratteri sono trascritti correttamente dal computer.

Screenshot della trascrizione automatica in Transkribus. Pagina del diario di David Allan Hamilton, 1916-1923, dal National Cycle Archive, Modern Records Centre, University of Warwick [riferimento documento: MSS.328/N93/1].
Il team del Modern Records Centre sta attualmente lavorando con le trascrizioni automatizzate e sta anche esplorando la possibilità di addestrare nuovi modelli per elaborare altri diari nel loro patrimonio.

CONDIVIDI QUESTO ARTICOLO

Messaggi recenti

20 giugno 2022
Transkribus
Di Joe Nockels, Università di Edimburgo Nell'ambito della sua ricerca di dottorato presso l'Università di Edimburgo e la National Library ...
15 giugno 2022
Transkribus, Webinar
Siamo entusiasti di lanciare la nostra nuova serie di webinar "Ask Us Anything", in cui i partecipanti possono chiederci qualsiasi cosa ...
Giugno 9, 2022
Uncategorized
La nuova funzione di condivisione potrebbe essere un piccolo pulsante per una schermata, ma è una grande funzione per ...