Abbiamo dei risultati straordinari da segnalare relativi a un'interessante collezione di documenti conservati al Centro di documentazione moderna all'Università di Warwick.
L'archivista Elizabeth Wood e il suo team hanno recentemente addestrato un modello di Handwritten Text Recognition (HTR) per riconoscere la scrittura in una collezione di diari di ciclismo scritti in inglese all'inizio del ventesimo secolo da David Allan Hamilton.
Le pagine del diario di Hamilton sono piccole e spesso interrotte da foto, mappe e schizzi della vita sulla strada. Questo significa che il team di Warwick ha deciso di presentare un maggior numero di pagine trascritte per addestrare il loro modello.
Il modello Hamilton è stato addestrato su circa 200 pagine trascritte (contenenti quasi 20.000 parole) da un volume dei diari di Hamilton.
Le trascrizioni automatiche prodotte da questo modello hanno un impressionante Character Error Rate di appena 5% - il che significa che una media di 95% di caratteri sono trascritti correttamente dal computer.
Il team del Modern Records Centre sta attualmente lavorando con le trascrizioni automatizzate e sta anche esplorando la possibilità di addestrare nuovi modelli per elaborare altri diari nel loro patrimonio.