+ Riconoscere i documenti legali del diciottesimo secolo al Middle Temple

Lo strumento Onorevole Società del Tempio di Mezzo è uno dei quattro Inns of Court: prestigiose associazioni professionali per avvocati che lavorano in Inghilterra.

Lo strumento archivio e biblioteca del Middle Temple detiene documenti della locanda dall'inizio del XVI secolo in poi. Le serie più significative di questi documenti sono state digitalizzate e rese disponibili online.

Middle Temple ha iniziato ad esplorare Transkribus in modo provvisorio nel 2016. La locanda ha prima firmato un Memorandum d'intesa con il progetto READ e poi hanno iniziato a esplorare le possibilità di addestrare modelli di riconoscimento del testo scritto a mano (HTR) per riconoscere i documenti nelle loro collezioni.

Dopo aver discusso su quali fossero i migliori documenti con cui iniziare, si sono accordati sui registri manoscritti digitalizzati dell'organo di governo del Middle Temple o del Parlamento. Questi documenti risalgono al periodo 1762-1775 e sono stati scritti in diverse mani molto simili.

Una selezione di 101 pagine bifolio sono state caricate su Transkribus e trascritte dal team di Transkribus. David Woolley QC, un banchiere del Middle Temple, si è poi occupato della revisione e della correzione di ogni pagina per assicurare che le trascrizioni fossero il più accurate possibile.

Queste immagini e trascrizioni (circa 80.000 parole trascritte) sono diventati dati di allenamento per generare un modello HTR. Anche i dati del preesistente modello 'English Writing M1' sono stati inclusi come parte del processo di formazione come 'modello di base'. Il sito Il modello 'English Writing M1' è addestrato a riconoscere la scrittura del filosofo inglese Jeremy Bentham (1748 - 1832) e dei suoi segretari - è liberamente disponibile a tutti gli utenti di Transkribus per i loro esperimenti.

Il modello HTR risultante può produrre trascrizioni di immagini dal set di test con un Character Error Rate molto basso di 3,31%. Questo è un risultato sorprendente! Le trascrizioni automatizzate con un tasso di errore così basso diventano immediatamente una risorsa di ricerca utile.

Trascrizione automatica di una pagina dei registri del Middle Temple.

Il team del Middle Temple ha anche creato un dizionario basato su uno dei loro 'Bench Books' che elenca nomi ricorrenti, abbreviazioni e termini insoliti. Si spera che questo dizionario migliori la qualità del riconoscimento.

Middle Temple sta ora esplorando i modi per costruire su questo primo grande risultato, rendendo queste trascrizioni disponibili ai ricercatori in un database ricercabile.

Grazie a Lesley Whitelaw, Barnaby Bryan e David Woolley al Middle Temple e Stuart Dunn al King's College di Londra per questa collaborazione.

CONDIVIDI QUESTO ARTICOLO

Post recenti

3 luglio 2024
News, Transkribus
Alcuni progetti Transkribus terminano con una collezione completa digitalizzata in Transkribus. Alcuni prendono la fonte digitalizzata e la usano per ...
12 giugno 2024
News, Transkribus
Quando si pensa alla minuscola carolingia (o carolina), probabilmente vengono in mente Carlo Magno e il suo vasto impero carolingio. Mentre il ...
14 maggio 2024
Uncategorized
La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo ...