+ Riconoscere i documenti legali del diciottesimo secolo al Middle Temple

Lo strumento Onorevole Società del Tempio di Mezzo è uno dei quattro Inns of Court: prestigiose associazioni professionali per avvocati che lavorano in Inghilterra.

Lo strumento archivio e biblioteca del Middle Temple detiene documenti della locanda dall'inizio del XVI secolo in poi. Le serie più significative di questi documenti sono state digitalizzate e rese disponibili online.

Middle Temple ha iniziato ad esplorare Transkribus in modo provvisorio nel 2016. La locanda ha prima firmato un Memorandum d'intesa con il progetto READ e poi hanno iniziato a esplorare le possibilità di addestrare modelli di riconoscimento del testo scritto a mano (HTR) per riconoscere i documenti nelle loro collezioni.

Dopo aver discusso su quali fossero i migliori documenti con cui iniziare, si sono accordati sui registri manoscritti digitalizzati dell'organo di governo del Middle Temple o del Parlamento. Questi documenti risalgono al periodo 1762-1775 e sono stati scritti in diverse mani molto simili.

Una selezione di 101 pagine bifolio sono state caricate su Transkribus e trascritte dal team di Transkribus. David Woolley QC, un banchiere del Middle Temple, si è poi occupato della revisione e della correzione di ogni pagina per assicurare che le trascrizioni fossero il più accurate possibile.

Queste immagini e trascrizioni (circa 80.000 parole trascritte) sono diventati dati di allenamento per generare un modello HTR. Anche i dati del preesistente modello 'English Writing M1' sono stati inclusi come parte del processo di formazione come 'modello di base'. Il sito Il modello 'English Writing M1' è addestrato a riconoscere la scrittura del filosofo inglese Jeremy Bentham (1748 - 1832) e dei suoi segretari - è liberamente disponibile a tutti gli utenti di Transkribus per i loro esperimenti.

Il modello HTR risultante può produrre trascrizioni di immagini dal set di test con un Character Error Rate molto basso di 3,31%. Questo è un risultato sorprendente! Le trascrizioni automatizzate con un tasso di errore così basso diventano immediatamente una risorsa di ricerca utile.

Trascrizione automatica di una pagina dei registri del Middle Temple.

Il team del Middle Temple ha anche creato un dizionario basato su uno dei loro 'Bench Books' che elenca nomi ricorrenti, abbreviazioni e termini insoliti. Si spera che questo dizionario migliori la qualità del riconoscimento.

Middle Temple sta ora esplorando i modi per costruire su questo primo grande risultato, rendendo queste trascrizioni disponibili ai ricercatori in un database ricercabile.

Grazie a Lesley Whitelaw, Barnaby Bryan e David Woolley al Middle Temple e Stuart Dunn al King's College di Londra per questa collaborazione.

CONDIVIDI QUESTO ARTICOLO

Post recenti

25 aprile 2024
News, Transkribus
A gennaio abbiamo annunciato i nostri nuovi piani di abbonamento: Individuale, Studente e Organizzazione. Ciascun piano è adattato a un particolare ...
17 aprile 2024
News, Transkribus
Uno dei maggiori vantaggi di Transkribus è la possibilità di addestrare modelli personalizzati di riconoscimento del testo scritto a mano. Questa caratteristica unica ...
4 aprile 2024
News
La primavera è arrivata e così anche l'uscita di aprile 2024 di Transkribus. Ecco una rapida panoramica di tutte le ...