+ Liberare l'API di Trankribus

di David Brown e Stephen Crane, Trinity College Dublin

Il 30 giugno 1922, all'inizio della guerra civile irlandese, un'esplosione catastrofica e un incendio distrussero il Public Record Office of Ireland a Four Courts, Dublino. Le fiamme e il calore consumarono sette secoli di storia registrata dell'Irlanda, conservata in un magnifico deposito vittoriano di sei piani conosciuto come Record Treasury. Nel centenario dell'incendio del 1922, il Progetto Beyond 2022 al Trinity College di Dublino svelerà Tesoreria virtuale dell'Irlanda-una ricostruzione digitale del Public Record Office of Ireland l'edificio e le sue collezioni.

Grandi parti di queste collezioni sono state copiate prima dell'incendio: il lavoro di antiquari, storici e progetti finanziati pubblicamente che intendevano pubblicare le parti storicamente più significative della collezione come materiale di partenza stampato per gli studiosi. Per varie ragioni, solo una piccola parte di quelli che erano enormi progetti di trascrizione furono mai pubblicati, ma sopravvivono copie manoscritte che arrivano a milioni di pagine di testo scritto a mano. Le trascrizioni sono state fatte tra il diciassettesimo e il diciannovesimo secolo nella mano esperta di segreteria dell'epoca. La maggior parte dei progetti sono stati affidati a un singolo trascrittore, di solito un esperto in un campo particolare e alcuni individui hanno trascritto fino a 25.000 pagine in un periodo di molti anni. Con così tanti esempi di grandi quantità di testo prodotte da una sola mano, le trascrizioni dell'Irish Record Office potrebbero anche essere state preparate con Transkribus in mente.

Trascrizione del 19° secolo di un rotolo di brevetto del tardo 16° secolo da parte della Irish Record Commission per l'inedito "Acta Regia". Per gentile concessione della Russell Library, Maynooth University: Renehan Collection, Vol. 3, p. 14.

Le collezioni riflettono le disposizioni di catalogazione dell'ufficio di registrazione originale e le serie più grandi di copie trattano argomenti centrali per lo studio della storia irlandese: La conquista e l'amministrazione elisabettiana, la piantagione dell'Ulster, l'occupazione cromwelliana dell'Irlanda, le guerre guglielmane e la disgregazione delle grandi proprietà terriere nel XIX secolo. Tutte le aree della storia sono coperte in queste trascrizioni, tuttavia, e il materiale include i primi registri di tipo censimento, commercio, sentenze legali e una vasta gamma di piccole collezioni tematiche relative a città specifiche. La digitalizzazione è più avanzata per il periodo Cromwelliano, 1650-1659, e la scala dei documenti recuperati supera quella che è sopravvissuta per la maggior parte dell'Inghilterra.

Transkribus funziona molto bene su collezioni grandi e relativamente uniformi come queste. Diversi modelli HTR sono stati preparati per 15.000 parole ciascuno, iniziando con le mani del diciannovesimo secolo e raggiungendo, in alcuni casi, un Character Error Rate (CER) di meno di 2%! Man mano che il numero di modelli addestrati aumentava, è emerso un progetto separato per indagare se i modelli esistenti potessero essere utilizzati per riconoscere parzialmente un campione dal successivo set di documenti, e accelerare il processo di creazione di ogni successivo set di ground truth. Si è deciso di creare una singola pagina di verità di base per ogni nuovo esempio, e confrontarla con il testo generato automaticamente con ogni modello del progetto per trovare il migliore con cui lavorare.

Transkribus comprende una GUI client multipiattaforma che viene scaricata ed eseguita sulle macchine locali degli utenti, Windows, Mac o Linux. Questa GUI comunica con un server remoto sul Web. Il server permette di gestire collezioni di documenti, addestrare modelli HTR ed eseguire modelli contro collezioni di documenti, il tutto in risposta alle richieste dell'utente attraverso la GUI.

Insolitamente, il progetto Transkribus ha pubblicato separatamente una libreria client open-source che la GUI usa per fare richieste al server. Come parte di un progetto estivo abbiamo deciso di usare questa libreria come base per un linguaggio di scripting, permettendoci di scrivere mini-programmi (script) che automatizzano compiti comuni separatamente dalla GUI, ma usando gli stessi servizi di back-end di essa.

La libreria client così come è stata spedita è scritta nel linguaggio di programmazione Java, che gira su una macchina virtuale conosciuta come JVM, e che permette al client di essere multipiattaforma. Abbiamo deciso di basare il nostro linguaggio di scripting su Clojure, un idiomatico Lisp moderno che gira anch'esso nella JVM e fornisce un'eccellente interoperabilità con Java.

Il nostro linguaggio di scripting, che chiamiamo Transkript, è anche pubblicato come open-source, su Github. Non implementa tutte le API sottostanti, solo abbastanza per permettere un paio di piccole applicazioni di scripting: eval-models e run-ocr.

Il primo script confronta più modelli addestrati associati a una collezione, utilizzando la prima pagina di un documento specificato. Usando la GUI questo sarebbe un affare laborioso poiché l'esecuzione di ogni modello richiede un po' di tempo. Un utente può eseguire il nostro script e tornare più tardi per esaminare i risultati.

Il secondo script è usato per caricare una cartella di immagini che rappresentano le pagine di un documento dattiloscritto, eseguire l'OCR su di esso e scaricare l'output testuale del processo OCR.

La forza del nostro approccio è che ognuno di questi script ha richiesto solo un paio d'ore per essere scritto e testato, e il nucleo di ognuno di essi è di circa una dozzina di righe di codice fluente, che è abbastanza comprensibile, anche per utenti relativamente non tecnici. Il linguaggio di scripting non aggiunge alcuna nuova funzionalità a Transkribus, ma permette di aumentare notevolmente la produttività attraverso l'elaborazione in batch di un gran numero di lavori. Ci sono molteplici script aggiuntivi che possono essere impiegati, per esempio per HTR i documenti automaticamente una volta che il modello più appropriato è stato identificato dal eval-models sceneggiatura.

CONDIVIDI QUESTO ARTICOLO

Post recenti

17 aprile 2024
News, Transkribus
Uno dei maggiori vantaggi di Transkribus è la possibilità di addestrare modelli personalizzati di riconoscimento del testo scritto a mano. Questa caratteristica unica ...
4 aprile 2024
News
La primavera è arrivata e così anche l'uscita di aprile 2024 di Transkribus. Ecco una rapida panoramica di tutte le ...
3 aprile 2024
News
Si può imparare molto sulla storia francese leggendo libri e guardando documentari. Questo tipo di fonti è ottimo per ...