Come calcolare la precisione dei modelli HTR

Come calcolare la precisione dei modelli HTR

Strumenti Transkribus
Transkribus Expert Client
Ultimo aggiornamento 2 mesi fa
Informazioni su Transkribus

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Sommario

Sommario

Introduzione

Questa guida ti mostrerà come calcolare l'accuratezza di diversi modelli e confrontare l'accuratezza della trascrizione automatica in modo più dettagliato, nonché come confrontare l'accuratezza di un modello di riconoscimento eseguito su un set campione del tuo materiale specifico. 

Calcolare la precisione 

Puoi misurare la precisione del tuo modello su pagine specifiche dei tuoi Training e Validation Set con la funzione "Compute Accuracy" nella scheda "Tools". Per farlo, è necessario prima generare una trascrizione HTR. 

Come "Reference"scegliere una versione della pagina che sia stata trascritta correttamente (Ground Truth: trascrizione manuale il più possibile vicina al testo originale). Per ottenere il valore più significativo, sarebbe meglio usare pagine da un set di campioni che non sono state usate nella formazione e quindi sono nuove per il modello. Anche l'uso di pagine dal Validation Set è un'opzione, ma non così ideale come quella appena menzionata. Usare pagine dal Training Set non è una buona idea perché questo produrrà valori CER più bassi di quelli che sono in realtà. 

Come "Hypothesis"Scegliete la versione che è stata generata automaticamente con un modello HTR e sulla quale volete testare quanto è buono il risultato. 

Puoi cambiare le versioni da confrontare cliccando sul pulsante grigio accanto a "Riferimento" e "Ipotesi". Fai doppio clic per scegliere la versione desiderata del documento nella finestra che appare. Le versioni che possono essere selezionate per "Riferimento" e "Ipotesi" sono versioni diverse del tuo documento, che sono state create dopo aver eseguito un nuovo lavoro o aver salvato delle trascrizioni. 

Figura 1 "Calcolo della precisione" nella scheda "Strumenti".
Figura 2 Scegliere la versione giusta facendo doppio clic

Opzioni per controllare i risultati delle trascrizioni automatiche

Confrontare le versioni di testo

Se cliccate su "Confronta le versioni del testo" otterrete una rappresentazione visiva di ciò che il modello HTR ha trascritto correttamente e non correttamente.

Figura 3 Confrontare le versioni del testo

Si prega di notare che anche se solo un carattere è sbagliato, l'intera parola è segnata in rosso. In verde, la parola è mostrata come è scritta nella trascrizione della Ground Truth. Nei passaggi senza colore il testo riconosciuto è identico al Ground Truth. 

Confronta

Questo controllo di precisione è la versione più veloce. Per accedervi, clicca su "Confronta...".
In primo luogo, assicuratevi che le versioni giuste siano state selezionate nella sezione superiore della finestra che appare. Poi premi il pulsante "Confronta". Il risultato verrà mostrato nella sezione inferiore della finestra dopo pochi secondi. 

Figura 4 Risultati 

I valori sono calcolati per la pagina che avete attualmente caricato in background. Nell'immagine di esempio, abbiamo un CER di 2,34% su quella pagina, il che significa che il 97,66% dei caratteri della trascrizione automatica sono corretti. 

Facendo doppio clic sulla data e l'ora nella colonna "Creato" della scheda di confronto semplice, si arriva automaticamente alla finestra "Statistiche avanzate". Qui otterrai indicazioni e valori più dettagliati e i risultati possono essere esportati in un file Excel. 

Figura 5 Statistiche avanzate 

La visualizzazione panoramica mostra due tabelle: una con il valore "Overall", che sono i valori medi del riconoscimento su tutte le pagine di un documento. Nella tabella sottostante si trovano i valori per le singole pagine. In questo modo è possibile confrontare i risultati su diverse pagine e facendo doppio clic sulla riga si arriva al confronto del testo, dove è possibile controllare quali parole o passaggi di testo sono stati impegnativi. 

Nota: La ponderazione delle pagine per il valore "Overall" è calcolata in base al numero di parole riconosciute in una pagina. 

Confronto avanzato

Quando si apre la finestra "Compare" si può scegliere un'altra scheda chiamata "Advanced Compare". 

Figura 6 Confronto avanzato 

Con "Confronto avanzato", puoi controllare l'accuratezza di più pagine in una volta sola aggiungendo le pagine che vuoi valutare (per esempio 1-6). Cliccando sul pulsante con i tre punti all'estrema destra puoi scegliere le singole pagine. 

Dopo aver avviato il controllo di precisione cliccando su "Compare", i risultati saranno mostrati nella tabella sottostante e facendo doppio clic sul valore nella colonna "Created", si arriverà di nuovo alla finestra "Advanced Statistics". 

Confronta i campioni

La funzionalità "Confronta campioni" è utile se si sta pianificando un progetto di riconoscimento più grande e si desidera valutare quale modello scegliere prima di eseguirlo sull'intero documento. Questa funzione di confronto sceglie delle righe a caso dal documento campione e testa le prestazioni del modello su queste righe. 

Ha senso mettere da parte alcune pagine all'inizio per usarle come documenti campione. Questo è vantaggioso, poiché il materiale su cui il modello sarà testato non è stato visto prima e quindi il risultato della valutazione sarà più affidabile. 

La funzionalità "Compare Samples" si trova anche all'interno della scheda "Tools" nella sezione "Compute Accuracy". Per aprirla, clicca su "Compare Samples" e sotto "Create New Samples" compila le informazioni richieste. 

Figura 7 Finestra "Create New Samples

In "Nr. of lines for sample" puoi definire quante linee vuoi testare. 500 sono una media raccomandata. Più linee metti qui, minore sarà la variazione nel risultato e la prognosi sarà più precisa. Per un grande progetto con molte pagine, potrebbe essere ragionevole dire 1000 linee, per un tentativo molto piccolo, forse 100 linee sono già abbastanza. Anche qui, come per tante cose, il modo migliore di procedere è un approccio "per tentativi ed errori", poiché dipende sempre dall'obiettivo individuale.

Con la "soglia di lunghezza Baseline" puoi controllare la lunghezza delle linee, il che è pratico se hai molte linee corte nel tuo materiale, cosa che accade spesso ad esempio con le tabelle nei giornali. Così puoi dire, per esempio, che una linea dovrebbe essere almeno 20% della larghezza della linea - per materiale scritto a mano con una sola colonna questo passo probabilmente non è necessario. Cliccando l'opzione "Keep line text", puoi letteralmente mantenere il testo che hai già nei tuoi documenti e devi solo correggere le linee dopo aver creato il campione. 

Dalla lista sul lato sinistro scegliete la collezione e il documento di cui il campione dovrebbe essere composto tramite il "pulsante Add to Sample Set". Poi clicca su "Crea campione". Transkribus ora sceglierà casualmente il numero definito di linee nei documenti selezionati. 

Il passo successivo è quello di caricare il documento di esempio (puoi trovarlo nella tua collezione) e trascrivere manualmente i frammenti di riga (se non hai conservato il testo come descritto sopra). Sarà solo una riga per pagina e quindi la trascrizione nella maggior parte dei casi sarà veloce. Se hai finito una riga, passa alla pagina successiva del documento di esempio per procedere. 

Quando hai finito di trascrivere, esegui il modello che vuoi testare sul documento campione - per produrre la trascrizione che puoi poi confrontare con la funzione "Compare Samples". 

Per farlo, apri la scheda "Compute Sample Error" nella finestra "Compare Samples" e scegli il documento che vuoi valutare. Poi clicca su "Compute" per avviare il lavoro. Non appena appare "Completed" nella colonna "Status" puoi fare doppio clic sulla cella della colonna "Created" per visualizzare i risultati. 

Figura 8 Generazione di risultati con la funzione "Compare Samples