Come addestrare e applicare modelli di riconoscimento del testo scritto a mano in Transkribus

Come addestrare e applicare modelli di riconoscimento del testo scritto a mano in Transkribus

Strumenti Transkribus
Transkribus Expert Client
Ultimo aggiornamento 1 mese fa
Informazioni su Transkribus

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Sommario

Sommario

Ultimo aggiornamento di questa guida: 22/01/2021

Questa guida spiega come usare Transkribus per addestrare un modello di riconoscimento del testo scritto a mano (HTR+) per riconoscere i tuoi documenti. Dopo l'addestramento, il modello ti aiuterà a trascrivere e cercare automaticamente la tua collezione.

Scarica il Transkribus Expert Client e assicurati di usare l'ultima versione:

Transkribus e la tecnologia che c'è dietro sono resi disponibili attraverso i seguenti progetti e siti:

Contatto:

  • Il team di Transkribus: info@readcoop.eu

La piattaforma Transkribus è fornita dalla Cooperativa Europea READ-COOP SCE.

Fino a giugno 2019 Transkribus è stato finanziato come parte del progetto Horizon 2020 READ sotto l'accordo di sovvenzione n. 674943.

Introduzione

  • La piattaforma Transkribus permette agli utenti di addestrare un modello di riconoscimento del testo scritto a mano (HTR+) per elaborare automaticamente una collezione di documenti. Il modello deve essere addestrato a riconoscere un certo stile di scrittura mostrando immagini di documenti e le loro accurate trascrizioni.
  • Per l'addestramento di un modello sono necessarie tra 5.000 e 15.000 parole (circa 25-75 pagine) di materiale trascritto. Se si lavora con testo stampato piuttosto che scritto a mano, di solito è necessaria una quantità minore di dati di allenamento.
  • Con l'uso di un modello di base la quantità di dati di allenamento richiesti può essere ridotta. Come modello di base puoi usare uno dei modelli pubblicamente disponibili in Transkribus, se ce n'è uno adatto ai tuoi documenti o uno dei tuoi modelli, che hai già addestrato in precedenza. Una panoramica dei modelli pubblici attualmente disponibili può essere trovata qui.
  • La funzione di addestramento dei modelli non è automaticamente inclusa nella piattaforma standard di Transkribus. Quando sei pronto ad addestrare un modello, contatta il team di Transkribus (info@readcoop.eu) e ti daranno accesso alla funzione.

Preparazione

  • Raccomandiamo di iniziare il processo di addestramento con tra le 5.000 e le 15.000 parole di materiale trascritto, a seconda che si tratti di testo stampato o scritto a mano. Come già indicato, i modelli di base possono ridurre la quantità di dati di allenamento richiesti.
  • Le reti neurali in HTR+ imparano rapidamente e più dati di allenamento hanno, migliori saranno i risultati.
  • È possibile creare dati di allenamento per HTR+ in Transkribus caricando immagini e trascrivendo il testo. Per istruzioni complete, vedere Come trascrivere documenti con Transkribus - Introduzione.
  • Se hai già delle trascrizioni esistenti, puoi anche usarle per addestrare il tuo modello. Per maggiori informazioni vedi Come usare le trascrizioni esistenti per addestrare un modello HTR.

Formazione

  • Le principali opzioni per l'addestramento di un modello possono essere trovate nella sezione "Scheda "Strumenti nel "Riconoscimento del testo" sezione.
  • Come "Metodo", "HTR (CITlab)" è l'opzione più efficace da scegliere.
  • Cliccando il pulsante "Models" si può vedere quali modelli sono disponibili e su quali documenti sono stati addestrati.
  • Con il "Treno" si arriva alle opzioni per la formazione dei modelli.

Figura 1 Dove trovare gli strumenti per la formazione

Impostazione di HTR+ Training

  • Per arrivare alla finestra "HTR+ Training", clicca sul pulsante "Train" nella scheda "Tools".

Figura 2 Come aprire la finestra "HTR Training".

  • Si aprirà la seguente finestra:

Figura 3 Finestra "HTR Training".

  • Nella sezione superiore dovrai aggiungere dettagli sul tuo modello.

Figura 4 Aggiungere dettagli sul modello

  • Si prega di aggiungere
    • Nome del modello (scelto da voi)
    • Lingua (dei vostri documenti)
    • Descrizione (dei tuoi documenti e delle pagine selezionate come dati di allenamento e di prova)
  • Nota: "Nr. of Epochs" si riferisce al numero di volte che i dati di allenamento vengono valutati. Se si aumenta il numero di epoche, il processo di addestramento richiederà più tempo.

Modello base

  • È possibile aggiungere un modello di base al tuo allenamento. Se si sceglie questa opzione, le informazioni contenute nel modello di base saranno integrate nel nuovo modello. Per avere un beneficio il modello di base deve essere simile alla scrittura che dovrebbe riconoscere in seguito. Con l'aiuto di un modello di base è possibile accelerare il processo di formazione. Un miglioramento della qualità non è garantito, deve essere testato nel singolo caso.
  • Un grande vantaggio di lavorare con modelli di base è che possono rendere possibile iniziare con una quantità minore di pagine di allenamento, il che significa che il carico di lavoro di trascrizione sarebbe ridotto.
  • Si prega di notare, tuttavia, che più epoche vengono addestrate, lo stato iniziale del modello di base sarà dimenticato e l'addestramento si adatterà solo ai dati reali che gli vengono presentati. Per evitare questo, aggiungete anche l'attuale dati del modello di base alla formazione (vedi punto successivo).
  • Per utilizzare un modello di base, è sufficiente scegliere quello desiderato con il pulsante "Choose..." accanto a "Base Model:".

Set di allenamento

  • Successivamente, è necessario selezionare le pagine che si desidera includere nel set di dati di allenamento.
  • Per aggiungere tutte le pagine del tuo documento al Training Set, clicca sulla cartella e clicca su "+Training".
  • Per aggiungere una specifica sequenza di pagine dal tuo documento al set di formazione, fai doppio clic sulla cartella, clicca sulla prima pagina che vuoi includere, tieni premuto il tasto "Shift" sulla tastiera e poi clicca sull'ultima pagina. Poi clicca su "+Formazione".
  • Per aggiungere singole pagine dal tuo documento al Training Set, fai doppio clic sulla cartella, tieni premuto il tasto "CTRL" sulla tastiera e seleziona le pagine che vuoi usare come dati di allenamento. Poi clicca su "+Formazione".
  • Le pagine che hai selezionato appariranno nello spazio "Training Set".

Figura 5 Aggiungere tutte le pagine per la formazione

Set di convalida

  • Durante il processo di addestramento, un set di pagine di convalida viene messo da parte e non viene usato per addestrare l'HTR. Queste pagine di prova possono quindi essere utilizzate per valutare l'accuratezza del modello.
  • Si consiglia di selezionare almeno una pagina di prova ogni 50-100 pagine del Training Set.
  • Le pagine del tuo set di convalida dovrebbero essere rappresentative dei documenti della tua collezione.
  • Più pagine ci sono nel tuo Validation Set, più tempo richiederà l'addestramento HTR.
  • Per aggiungere pagine all'insieme di convalida, segui lo stesso processo di cui sopra ma clicca sul pulsante "+Validation".

Figura 6 Aggiunta di pagine al set di test

  • Per rimuovere le pagine dal "Training Set" o dal "Test Set", clicca sulla pagina e poi clicca sulla croce rossa.

Figura 7 Rimozione di pagine

  • Puoi prendere nota delle pagine utilizzate nel tuo set di prova nella casella di descrizione del modello.
  • Avviare la formazione cliccando il pulsante "OK".

Controllo dei progressi

  • Puoi seguire il progresso della formazione cliccando sul pulsante "Lavori" nella scheda "Server".

Figura 8 Controlla il progresso della formazione con il pulsante "Lavori".

  • Il completamento di ogni epoca sarà mostrato nella finestra "Jobs on server", così come il completamento del processo di formazione.
  • L'addestramento di un modello HTR+ richiede almeno un paio di giorni. È possibile eseguire altri lavori in Transkribus o chiudere la piattaforma durante il processo di formazione.

Figura 9 Panoramica "Lavori sul server

Dopo la formazione

  • Dopo che l'addestramento del tuo modello è finito, sarà disponibile nella tua collezione.
  • Per accedervi, cliccate sul pulsante "Modelli" nella scheda "Strumenti".

Figura 10 Apertura della finestra "Scegliere un modello

  • Si aprirà la seguente finestra:

Figura 11 Finestra "Scegliere un modello

  • Sul lato sinistro della finestra si vede una panoramica dei modelli disponibili.
  • In alto a destra della finestra vengono mostrati i dettagli del modello.
  • In basso a destra puoi vedere la curva di apprendimento del tuo modello. Maggiori informazioni su queste statistiche possono essere trovate qui sotto.

Statistiche

  • Il grafico della "curva di apprendimento" indica la precisione del tuo modello

Figura 12 "Curva di apprendimento" del vostro modello

  • Come si può vedere nella figura 12 l'asse y è definito come "Accuratezza in CER".
  • "CER" sta per Tasso di errore dei carattericioè la percentuale di caratteri che sono stati trascritti in modo errato da HTR+.
  • "Precisione in CER"è indicato come percentuale sull'asse y. La curva inizierà sempre a 100% e scenderà man mano che l'allenamento procede e il modello migliora.
  • L'asse x è definito come "Epoche".
  • Durante il processo di formazione Transkribus farà una valutazione dopo ogni epoca. Nella Figura 12 il "Training Set" è stato diviso in 20 epoche.
  • Quando si addestra un modello si può indicare in quante "epoche" il "Training Set" deve essere diviso. Più epoche ci sono, più lungo sarà l'addestramento.
  • Il grafico mostra due linee, una in blu e una in rosso.
  • Il linea blu rappresenta il progresso della formazione.
  • Il linea rossa rappresenta il progresso delle valutazioni sul Test Set.
  • Prima il programma si allena sul Set di allenamentoallora si testerà sulle pagine del Set di test.
  • Sotto il grafico, sono mostrati due valori percentuali relativi al CER per il Training Set e il Test Set.
  • Nella Figura 12, il modello si comporta con un 14,19% CER sul Set di allenamento e 9,57% sul Set di test.
  • Il valore per il Test Set è il più significativo in quanto mostra come l'HTR+ si comporta su pagine su cui non è stato addestrato.
  • I risultati con un CER di 10% o inferiore possono essere considerati molto efficienti per la trascrizione automatica.
  • I risultati con un CER di 20-30% sono sufficienti per lavorare con la potente tecnologia Keyword Spotting. Per maggiori dettagli, vedere il nostro Come trascrivere - guida Keyword Spotting.

Generazione di trascrizioni HTR

  • Ora che hai il tuo modello, puoi usarlo per generare automaticamente le trascrizioni dei documenti della tua collezione.
  • In primo luogo, carica i tuoi documenti su Transkribus.
  • in secondo luogo, segmenta i tuoi documenti in regioni di testo, linee e linee di base.
  • Per ulteriori informazioni su come caricare e segmentare, si prega di consultare Come trascrivere documenti con Transkribus - Introduzione.
  • Per accedere al tuo modello, clicca sulla scheda "Tools" e vai alla sezione "Text Recognition".
  • Fare clic su "Run", quindi su "Choose HTR-model". Scegli il tuo modello HTR dall'elenco sul lato sinistro dello schermo e clicca su OK.
  • Seleziona se vuoi generare una trascrizione HTR di una o più pagine.
  • Clicca "Run" per avviare il processo di riconoscimento del testo.
  • Una volta terminato il riconoscimento, la trascrizione automatica apparirà nel campo dell'editor di testo.

Dizionari/Modelli linguistici

  • I modelli linguistici sono i nuovi dizionari in Transkribus: hanno assunto la maggior parte delle funzionalità dei dizionari.
  • Sono creati automaticamente con il modello HTR e possono essere aggiunti al processo di riconoscimento:
    • Clicca su "Run" nella sezione "Text Recognition" della scheda "Tools".
    • Cliccare su "Selezionare il modello HTR".
    • Nella finestra che appare potete trovare l'opzione modello di lingua in alto a destra
    • Clicca sul menu a discesa e scegli "Modello di lingua dai dati di allenamento".
  • L'effetto dei modelli linguistici deve essere testato nel singolo caso: in molti casi sono in grado di migliorare il riconoscimento, ma finora vediamo anche casi in cui non lo fanno.

Figura 13 Modelli di lingua

  • I dizionari personalizzati sono usati principalmente se siete interessati a frasi speciali nel documento. Un dizionario personalizzato deve essere creato dal Transkribus-Team, nel caso ne abbiate bisogno, contattateci via info@readcoop.eu.

Figura 14 Eseguire il modello

Condividere un modello

  • Puoi condividere il tuo modello HTR con altre collezioni in Transkribus, che siano di tua proprietà o di altri utenti.
  • Se vuoi condividere il tuo modello con un'altra collezione, devi avere accesso a quella collezione.
  • Clicca con il tasto destro del mouse sul nome del tuo modello (sul lato sinistro della finestra "Scegli un modello").

Figura 15 Condividere un modello facendo clic con il tasto destro del mouse sul nome del modello

  • Poi seleziona "Condividi modello..."
  • Si aprirà la finestra "Choose a collection via double click".
  • Nella finestra successiva clicca sulla collezione di cui vuoi condividere il modello e premi "OK".
  • In questa finestra, puoi anche creare una nuova collezione per il modello con il pulsante "Create".
  • Fare clic su "OK" per confermare.

Figura 16 Come condividere il proprio modello

  • Una volta scelta la collezione, clicca ancora una volta su "OK" e il modello sarà ora condiviso.

Figura 17 Confermare la condivisione del vostro modello

Figura 18 Il modello era stato condiviso

Il tuo risultato

  • Non appena l'addestramento è finito, puoi provare il tuo modello su qualsiasi altro documento storico con una scrittura simile.
  • Puoi condividere il tuo modello con altre persone che possono trarne beneficio.
  • È possibile ripetere il processo di formazione con più dati per generare risultati più efficienti.
  • Puoi misurare la precisione del tuo modello con la funzione "Compute Accuracy".
  • I risultati dell'HTR dipenderanno da quanto è simile e quanto è chiara la scrittura nel documento storico.
  • Il team di Transkribus sta lavorando su un algoritmo che renderà possibile la trascrizione automatica di qualsiasi tipo di documento, senza la necessità di preparare dati di allenamento. La tecnologia sta imparando da tutti i dati di formazione elaborati in Transkribus.
  • Quindi più dati lavoriamo, più la tecnologia diventerà efficiente. Addestrate il vostro modello e fatene parte! ?

Credits

Vorremmo ringraziare i molti utenti che con il loro feedback hanno contribuito a migliorare il software Transkribus.