Come addestrare i modelli baseline in Transkribus

Come addestrare i modelli baseline in Transkribus

Strumenti Transkribus
Transkribus Expert Client
Ultimo aggiornamento 2 settimane fa
Informazioni su Transkribus

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Sommario

Sommario

Introduzione

L'Analisi del layout (LA) è un passo fondamentale prima di applicare un modello HTR per trascrivere automaticamente i documenti. Con questa funzione l'immagine viene segmentata in regioni di testo e linee di base. È necessario collegare l'immagine e il testo per far funzionare l'HTR. 

In generale, l'analisi del layout viene eseguita automaticamente facendo clic sulla scheda strumenti "Tools" e selezionando le pagine su cui eseguire la segmentazione nella sezione "Layout Analysis", come spiegato qui.

Lo strumento predefinito di analisi del layout funziona bene per la maggior parte delle tipologie di documenti, ma potrebbe non essere altrettanto accurato con documenti dal layout complesso, come giornali, cartoline, registri, documenti annotati, ecc.

Se lo strumento automatico di analisi del layout predefinito funziona bene sui documenti, è possibile continuare a utilizzarlo e non è necessario addestrare un modello baseline.

Al contrario, se l'analisi del layout predefinita non è soddisfacente per i tuoi documenti, puoi addestrare un modello baseline specifico per la tua tipologia di documento. Dopo l'addestramento, è possibile applicare il modello baseline personalizzato ai documenti, che verranno segmentati in base agli esempi forniti per l'addestramento. L'addestramento e l'applicazione del modello baseline sono disponibili solo in Transkribus eXpert.

Prima di iniziare l'addestramento di un modello baseline, ricorda la differenza tra questo e P2Pala. P2Pala riconosce automaticamente la struttura dei documenti, arricchendoli con tag strutturali. Al contrario, un modello baseline rileva solo le linee di base, ma ha il vantaggio di essere addestrato sul layout specifico dei tuoi documenti. Per questo motivo, dovrebbe essere più preciso dell'analisi del layout, strumento di riconoscimento predefinito.

Preparazione

Il primo passo consiste nel preparare le pagine su cui addestrare il modello baseline. 50 pagine è un buon numero per iniziare, ma l'efficienza del modello dipende dalla complessità del layout. Dopo il primo addestramento con 50 pagine, puoi decidere se il modello baseline è abbastanza buono o se ha bisogno di altro materiale di addestramento.

Per preparare le pagine è sufficiente segmentare, automaticamente o manualmente, le regioni di testo e le linee di base. Per lavorare più facilmente sul layout, è possibile attivare la vista segmentazione nei profili di visualizzazione, come mostrato nella figura seguente. In questo modo, l'editor di testo viene nascosto e c'è più spazio per la visualizzazione dell'immagine.

Figura 1. Vista segmentazione

A seconda della complessità del layout, esistono tre opzioni per segmentare le pagine:

  1. Esegui l'analisi del layout automatica e predefinita che si trova nella scheda "Tools" degli strumenti, come spiegato quie poi correggi il layout manualmente utilizzando il menu canvas a sinistra dell'immagine.

  1. Disegna le regioni di testo manualmente utilizzando il comando nel menu canvas. Dopodiché, esegui l'analisi automatica del layout nella scheda "Tools" per rilevare le linee di base: prima di eseguirla, ricorda di deselezionare l'opzione "Find Text Regions". Infine, sfoglia le pagine e correggile manualmente utilizzando il menu canvas.

  1. Disegna manualmente sia le regioni di testo che le baseline utilizzando rispettivamente i tasti e nel menu canvas a sinistra dell'immagine.

L'opzione da scegliere dipende dal tipo di documento e da quanto deboli sono le prestazioni dell'analisi del layout, il riconoscimento automatico predefinito. Si consiglia di provare la prima opzione e poi passare alle altre, se ci si rende conto che correggere la segmentazione generata richiede più tempo che disegnarla manualmente.

Non è necessario aggiungere alcuna trascrizione alle pagine prima dell'addestramento del modello baseline, poiché questo si concentra solo sulle linee di base e la presenza di testo trascritto è irrilevante.

Addestramento

Una volta segmentate le 50 o più pagine, è il momento di addestrare il modello baseline. Fai clic sulla scheda "Tools". Nella sezione di addestramento del modello "Model Training", fai clic su "Train a new model" per addestrare un nuovo modello.

Si apre la finestra di addestramento del modello e, sulla destra, puoi scegliere il motore da addestrare: per il modello baseline, seleziona "Baselines", come mostrato nella figura seguente.

Figura 2. Finestra di addestramento del modello

 Prima di iniziare l'addestramento:

  • Inserisci il nome e la descrizione del modello in alto a sinistra.

  • Nella scheda "Baselines" appena selezionata in alto a destra si trovano i parametri di addestramento, ossia il numero di epoche e il tasso di apprendimento. Per il primo addestramento e se non hai familiarità con l'apprendimento automatico, non modificare questi parametri.

  • In basso, è necessario selezionare le pagine che si desiderano utilizzare per addestrare il modello, ossia le pagine precedentemente segmentate in regioni di testo e linee di base.
    A sinistra, seleziona l'intera collection o le pagine pertinenti. Fai clic sul pulsante di addestramento Training al centro per aggiungere le pagine selezionate al set di addestramento. Se desideri considerare solo le pagine con lo stato di Ground Truth, seleziona "Ground Truth only" nel menu a discesa a destra, sotto "Overview".
    Procedi allo stesso modo per il set di convalida. Ricorda che un buon set di convalida deve comprendere tutti i diversi esempi che vuoi che il modello baseline addestrato sia in grado di segmentare. Il set di convalida dovrebbe comprendere circa il 10% del set di addestramento, quindi per il primo addestramento si consiglia di includere 45 pagine nel set di addestramento e 5 pagine nel set di convalida. Se desideri assegnare automaticamente una percentuale dell'insieme di addestramento all'insieme di convalida, seleziona una percentuale nell'opzione "automatic selection of validation set" prima dis fare clic sul pulsante di addestramento "Training".

  • A destra, nella panoramica "Overview", puoi vedere tutte le pagine assegnate al set di convalida e al set di addestramento.

Dopo aver completato questa fase, puoi avviare l'addestramento del modello baseline facendo clic sul pulsante "Train" nell'angolo in basso a destra della finestra.

Il tuo output

L'addestramento del modello baseline può richiedere da alcune ore a un paio di giorni, a seconda del numero di pagine e dei parametri della macchina di apprendimento. È possibile controllare l'avanzamento dell'addestramento facendo clic sul pulsante "Jobs" nella scheda "Server". 

Al termine dell'addestramento, il modello baseline apparirà nella scheda "Server" sotto "Model Data". Per vederlo, seleziona "layout" invece di "text" come tipo di output del modello nel secondo menu a discesa, come mostrato di seguito.

Figura 3. Layout come tipo di output del modello

Facendo doppio clic sul nome del modello baseline, si vedranno tutti i dettagli e la curva di apprendimento. Il grafico "Learning Curve" con la curva di apprendimento mostra l'accuratezza del modello baseline. L'asse x indica il numero di epoche, ossia il numero di volte in cui i dati di addestramento sono stati valutati. L'asse y misura la perdita, cioè la percentuale di pixel classificati in modo errato. 

Il programma prima si addestra sull'insieme di addestramento e poi si testa sulle pagine dell'insieme di convalida. Per questo motivo, nel grafico sono presenti due linee. La linea blu indica il progresso dell'addestramento; la linea rossa indica il progresso della valutazione sul set di convalida. È importante che le due curve non differiscano troppo. Se le due curve divergono, è molto probabile che il set di addestramento differisca troppo dal set di convalida e che il modello risultante non sia efficace.

Figura 4. Curva di apprendimento

Sotto il grafico le due percentuali indicano le prestazioni del modello baseline sul set di addestramento e sul set di convalida in termini di perdita. La perdita sul set di convalida è il valore più significativo perché indica come il modello baseline si comporta su nuove pagine su cui non è stato addestrato. Risultati con una perdita del 10% o inferiore indicano che il modello baseline è efficace.

Applicazione del modello baseline

Per applicare il modello baseline addestrato ai documenti, accedi alla scheda strumenti "Tools". Nella sezione superiore "Layout Analysis" lascia selezionato il metodo "CITlab Advanced" e fai clic sul pulsante "Configura". Si apre la finestra "Layout Analysis Configuration" per la configurazione dell'analisi del layout e sotto l'opzione di rete neurale "Neural net" puoi scegliere il modello baseline addestrato da applicare. 

Figura 5. Configurazione dell'analisi del layout

Per impostazione predefinita, la rete neurale è preselezionata e impostata su "Preset". Per scegliere un altro modello, fai clic sul menu a discesa e seleziona il modello addestrato che meglio si adatta al layout dei tuoi documenti.

Le impostazioni seguenti consentono di scegliere se utilizzare i separatori e il raggruppamento delle regioni. 
I separatori sono regioni speciali che possono essere disegnate manualmente utilizzando il pulsante "Separatore" nel menu canvas (per trovarlo, fai clic sul pulsante (pulsante "Aggiungi altro elemento") o che sono prodotti dal metodo "Printed Block Detection". Le informazioni sui separatori possono essere utilizzate dall'algoritmo per dividere le linee di base in base a tali separatori nel risultato. In dettaglio, le opzioni sono:

  • Utilizzo di separatori:
    • Default: all'interno di una determinata regione di testo, non utilizza i separatori. Se non viene indicata alcuna regione, li utilizza.
    • Always: utilizza i separatori anche all'interno di determinate regioni.
    • Never: non utilizza mai le informazioni del separatore.

  • Raggruppamento di regioni:
    • Cluster lines: raggruppa le linee in regioni di testo separate.
    • Single bounding-box: disegna un'unica grande regione di testo attorno a tutte le linee risultanti.


Se hai dubbi su queste impostazioni, lasciale così come sono. 

Infine, fai clic sul pulsante "OK" in fondo alla finestra "Layout Analysis Configuration". Il modello addestrato è stato selezionato. 

Nella scheda strumenti "Tools", scegli le pagine su cui applicare l'analisi del layout e fai clic sul pulsante "Run" di esecuzione: il lavoro di analisi del layout verrà avviato. È possibile controllarne l'avanzamento facendo clic sul pulsante "Jobs" nella scheda "Server". Una volta terminato l'incarico, ricarica la pagina o le pagine e le regioni di testo e le linee di base appariranno nelle immagini. Non verrà utilizzato alcun credito per applicare il modello baseline ai documenti.