Come addestrare i modelli baseline in Transkribus

Come addestrare i modelli baseline in Transkribus

Strumenti Transkribus
Transkribus Expert Client
Ultimo aggiornamento 9 mesi fa
Informazioni su Transkribus

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Sommario

Sommario

Introduzione

L'Analisi del layout (LA) è un passo fondamentale prima di applicare un modello HTR per trascrivere automaticamente i documenti. Con questa funzione l'immagine viene segmentata in regioni di testo e linee di base. È necessario collegare l'immagine e il testo per far funzionare l'HTR. 

In generale, l'analisi del layout viene eseguita automaticamente facendo clic sulla scheda strumenti "Tools" e selezionando le pagine su cui eseguire la segmentazione nella sezione "Layout Analysis", come spiegato qui.

Lo strumento predefinito di analisi del layout funziona bene per la maggior parte delle tipologie di documenti, ma potrebbe non essere altrettanto accurato con documenti dal layout complesso, come giornali, cartoline, registri, documenti annotati, ecc.

Se lo strumento automatico di analisi del layout predefinito funziona bene sui documenti, è possibile continuare a utilizzarlo e non è necessario addestrare un modello baseline.

Al contrario, se l'analisi del layout predefinita non è soddisfacente per i vostri documenti, potete addestrare un modello Baseline specifico per la vostra tipologia di documento. Dopo l'addestramento, è possibile applicare il modello Baseline personalizzato ai documenti, che verranno segmentati in base agli esempi forniti per l'addestramento. 

Prima di iniziare l'addestramento di un modello baseline, ricorda la differenza tra questo e P2Pala. P2Pala riconosce automaticamente la struttura dei documenti, arricchendoli con tag strutturali. Al contrario, un modello baseline rileva solo le linee di base, ma ha il vantaggio di essere addestrato sul layout specifico dei tuoi documenti. Per questo motivo, dovrebbe essere più preciso dell'analisi del layout, strumento di riconoscimento predefinito.

Preparazione

Il primo passo consiste nel preparare le pagine su cui addestrare il modello baseline. 50 pagine è un buon numero per iniziare, ma l'efficienza del modello dipende dalla complessità del layout. Dopo il primo addestramento con 50 pagine, puoi decidere se il modello baseline è abbastanza buono o se ha bisogno di altro materiale di addestramento.

Per preparare le pagine, è sufficiente segmentare, automaticamente o manualmente, le regioni di testo e le linee di base. Per lavorare più facilmente sul layout, è possibile attivare la vista Segmentazione nei profili di visualizzazione, come mostrato nella figura seguente. In questo modo, l'editor di testo viene nascosto e c'è più spazio per la visualizzazione dell'immagine.

Figura 1. Vista segmentazione

A seconda della complessità del layout, esistono tre opzioni per segmentare le pagine:

  1. Esegui l'analisi del layout automatica e predefinita che si trova nella scheda "Tools" degli strumenti, come spiegato quie poi correggi il layout manualmente utilizzando il menu canvas a sinistra dell'immagine.

  1. Disegna le regioni di testo manualmente utilizzando il comando nel menu canvas. Dopodiché, esegui l'analisi automatica del layout nella scheda "Tools" per rilevare le linee di base: prima di eseguirla, ricorda di deselezionare l'opzione "Find Text Regions". Infine, sfoglia le pagine e correggile manualmente utilizzando il menu canvas.

  1. Disegna manualmente sia le regioni di testo che le baseline utilizzando rispettivamente i tasti e nel menu canvas a sinistra dell'immagine.

L'opzione da scegliere dipende dal tipo di documento e dalle scarse prestazioni del riconoscimento automatico predefinito dell'analisi del layout. Si consiglia di provare la prima opzione e poi passare alle altre se ci si rende conto che correggere la segmentazione generata richiede più tempo che disegnarla manualmente.

Non è necessario aggiungere alcuna trascrizione alle pagine prima dell'addestramento del modello baseline, poiché questo si concentra solo sulle linee di base e la presenza di testo trascritto è irrilevante.

Addestramento

Una volta segmentate le 50 o più pagine, è il momento di addestrare il modello baseline. Fai clic sulla scheda "Tools". Nella sezione di addestramento del modello "Model Training", fai clic su "Train a new model" per addestrare un nuovo modello.

Si apre la finestra di addestramento del modello e, sulla destra, puoi scegliere il motore da addestrare: per il modello baseline, seleziona "Baselines", come mostrato nella figura seguente.

Figura 2. Finestra di addestramento del modello

 Prima di iniziare l'addestramento:

  • Inserisci il nome e la descrizione del modello in alto a sinistra.

  • Nella scheda "Baselines" appena selezionata in alto a destra si trovano i parametri di addestramento, ossia il numero di epoche e il tasso di apprendimento. Per il primo addestramento e se non hai familiarità con l'apprendimento automatico, non modificare questi parametri.

  • In basso, è necessario selezionare le pagine che si desiderano utilizzare per addestrare il modello, ossia le pagine precedentemente segmentate in regioni di testo e linee di base.
    A sinistra, seleziona l'intera collection o le pagine pertinenti. Fai clic sul pulsante di addestramento Training al centro per aggiungere le pagine selezionate al set di addestramento. Se desideri considerare solo le pagine con lo stato di Ground Truth, seleziona "Ground Truth only" nel menu a discesa a destra, sotto "Overview".
    Procedere allo stesso modo per il set di convalida. Ricordate che un buon set di convalida deve comprendere tutti i diversi esempi che volete che il modello addestrato Baseline sia in grado di segmentare. Il set di convalida dovrebbe essere circa il 10% del set di addestramento, per cui si consiglia, per il primo addestramento, di includere 45 pagine nel set di addestramento e 5 pagine nel set di convalida. Se si desidera assegnare automaticamente una percentuale del set di addestramento al set di convalida, selezionare una percentuale nell'opzione "selezione automatica del set di convalida", prima di fare clic sul pulsante "Addestramento".

  • A destra, nella panoramica "Overview", puoi vedere tutte le pagine assegnate al set di convalida e al set di addestramento.

Dopo aver completato questa fase, puoi avviare l'addestramento del modello baseline facendo clic sul pulsante "Train" nell'angolo in basso a destra della finestra.

Il tuo output

L'addestramento del modello baseline può richiedere da alcune ore a un paio di giorni, a seconda del numero di pagine e dei parametri della macchina di apprendimento. È possibile controllare l'avanzamento dell'addestramento facendo clic sul pulsante "Jobs" nella scheda "Server". 

Al termine dell'addestramento, il modello baseline apparirà nella scheda "Server" sotto "Model Data". Per vederlo, seleziona "layout" invece di "text" come tipo di output del modello nel secondo menu a discesa, come mostrato di seguito.

Figura 3. Layout come tipo di output del modello

Facendo doppio clic sul nome del modello Baseline, si vedranno tutti i dettagli e la sua curva di apprendimento. Il grafico "Curva di apprendimento" mostra l'accuratezza del modello Baseline. L'asse delle ascisse indica il numero di epoche, ossia il numero di volte in cui i dati di addestramento vengono valutati. L'asse y misura la perdita, cioè la percentuale di pixel classificati in modo errato. 

Il programma si addestra prima sull'insieme di addestramento e poi si testa sulle pagine dell'insieme di convalida. Per questo motivo, nel grafico sono presenti due linee. La linea blu indica l'avanzamento dell'addestramento; la linea rossa indica l'avanzamento della valutazione sull'Insieme di validazione. È importante che le due curve non differiscano troppo. Se le due curve divergono, è molto probabile che il set di addestramento differisca troppo dal set di validazione e che il modello risultante non sia efficace.

Figura 4. Curva di apprendimento

Sotto il grafico le due percentuali indicano le prestazioni del modello baseline sul set di addestramento e sul set di convalida in termini di perdita. La perdita sul set di convalida è il valore più significativo perché indica come il modello baseline si comporta su nuove pagine su cui non è stato addestrato. Risultati con una perdita del 10% o inferiore indicano che il modello baseline è efficace.

Applicazione del modello baseline

Per applicare il modello Baseline addestrato ai documenti, accedere alla scheda "Strumenti". Nella sezione superiore "Analisi del layout", lasciare selezionato il metodo "Transkribus LA" e fare clic sul pulsante "Configura". Si apre la finestra "Configurazione dell'analisi del layout" e alla voce "Rete neurale" si può scegliere il modello Baseline addestrato da applicare. 

Figura 5. Configurazione dell'analisi del layout

Per impostazione predefinita, la rete neurale è impostata su "Preset". Per scegliere un altro modello, fare clic sul menu a discesa e selezionare il modello addestrato che meglio si adatta al layout dei documenti.

Le impostazioni riportate di seguito consentono di configurare l'analisi del layout quando le impostazioni predefinite non sono soddisfacenti per il layout dei documenti. In particolare, le impostazioni che si possono configurare sono:

  • Modello: lasciare il modello "Preset" se non si è addestrato un modello di base specifico sul layout dei documenti.
    Il modello Transkribus LA preimpostato funziona bene per la maggior parte delle tipologie di documenti. Solo se i vostri documenti hanno un layout complesso e il modello preimpostato non è soddisfacente, potete addestrare un modello Baselines specifico per la vostra tipologia di documento, come spiegato qui.
  • Lunghezza minima della linea di baseindica la lunghezza minima delle linee di base in pixel. Le Baseline più corte di questa lunghezza non verranno rilevate.
  • Soglia di precisione BaselineNella prima fase dell'analisi del layout, ogni pixel viene etichettato come linea di base, separatore o altro. La soglia di precisione della linea di base si applica all'etichettatura della linea di base in questa fase. È compresa tra 0 e 255 e i valori più alti implicano una maggiore accuratezza delle linee di base rilevate.
    Se si dispone di immagini a bassa risoluzione e non vengono rilevate linee di base o solo alcune, provare a ridurre il valore. Tenere presente, tuttavia, che i risultati possono diventare rumorosi con soglie più basse.
  • Soglia del separatoreI separatori sono piccole linee verticali tracciate accanto a ogni linea di base; segnano l'inizio e la fine di ogni linea di base (non vanno confusi con i separatori veri e propri nelle immagini dei documenti stampati). Come per la soglia di accuratezza della linea di base, la soglia dei separatori si riferisce alla prima fase, quando i pixel vengono etichettati.
    La soglia dei separatori è compresa tra 0 e 255: 0 significa che i separatori non vengono utilizzati affatto; con un valore più alto, i separatori vengono utilizzati e quindi le linee di base vicine tendono a non essere unite.
    Di solito, i valori bassi sono sufficienti per evitare un collegamento tra linee di base vicine. Usare, ad esempio, 1 per usare le informazioni di separazione "qualche volta" e valori più grandi per usarle quasi sempre, ad esempio quando le righe di testo sono vicine ma devono essere separate perché appartengono a colonne diverse.
  • Max-dist per la fusioneNella seconda fase, l'algoritmo cerca di unire le linee di base vicine, ma solo quando la loro distanza è inferiore al valore impostato. Il valore non è misurato in pixel, ma è una frazione della larghezza dell'immagine. Per impostazione predefinita, è impostato su 0,01: quando due linee di base sono più vicine della frazione di 0,01 della larghezza dell'immagine, vengono unite; se sono più distanti di questo valore, non vengono unite. In base al layout e alla larghezza dell'immagine, è possibile aumentare il valore della frazione per unire linee più distanti o ridurlo per evitare che le linee di base vicine vengano unite.
  • Max-dist per il clusteringQuesto valore si riferisce alla creazione della regione di testo: dopo aver rilevato le linee di base, queste vengono raggruppate in regioni di testo in base alla loro distanza. La distanza massima per il raggruppamento è una frazione della larghezza dell'immagine: le linee di base più vicine di questa frazione vengono raggruppate in una regione di testo.
    Se con le impostazioni predefinite vengono create troppe regioni di testo, si può provare ad aumentare il valore in modo da raggruppare più linee di base. Se è impostato su -1, non verrà eseguito alcun raggruppamento di regioni e verrà prodotta una sola regione di testo come rettangolo di selezione di tutte le linee.

Per ulteriori informazioni sull'algoritmo e sull'impostazione di Transkribus LA, consultare questa pagina.

Infine, fai clic sul pulsante "OK" in fondo alla finestra "Layout Analysis Configuration". Il modello addestrato è stato selezionato. 

Nella scheda "Strumenti", scegliere le pagine su cui applicare l'analisi del layout e fare clic sul pulsante "Esegui": il lavoro di analisi del layout verrà avviato. È possibile controllarne l'avanzamento facendo clic sul pulsante "Lavori" nella scheda "Server". Una volta terminato il lavoro, ricaricare la pagina o le pagine e le regioni di testo e le linee di base appariranno nelle immagini. Non verrà utilizzato alcun credito per applicare il modello Baseline ai documenti.