La piattaforma Transkribus consente agli utenti di addestrare modelli di riconoscimento del testo scritto a mano (HTR) per trascrivere automaticamente i loro documenti. Molti modelli pubblici, addestrati dalla comunità di Transkribus, sono già disponibili e possono essere utilizzati da tutti gli utenti di Transkribus: è possibile trovare l'elenco qui. Tuttavia, se nessun modello pubblico funziona bene con i vostri documenti, potete addestrare un modello di riconoscimento del testo personalizzato per riconoscere la scrittura specifica dei vostri documenti.
I modelli HTR devono essere addestrati a riconoscere un certo stile di scrittura mostrando loro immagini di documenti e le relative trascrizioni accurate. Questa pagina spiega come utilizzare Transkribus Lite per addestrare e applicare un modello HTR per trascrivere automaticamente i documenti.
Preparazione
Prima di iniziare l'addestramento di un modello HTR, occorre preparare i dati di addestramentocioè le immagini e le corrispondenti trascrizioni accurate su cui l'HTR apprenderà.
A seconda del tipo di materiale e delle mani, tra 5.000 e 15.000 parole (circa 25-75 pagine) di materiale trascritto sono necessari. Di solito è necessaria una quantità minore di dati di addestramento se si lavora con testo stampato piuttosto che scritto a mano.
Le reti neurali del motore di riconoscimento del testo scritto a mano imparano rapidamente; più dati di addestramento hanno a disposizione, migliori saranno i risultati.
Creare dati di allenamento per HTR in Transkribus:
- Andare nel menu a sinistra degli Strumenti e fare clic su "Crea una raccolta".
- Dopo aver inserito il nome e creato la raccolta, caricare le immagini (.jpeg o .png) o i pdf.
- Dopo il caricamento, selezionare le pagine/documenti che si desidera utilizzare per l'addestramento ed eseguire il Riconoscimento layout facendo clic sul pulsante "Riconoscimento layout" nel menu a sinistra degli Strumenti. Il riconoscimento del layout crea la corrispondenza tra le linee dell'immagine e le linee dell'editor di testo.
- Aprire una pagina con il pulsante "Modifica" e trascriverla. Quando la trascrizione è completa e accurata, salvare la pagina come "Ground Truth" (stato utilizzato per indicare le pagine da utilizzare per la formazione). Continuare la trascrizione per tutte le pagine da includere nei dati di addestramento.
Addestramento
Una volta ottenute tra le 25 e le 75 pagine trascritte, è il momento di addestrare il modello di riconoscimento del testo. Guardate il video o leggete le istruzioni qui sotto per capire come avviare l'addestramento.
Fare clic sul pulsante "Scheda "Formazione in alto, a destra di "Workdesk". Quest'area è dedicata all'addestramento dei modelli di Riconoscimento testo e Baselines. In questo caso, ci interessa addestrare un modello di riconoscimento del testo, che è selezionato per impostazione predefinita all'apertura.
Quindi, è necessario selezionare la raccolta contenente i dati di allenamento. Digitare il titolo o l'ID della raccolta e selezionarla.
Tenere presente che non è possibile selezionare documenti da raccolte diverse durante la formazione. Per ovviare a questo problema, prima di iniziare la formazione, è possibile collegare i documenti a una sola raccolta facendo clic sui tre punti in fondo a ogni miniatura di documento nella pagina di visualizzazione della raccolta.
Dopo aver selezionato la collezione, inizia l'impostazione dell'addestramento vero e proprio. È suddiviso in quattro sezioni:
1. Impostazione del modello
Qui viene chiesto di aggiungere i metadati del modello, in modo dettagliato:
- Nome del modello (scelto da te)
- Descrizione del vostro modello e dei documenti su cui è stato formato (materiale, periodi, mani...)
- Lingua/e dei documenti
- Durata dei documenti
È possibile decidere quale versione di trascrizione utilizzare per la formazione: l'ultima trascrizione o solo Ground Truth. Con la prima opzione, tutte le trascrizioni più recenti, indipendentemente da come sono state salvate, vengono visualizzate e possono essere selezionate per la formazione. Se si sceglie "Solo verità terrena", sono selezionabili solo le pagine salvate come verità terrena.
2. Dati di formazione
Durante la formazione, le pagine vengono divise in due gruppi:
- Dati di addestramento o set di addestramentoL'insieme degli esempi utilizzati per adattare i parametri del modello, cioè i dati su cui si basa la conoscenza della rete. Il modello viene addestrato sulle pagine selezionate come dati di addestramento.
- Dati di convalida o set di convalidaInsieme di esempi che fornisce una valutazione imparziale di un modello, utilizzato per mettere a punto i parametri del modello durante l'addestramento. In altre parole, le pagine dell'insieme di validazione sono messe da parte durante l'addestramento e vengono utilizzate per valutarne l'accuratezza.
Si consiglia di utilizzare un set di convalida pari a circa 10% del set di addestramento. Le pagine dell'insieme di convalida devono essere rappresentative dei documenti della collezione e comprendere tutti gli esempi, altrimenti la misurazione delle prestazioni del modello potrebbe essere falsata.
Selezionare qui le pagine da includere nei Dati di addestramento. Selezionando la casella vicino al titolo del documento, è possibile selezionare tutte le trascrizioni disponibili nel documento. È anche possibile espandere il contenuto del documento e selezionare solo alcune pagine. Le pagine selezionate saranno elencate sulla destra.
Le pagine che non contengono alcuna trascrizione non possono essere selezionate. Per visualizzare la pagina in una nuova scheda, fare clic sull'icona dell'occhio.
3. Dati di convalida
Nella sezione successiva, selezionare le pagine da assegnare al file Dati di convalida. Ricordate che i dati di convalida devono essere vari e devono possibilmente contenere tutti i tipi di elementi dei documenti inclusi nei dati di addestramento. Si consiglia di non fare sforzi sicuri per l'Insieme di convalida e di assegnare circa 10% delle vostre trascrizioni.
È possibile selezionare le pagine manualmente o assegnarle automaticamente. La selezione manuale funziona come descritto sopra per i Dati di addestramento. Sono selezionabili solo le pagine che contengono testo e che non sono state incluse nei Dati di addestramento. Con la selezione automatica, le 2%, 5% o 10% del Training Set vengono assegnate automaticamente al Validation Set: in questo caso, è sufficiente fare clic sulla percentuale che si desidera assegnare. La selezione automatica è consigliata per avere un Set di validazione più variabile.
4. Avvio
L'ultima sezione contiene una panoramica della configurazione del modello. Qui, in fondo alla pagina, è possibile modificare due parametri avanzati:
Numero di epoche
Il numero di epoche si riferisce al numero di volte in cui vengono valutati i dati di addestramento e di convalida. In questo caso, il numero indica il numero massimo di epoche di addestramento, perché l'addestramento verrà interrotto automaticamente quando il modello non migliora più (cioè ha raggiunto il CER più basso possibile). Per cominciare, è consigliabile attenersi all'impostazione predefinita di 250.
Arresto anticipato
Il valore 20 significa che se, dopo 20 epoche, il CER del set di convalida non scende, l'addestramento viene interrotto. Se la variazione dei dati di convalida è minima o nulla, il modello potrebbe fermarsi troppo presto. Per questo motivo, si consiglia di creare un set di convalida vario che contiene tutti i tipi di mani e le tipologie di documenti dell'insieme di addestramento.
Solo se il set di convalida è piuttosto piccolo, aumentare il valore di "Arresto anticipato" per evitare che l'addestramento si interrompa prima di aver visto tutti i dati di addestramento.
Dopo aver controllato tutti i dettagli ed eventualmente modificato i parametri avanzati, fare clic su "Avvia formazione" per avviare la formazione.
È possibile seguire l'avanzamento della formazione facendo clic sul pulsante "Lavori" nel menu a sinistra di "Transkribus Organizer". Il completamento di ogni epoca sarà indicato nella descrizione del lavoro e si riceverà un'e-mail quando il processo di formazione sarà completato.
A seconda del traffico sui server e della quantità di materiale, la formazione potrebbe richiedere un po' di tempo. Nella finestra "Lavori" potete controllare la vostra posizione nella coda (cioè il numero di formazioni che vi precedono). È possibile eseguire altri lavori in Transkribus o chiudere la piattaforma durante il processo di formazione. Se lo stato del lavoro è "creato" o "in corso", non iniziate una nuova formazione, ma abbiate pazienza e aspettate.
Dopo l'addestramento
Al termine dell'allenamento, il modello sarà disponibile tra i modelli privati. Per accedervi, andare alla scheda "Allenamento" e cliccare su "Responsabile del modello": qui è possibile sfogliare tutti i modelli pubblici e quelli privati. Per trovare rapidamente i modelli utilizzati più di frequente, fare clic sulla stella a destra del nome del modello e il modello apparirà nell'elenco dei "Modelli preferiti".
Quando si seleziona un modello, i metadati del modello appaiono sulla destra:
- il nome del modello;
- il suo creatore;
- il numero di parole su cui è stato addestrato;
- quando è stato addestrato;
- la lingua (o le lingue) del documento utilizzato per la formazione;
- il tipo di materiale (scritto a mano/stampato);
- il tasso di errore dei caratteri sui dati di convalida;
- l'ID del modello.
Le prestazioni di un modello sono determinate in base alla "distanza" tra una trascrizione perfetta e il testo riconosciuto, e sono misurate dal valore di Tasso di errore dei caratteri (CER), cioè la percentuale di caratteri trascritti in modo errato dal modello di riconoscimento del testo.
Il CER qui indicato è misurato sulle pagine dei dati di convalida e mostra come il modello di testo si comporta su pagine su cui non è stato addestrato. I risultati con un CER di 10% o inferiore possono essere considerati molto efficienti per la trascrizione automatica. I risultati con un CER di 20-30% sono sufficienti per lavorare con strumenti di ricerca potenti come Smart Search. Per maggiori dettagli, consultare il nostro Come cercare documenti con Smart Seach.
Facendo clic su "Descrizione", è possibile leggere la descrizione aggiunta dal creatore del modello e vedere la curva di apprendimento del modello.
Il "Curva di apprendimentoIl grafico "indica l'accuratezza del modello. L'asse delle ordinate rappresenta il tasso di errore del carattere. La curva scende con il progredire dell'addestramento e il miglioramento del modello. L'asse delle ascisse rappresenta le epoche, cioè il progresso dell'addestramento. Durante il processo di addestramento, Transkribus effettua una valutazione dopo ogni epoca. Nella Figura 5, sono state addestrate 109 epoche. In questo caso, il numero massimo di epoche è stato impostato a 250, ma l'addestramento si è fermato automaticamente a 109 perché il modello non migliorava più.
Il grafico mostra due linee, una blu e una verde. La linea blu rappresenta il progresso della formazione. La linea verde rappresenta l'andamento delle valutazioni sul set di validazione.
Una volta terminato l'addestramento, è possibile provare il modello su qualsiasi altro documento storico con una scrittura simile. I risultati dipenderanno dalla somiglianza e dalla chiarezza della scrittura del documento storico.
Riconoscimento del testo
Ora che avete il vostro modello, potete usarlo per generare automaticamente le trascrizioni dei vostri documenti.
Dopo aver caricato il documento, selezionare l'intero documento o le pagine che si desidera trascrivere. Fare clic su "Riconoscimento del testo" nel menu a sinistra degli Strumenti e scegliere il modello da applicare.
La barra superiore mostra il numero di crediti da utilizzare per il lavoro e presenta due opzioni aggiuntive che possono essere attivate solo prima di iniziare il riconoscimento:
- Smart Searchconsente di eseguire un tipo di ricerca più avanzato e potente sui documenti. La ricerca standard passa attraverso la trascrizione così come appare nell'editor di testo; con Smart Search, Transkribus memorizza molte possibili alternative per ogni parola e le rende disponibili per la ricerca. In questo modo è possibile trovare termini di ricerca che non verrebbero trovati con una normale ricerca full-text che memorizza solo un candidato per parola. Per maggiori dettagli, consultate il nostro Come cercare documenti con Smart Seach.
- Modello linguistico: viene creato automaticamente durante l'addestramento del modello di riconoscimento del testo e si basa sui dati di addestramento. Può essere aggiunto al processo di riconoscimento, ma l'effetto deve essere testato nel singolo caso: in molti casi, il modello linguistico migliora il riconoscimento, ma finora abbiamo visto anche casi in cui non lo fa.
Per avviare il riconoscimento, fare clic su "Avvia". È possibile controllare l'avanzamento dei lavori facendo clic sul pulsante "Lavori" nel menu a sinistra di "Transkribus Organizer". Al termine del riconoscimento, aprire o ricaricare una pagina e il testo apparirà a destra dell'immagine.