In questa guida imparerai come addestrare un modello di riconoscimento in Transkribus. Un modello addestrato ti aiuterà a trascrivere e cercare automaticamente la tua collezione. Avrai bisogno tra le 25 e le 75 pagine di trascrizione manuale per iniziare. Se stai lavorando con testo stampato piuttosto che scritto a mano, di solito è necessaria una quantità minore di dati di allenamento. Inoltre, quando si utilizza un modello di base, la quantità di dati di allenamento può essere ridotta.
Addestramento del modello
Le opzioni principali per l'addestramento di un modello si trovano nella scheda "Tools" nella sezione "Text Recognition". Per aprirle clicca sul pulsante "Train".
Nella sezione superiore della finestra che appare dovrai aggiungere i dettagli del tuo modello. Aggiungi le seguenti informazioni:
- Nome del modello
- Lingua
- E una breve descrizione del modello e del suo contesto
Utilizzo di un modello di base
Con l'uso di un modello di base è possibile supportare il nuovo modello con la conoscenza di un modello già esistente. Con questo pulsante puoi aggiungere un modello di base all'addestramento. Sono adatti come modelli di base i modelli pubblici con scritture simili o un modello che tu stesso hai addestrato sullo stesso documento o su documenti simili.
Selezione del Ground Truth
Successivamente, devi selezionare le pagine che vorresti includere nel tuo set di dati di addestramento. In questa lista puoi trovare i documenti della tua collezione. Selezionando il nome del documento, puoi aggiungere l'intero documento al set di addestramento con questo pulsante.
Cliccando sulla freccia accanto al nome del documento puoi scegliere le singole pagine. Le pagine senza trascrizione della Ground Truth sono grigie. Le pagine selezionate appariranno nello spazio "Training Set".
Il set di convalida
Durante il processo di addestramento, viene messo da parte un set di pagine di convalida che non viene usato per addestrare l'HTR, bensì per valutare le prestazioni del modello.
Usa questo pulsante per aggiungere pagine al set di convalida. Le pagine che aggiungi al set di convalida vengono automaticamente escluse dal set di addestramento. Se vuoi puoi usare queste caselle di controllo per scegliere automaticamente 2, 5 o 10% dei dati come set di convalida
Inizio dell'addestramento
Avvia l'addestramento cliccando sul pulsante "OK" e conferma le finestre che appaiono.
Il processo di addestramento richiederà del tempo, a seconda di quante pagine fanno parte del processo. Puoi uscire da Transkribus durante l'addestramento e ritornare più tardi. Nel frattempo puoi controllare il progresso dell'addestramento con il pulsante jobs.
Addestramento terminato
Dopo che l'addestramento del tuo modello è terminato, sarà disponibile nella tua collezione e potrai usarlo per generare trascrizioni automatiche.