Uno dei più grandi vantaggi di Transkribus è la possibilità di addestrare un modello personalizzato di riconoscimento del testo scritto a manos. Questa caratteristica unica consente di adattare le trascrizioni automatiche alla grafia specifica o al testo stampato dei documenti, ottenendo trascrizioni più accurate.
Tuttavia, la formazione di modelli accurati è un'abilità che richiede un po' di tempo per essere padroneggiata. Se siete alle prime armi con l'addestramento dei modelli, potreste rapidamente sentirvi frustrati dall'elevato tasso di errore dei caratteri, o CER, del vostro modello. Si tratta di un numero compreso tra 0% e 100% che indica l'accuratezza del modello. Un modello con un CER di 100% produrrà una trascrizione molto imprecisa, mentre un modello con un CER di 0% fornirà una trascrizione perfetta e priva di errori.
In generale, si dovrebbe puntare a un CER di 10% o meno. In questo modo si otterranno trascrizioni sufficientemente accurate ai fini della ricerca e di ulteriori analisi. Ma se il CER del vostro modello è superiore a questo valore, non disperate: ci sono molti modi semplici per ridurre il CER e creare un modello adatto ai vostri documenti. Vediamo i cinque modi più semplici per migliorare il CER del vostro modello.
Che cos'è il CER?
Prima di iniziare, diamo una rapida occhiata al CER. Il CER è la percentuale di caratteri trascritti in modo errato dal modello di riconoscimento del testo durante il test. Se un modello ha un CER di 5%, significa che, rispetto alla trascrizione manuale, 5 caratteri su 100 sono stati trascritti in modo errato dal modello, un numero relativamente basso.
Ma come viene calcolato il CER? Quando si crea un modello, è necessario fornire due serie di pagine accurate e trascritte manualmente: il set di addestramento, che viene utilizzato per addestrare il modello, e il set di validazione, che di solito contiene una selezione di pagine dal set di addestramento e viene utilizzato per testare il modello. Questi dati di addestramento sono noti anche come Ground Truth.
Durante l'addestramento, il modello analizza tutte le pagine dell'insieme di addestramento e cerca di imparare la scrittura. Successivamente, verifica ciò che ha appreso tentando la trascrizione automatica delle pagine dell'insieme di validazione. La trascrizione automatica delle pagine effettuata dal modello viene confrontata con la trascrizione manuale accurata e viene calcolato il numero di errori. Questo viene poi trasformato in una percentuale e si ottiene il CER.
La prima volta che il modello esegue questo processo - noto come epoch - ci si può aspettare che il CER sia piuttosto alto. Tuttavia, il modello eseguirà molte altre epoch, imparando ogni volta di più e commettendo sempre meno errori durante il test sul set di validazione. Nel corso del tempo, il modello avrà imparato tutto il possibile e ogni epoch avrà lo stesso CER. Questo dato viene considerato il CER del modello.
Un'altra cosa...
Tenete presente che il CER calcola ogni minima discrepanza rispetto ai dati di addestramento come errori, compresi spazi, punteggiatura e lettere minuscole al posto di quelle maiuscole. È possibile che il modello abbia un CER elevato, ma che la maggior parte degli errori non riguardi le lettere vere e proprie e che le trascrizioni siano in realtà abbastanza accurate. Pertanto, vale sempre la pena di testare il modello su alcune pagine dopo l'addestramento, perché anche un modello con un CER elevato potrebbe comunque fornire un testo ricercabile adatto ai propri scopi.
Cinque modi per migliorare il CER del vostro modello
Se il vostro modello ha completato molte epoche di addestramento e state ancora ricevendo un CER piuttosto alto e trascrizioni imprecise, ecco cinque cose che potete fare per migliorare l'accuratezza del vostro modello.
1. Assicuratevi che i dati di formazione siano accurati.
I dati di addestramento sono le pagine trascritte manualmente fornite per il set di addestramento e il set di convalida. Devono essere 100% accurate e completamente prive di errori.
Questo è importante perché il modello è tanto preciso quanto i dati di addestramento che gli sono stati forniti. Se ci sono errori nei dati di addestramento, questi errori si riprodurranno in qualsiasi cosa il modello cerchi di trascrivere. Se si ricevono CER molto elevati, vale la pena di esaminare i dati di addestramento e verificare che siano il più accurati possibile.
2. Assicuratevi che i dati di allenamento siano coerenti.
Allo stesso modo, i dati di addestramento devono essere coerenti. Ciò è particolarmente importante se i documenti contengono abbreviazioni, punteggiatura insolita o altri elementi linguistici "non standard". Se questi elementi sono trascritti in modo incoerente nei dati di addestramento, si rischia di confondere il modello, con conseguente aumento del CER.
Visitate il nostro Centro assistenza per ulteriori informazioni sulla coerenza con i dati di allenamento.
3. Non dimenticatevi delle linee di base.
Sebbene sia facile concentrarsi solo sulla parte testuale della trascrizione, non bisogna dimenticare il layout. Prima di ogni riconoscimento del testo, Transkribus esegue un'analisi del layout. Ciò consente alla piattaforma di individuare la posizione del testo sulla pagina, in modo da sapere cosa trascrivere durante la fase di riconoscimento del testo.
È quindi importante che le linee di base (le linee colorate sotto ogni riga di testo) siano indicate con precisione nei dati di addestramento. In questo modo, il modello cercherà di trovare i caratteri solo nei punti in cui esistono effettivamente, creando trascrizioni più accurate. Per sapere come regolare le linee di base, consultate il nostro sito Centro assistenza.
4. Continuate ad aggiungere altri dati.
Se si sono esaminati i dati di addestramento e si è certi che il testo e le linee di base siano del tutto accurati e coerenti, il passo successivo sarà quello di aggiungere altri dati di addestramento.
In generale, si consiglia di avere almeno 25 pagine di dati di addestramento per un modello. Naturalmente, più dati di addestramento si hanno, più informazioni il modello può apprendere e più sarà accurato.
Ciò è particolarmente vero se i documenti sono molto eterogenei, ad esempio se presentano diversi tipi di scrittura. In questi casi, potrebbero essere necessari più dati di addestramento per ridurre il CER del modello.
5. Utilizzare un modello base.
Quest'ultimo suggerimento può non solo migliorare il CER del modello, ma anche far risparmiare tempo. Quando si imposta un nuovo modello, è possibile selezionare un "modello base". Si tratta di un modello preesistente che verrà utilizzato come base per il nuovo modello personalizzato. Il modello di base deve essere addestrato su una lingua, una grafia e un periodo di tempo simili a quelli dei vostri documenti.
L'utilizzo di un modello di base significa che il nuovo modello non deve essere addestrato completamente da zero. Può invece utilizzare le informazioni memorizzate nel modello di base ed espanderle con i dati di addestramento. In genere si ottiene un modello più accurato con meno dati di addestramento, risparmiando tempo e fatica.
Avete bisogno di ulteriori informazioni sull'addestramento dei modelli di riconoscimento del testo con Transkribus? Consultate la sezione Modelli di addestramento nel nostro Centro assistenza.