Che cos'è la verità del suolo?

Se siete nuovi a Transkribus, o all'apprendimento automatico in generale, probabilmente conoscete anche il termine "verità a terra". In breve, la verità di base è costituita dai dati accurati e verificati che vengono utilizzati per addestrare i modelli di apprendimento automatico, come quelli utilizzati per le trascrizioni automatiche in Transkribus. Questi dati sono molto importanti per il successo del modello, poiché l'apprendimento automatico è solo uno strumento che replica statisticamente i dati forniti. Pertanto, migliori sono i dati di Ground Truth, migliore sarà il modello.

In questo post, esamineremo ulteriormente cos'è la verità di massa, perché è così importante per il software di riconoscimento del testo scritto a mano e come si possono preparare al meglio i dati di verità di massa su Transkribus.

Una definizione di base di Ground Truth

Utilizzata in statistica e nell'apprendimento automatico, la verità di fondo è un dato che si assume come vero. Ad esempio, abbiamo due immagini. Una raffigura un cane e l'altra un gatto. Sappiamo che questo è vero perché noi, come esseri umani, abbiamo la capacità di riconoscere animali diversi. Se chiedessimo a mille persone quale immagine contiene il cane, la maggior parte indicherebbe la stessa immagine.

Ma per un computer questo compito è molto più difficile. Un computer non sa automaticamente quale animale è l'altro, bisogna insegnarglielo. È qui che entra in gioco la verità di base. Se si volesse addestrare un computer a riconoscere quali foto contengono cani e quali gatti, bisognerebbe innanzitutto fornirgli un ampio set di immagini, ciascuna etichettata come "foto con cane" o "foto con gatto". Da queste etichette di Ground Truth, il computer può imparare a riconoscere le immagini con cani e quelle con gatti e creare un modello contenente queste informazioni.

Una volta che il modello è stato sufficientemente addestrato con un numero sufficiente di dati, può essere presentato con un'immagine nuova e dovrebbe essere in grado di dire se quell'immagine contiene un gatto o un cane, proprio come farebbe un umano. È per questo che si parla di "intelligenza artificiale": si tratta di addestrare i computer a svolgere compiti intelligenti che gli esseri umani fanno naturalmente. La verità di fondo è la base di questo processo.

Gatto maschio soriano. Alvesgaspar. Pubblico dominio, via Wikimedia Commons

Canis lupus familiaris (perro) en Monfero. Fernando Losada Rodríguez. Pubblico dominio, via Wikimedia Commons

Distinguere tra cani e gatti è facile per un essere umano, ma quasi impossibile per un computer non addestrato.

La Ground Truth viene utilizzata solo per l'addestramento dei modelli?

No, si usa anche per testare i modelli. Supponiamo che abbiate già creato il vostro modello per distinguere le foto di cani e gatti. Ora si vuole testare l'effettivo funzionamento del modello. Per farlo, si possono presentare al modello dei set di dati Ground Truth per i quali si dispone di una "risposta corretta" e vedere se il modello è in grado di fornire la stessa risposta.

Nel caso del modello gatto/cane, si tratta di mostrare al modello una serie di immagini già etichettate come "foto con cane" o "foto con gatto" e di contare quante volte il modello assegna correttamente l'etichetta a una foto. In questo modo, è possibile verificare le prestazioni del modello.

Come vengono utilizzati i dati di Ground Truth nei modelli di riconoscimento del testo?

E se non si volesse un modello in grado di distinguere tra cani e gatti nelle foto, ma in grado di leggere e trascrivere documenti storici? Questo tipo di modelli è la tecnologia alla base di tutte le piattaforme di riconoscimento del testo scritto a mano e vengono addestrati con la verità di base esattamente nello stesso modo. In questo caso, i dati di Ground Truth non sono immagini di cani e gatti, ma immagini di testi con trascrizioni accurate. Grazie all'apprendimento automatico, il computer apprende dai dati quali caratteri dell'immagine rappresentano quali caratteri della trascrizione. Quindi, proprio come in precedenza, prende queste informazioni e le utilizza per creare un modello.

Alcune piattaforme di riconoscimento del testo consentono di utilizzare solo modelli addestrati dai creatori della piattaforma. La particolarità di Transkribus è che consente agli utenti di creare i propri modelli e di addestrarli a leggere un particolare tipo di documento. Poiché questi modelli personalizzati sono addestrati su dati Ground Truth molto specifici, tendono a essere più precisi nella trascrizione di documenti simili a quelli presenti nel dataset Ground Truth. Ciò è ideale se si dispone di documenti molto specifici, come lettere di un piccolo gruppo di persone, un diario scritto a mano o documenti notarili di un certo periodo.

La verità a terra è nota come "dati di addestramento" in Transkribus. © Transkribus

Come si prepara la verità al suolo per un modello Transkribus?

Come si potrebbe già intuire, per addestrare il proprio modello personalizzato è necessario creare dati di Ground Truth su cui addestrarlo. Nella maggior parte dei casi, per l'addestramento sono necessarie almeno 10.000 parole di testo scritto a mano trascritto o 5.000 parole di testo stampato trascritto. il vostro primo modello. Tuttavia, questo varia a seconda del tipo di materiale e del modello.

Esistono tre modi principali per trovare dati di verità a terra adatti ai modelli in Transkribus:

  1. È possibile trascrivere manualmente i documenti. Questo avviene caricando le immagini dei documenti su Transkribus e poi digitando manualmente la trascrizione nell'editor di testo. Per saperne di più trascrizione manuale nel nostro Centro assistenza.
  2. È possibile trovare esempi di testi pre-trascritti. Ad esempio, se un collega ha già utilizzato Transkribus per trascrivere documenti simili a quelli su cui state lavorando, può condividerli direttamente con la vostra raccolta Transkribus e voi potete salvarli come Verità terrena.
  3. È possibile prendere come base un modello pubblico. Trascrivete tutti i vostri documenti con il sistema più adatto modello pubblico e poi correggere le trascrizioni per renderle più accurate e salvarle nuovamente come Ground Truth. In questo modo il modello verrà adattato ai documenti specifici e si risparmierà molto tempo.

Usare un modello pubblico come base per il proprio modello personalizzato può far risparmiare molto tempo e fatica. © Transkribus

Che cosa è importante ricordare quando si prepara la Verità del suolo?

Il successo del modello dipende dalla qualità dei dati di Ground Truth. E quando si parla di qualità, gli aspetti più importanti sono l'accuratezza e la coerenza.

In primo luogo, le trascrizioni devono essere il più possibile accurate. Nell'apprendimento automatico, il modello presuppone automaticamente che i dati di Ground Truth che gli sono stati forniti siano veri. Ciò significa che se ci sono delle imprecisioni nella Ground Truth, il modello penserà che tali imprecisioni siano corrette e questo influenzerà l'accuratezza di tutti i documenti che il modello andrà a trascrivere.

In secondo luogo, la trascrizione deve essere coerente. Ci sono molti modi diversi di trascrivere caratteristiche linguistiche come i diacritici, le legature o i caratteri S. Il modo in cui si sceglie di trascrivere queste caratteristiche nella Ground Truth determina il modo in cui il modello le trascriverà. Il modo in cui si sceglie di trascrivere queste caratteristiche nella Ground Truth determina il modo in cui il modello le trascriverà. Pertanto, ha senso trascrivere i documenti di Ground Truth esattamente nel modo in cui si desidera trascrivere il resto dei documenti, in modo che il modello possa apprendere il sistema e applicarlo ai documenti successivi.

Potete trovare maggiori informazioni sulle caratteristiche linguistiche a cui prestare particolare attenzione in questa pagina.

Dove posso trovare maggiori informazioni sulla preparazione di Ground Truth e sui modelli di formazione in Transkribus?

La preparazione della verità terrena e dei modelli in Transkribus è un argomento molto vasto e vale la pena di fare qualche ricerca prima di iniziare a lavorare al vostro primo modello. Ecco alcune risorse per saperne di più sull'addestramento dei modelli di riconoscimento del testo con i dati di Ground Truth:

  • Il nostro Centro assistenza è una miniera di informazioni su tutti gli aspetti di Transkribus. È possibile consultare la sezione sull'addestramento dei modelli di riconoscimento del testo qui.
  • Lo strumento FAQs sul nostro sito web forniscono le risposte alle domande più frequenti sui modelli e sui dati di addestramento.
  • Abbiamo preparato anche il seguente video come guida di facile utilizzo per la formazione dei modelli in Transkribus:
CONDIVIDI QUESTO ARTICOLO

Post recenti

3 luglio 2024
News, Transkribus
Alcuni progetti Transkribus terminano con una collezione completa digitalizzata in Transkribus. Alcuni prendono la fonte digitalizzata e la usano per ...
12 giugno 2024
News, Transkribus
Quando si pensa alla minuscola carolingia (o carolina), probabilmente vengono in mente Carlo Magno e il suo vasto impero carolingio. Mentre il ...
14 maggio 2024
Uncategorized
La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo ...