Come usare le trascrizioni esistenti per addestrare un modello HTR con lo strumento TextToImage

Come usare le trascrizioni esistenti per addestrare un modello HTR con lo strumento TextToImage

Strumenti Transkribus
Transkribus Expert Client
Ultimo aggiornamento 6 mesi fa
Informazioni su Transkribus

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Sommario

Sommario

Questa è una breve introduzione per quegli utenti che hanno trascrizioni esistenti e vorrebbero usarle per addestrare un modello di riconoscimento del testo scritto a mano (HTR+). Si prega di notare che la funzione T2I non funziona con i modelli PyLaia. È particolarmente utile per gli utenti che hanno già almeno 500-1000 pagine di materiale trascritto. Lo strumento Text to Image è ora implementato nell'interfaccia di Transkribus Expert e questa guida spiega come puoi abbinare le tue immagini e le trascrizioni esistenti da solo.

Introduzione

La piattaforma Transkribus permette agli utenti di addestrare un modello di riconoscimento del testo scritto a mano (HTR) per elaborare automaticamente una collezione di documenti. Il modello deve essere addestrato a riconoscere un certo stile di scrittura mostrando immagini di documenti e le loro accurate trascrizioni.

Negli ultimi 20 anni, sono stati realizzati migliaia di progetti di trascrizione in ambito accademico. Una grande quantità di documenti è stata trascritta ed è ora disponibile in forma elettronica. Tutte queste trascrizioni possono essere utilizzate in modo semplice e diretto come materiale di addestramento per l'HTR.

Lo strumento t2i, sviluppato dal CITlab all'Università di Rostock, crea dati di addestramento da trascrizioni esistenti. Utilizza un algoritmo per abbinare automaticamente le trascrizioni alle immagini del materiale scritto a mano e le elabora per creare un modello HTR. Lo strumento è particolarmente utile per gli utenti che hanno già almeno 500-1000 pagine di materiale trascritto.

Invece di produrre manualmente i dati di addestramento per HTR in Transkribus (cfr. Come trascrivere documenti con Transkribus - Introduzione), gli utenti possono semplicemente utilizzare le loro trascrizioni esistenti per provare la tecnologia. In questo modo, possono essere generate trascrizioni affidabili senza alcun bisogno di cambiare il flusso di lavoro o l'interfaccia di editing utilizzata da un progetto. Si prega di essere consapevoli che questa tecnologia non sarà in grado di fornire una trascrizione senza errori. Si basa su un modello HTR, che ha un certo tipo di tasso di errore. Alcune correzioni manuali saranno necessarie. Se hai bisogno di una trascrizione perfetta senza errori, potrebbe essere più veloce copiare le trascrizioni esistenti direttamente in Transkribus.

Preparazione

Introduzione

  • Se vuoi lavorare con lo strumento t2i, devi avere accesso alle immagini digitalizzate e alle trascrizioni dei tuoi documenti.
  • Anche questi file devono essere preparati secondo le istruzioni seguenti prima di poter essere elaborati con t2i.

Numero di pagine

  • Si consiglia di iniziare il processo di formazione con almeno 20.000 (o circa 100 pagine) di materiale trascritto.
  • T2i funziona particolarmente bene se è già disponibile un numero maggiore di trascrizioni, ad esempio 500 o più pagine.
  • Questa tecnologia è in grado di elaborare una grande quantità di trascrizioni (100 000 pagine e più).
  • Le reti neurali in HTR imparano rapidamente e più dati di addestramento vengono messi a disposizione, migliori possono essere i risultati.

File immagine

  • Tutti i tipi di immagini possono essere elaborati.
  • Le immagini dovrebbero avere una risoluzione di almeno 200 ppi, o - se le immagini provengono da una macchina fotografica - come regola generale l'altezza x di un singolo carattere dovrebbe essere rappresentata da almeno 15-20 pixel.
  • Naturalmente, l'accuratezza dell'HTR è in qualche modo legata alla qualità delle immagini. Tuttavia, con abbastanza dati di addestramento, è possibile elaborare materiale più difficile da microfilm o scansioni bitonali.

File di trascrizione

  • Tutte le trascrizioni devono essere salvate sotto forma di semplici file di testo (TXT).
  • Se le tue trascrizioni sono disponibili come file TEI (Text Encoding Initiative), Word, XML o HTML, dovresti convertirle in file TXT, cioè copiando e incollando le trascrizioni in Notepad.
  • Le trascrizioni devono essere salvate a livello di pagina, cioè un file TXT per ogni immagine della pagina.
    • Se hai familiarità con TEI, puoi creare i file TXT con un "Text Export".
    • Se stai creando file TXT manualmente, potrebbe essere più veloce copiare e incollare le tue trascrizioni direttamente in Transkribus, riga per riga. Vedi Come trascrivere documenti con Transkribus - Introduzione per informazioni su come farlo.

Trascrizioni

  • Le trascrizioni devono essere prive di qualsiasi mark-up.
  • Se la tua trascrizione contiene interruzioni di riga, queste possono essere mantenute. Tuttavia, non è necessario includere interruzioni di riga alla fine di ogni riga di testo.
  • Lo strumento t2i riesce anche a gestire i casi in cui una parola divisa su due righe è stata trascritta per intero senza un trattino.
  • Se c'è una parola illeggibile nella tua trascrizione, è meglio cancellare semplicemente l'intera linea in cui appare quella parola. Questa linea non verrà quindi utilizzata per l'addestramento dell'HTR.
  • Le trascrizioni non devono essere complete. Se mancano delle parole nella trascrizione, non saranno usate per la formazione dell'HTR.
  • È possibile lavorare con tutti i tipi di caratteri Unicode, compresa la scrittura araba ed ebraica.
  • In alcuni casi, le trascrizioni in cui le abbreviazioni sono state estese, possono essere utilizzate anche per l'addestramento di t2i e HTR (le abbreviazioni verranno estese automaticamente).

Dare un nome ai file

  • I file contenenti le immagini e le trascrizioni devono essere chiaramente collegati.
  • Per ottenere questo, ogni file immagine dovrebbe essere salvato con lo stesso nome del suo corrispondente file TXT.

Preparazione dei file

  • Una volta preparate le immagini e le trascrizioni, è necessario inserirle nella giusta struttura:
    • Nome del documento
      • TXT
  • Puoi caricare i tuoi file direttamente su Transkribus. Per il caricamento, i file TXT devono essere inclusi in una cartella extra chiamata 'txt', all'interno di una cartella di immagini.

Figura 1 Come vanno divisi i file

Figura 2 File TXT

  • Nota: lo strumento t2i non è ancora perfetto! Normalmente il 50-75% delle linee vengono subito abbinate correttamente. Dove le linee dell'immagine e del testo non corrispondono, saranno necessarie alcune correzioni manuali.

Modello HTR

  • Per far funzionare il t2i, avrai bisogno di un modello HTR, che corrisponde al tuo documento.
  • Abbiamo già un paio di modelli esistenti, puoi controllare se ce n' è uno di adatto.
  • Altrimenti puoi preparare il tuo modello per il t2i. Per questo dovrai copiare la trascrizione di alcune pagine in Transkribus e poi usarle come materiale di addestramento. Maggiori informazioni sull'addestramento del modello si possono trovare in questa linea guida: Formazione sui modelli in Transkribus

T2i in Transkribus

Caricare scansioni e trascrizioni insieme

  • Se carichi scansioni e trascrizioni insieme, segui le istruzioni di cui sopra e successivamente usa l'importazione "normale" di Transkribus, che puoi trovare nel menu principale.

Caricare scansioni e trascrizioni separatamente

Se hai già caricato le immagini in un momento precedente senza i file di testo, procedi come segue:

  • Apri le immagini in Transkribus
  • Salva i file di testo in una cartella separata sul tuo computer
  • Clicca su "Menu principale" in Transkribus (in alto a sinistra)
  • Clicca su "Documento".
  • Scegli "Sincronizza i file di testo locali con doc"
  • Scegli i file di testo nella directory
  • Si aprirà la seguente finestra:

Figura 3 Sincronizzare i file di testo con doc

  • "Use existing layout": normalmente il t2i inizierà una nuova analisi del layout per il documento. Se non vuoi questo, puoi deselezionare questa opzione.
    • Vantaggi di usare il layout già esistente: si può correggere in seguito portando le linee nella giusta posizione con "Control" e "Enter".
    • Rischio quando si crea il layout nel corso del t2i: può succedere che si perdano delle linee.
  • "Match by filename": seleziona per sincronizzare i file per nome
  • Conferma con "OK".

Abbinamento in Transkribus

  • Importa i documenti in Transkribus con una delle opzioni descritte sopra.
  • Apri la scheda "Strumenti" in Transkribus. All'interno della sezione "Altri strumenti" puoi trovare lo strumento t2i. Se ci clicchi sopra si aprirà la seguente finestra:

Figura 4 configurazione t2i

  • Scegli le pagine che devono essere abbinate.
  • "Base Model": scegli un modello di base adatto al documento.
  • "Perform Layout Analysis": normalmente il t2i inizierà una nuova analisi del layout per il documento. Se non vuoi questo, deseleziona questa opzione.
  • "Remove Line Breaks": scegli questa opzione se le interruzioni di riga nei file di testo non vanno messe. Con questa opzione scegli se le interruzioni di riga devono essere considerate o meno.
  • "Use versions with edit status": nel caso tu non voglia usare l'ultima versione del documento per il t2i, puoi scegliere un'altra versione qui. Questa opzione si riferisce allo stato che è stato assegnato al documento in Transkribus.
  • "Threshold": indica quanto rigoroso dovrebbe essere la corrispondenza per ottenere un match. Il valore predefinito è 0,0 per il fatto che le corrispondenze sbagliate in seguito possono essere corrette abbastanza facilmente. Più basso è il valore di soglia, più tollerante è la corrispondenza.
  • "Allow ignoring text": se nei file di testo c'è del testo, che non è rappresentato nell'immagine.
  • "Allow skipping baselines": scegli questa opzione, se ci sono linee mancanti nei file di testo.
  • "Ignore reading order"Con questa opzione il t2i ignorerà l'ordine delle linee, che è stato definito nel corso dell'analisi del layout. Questa opzione può essere utile per layout complicati (per esempio se c'è una scrittura sia verticale che orizzontale in un documento) e per scritture che vengono lette da destra a sinistra.
  • "Usa hyphens": con questa opzione si definisce che i seguenti segni di punteggiatura causeranno un'interruzione di riga: - = : ¬

Correzione dei risultati

  • Dopo che l'elaborazione di t2i è terminata, le linee abbinate in modo errato possono essere corrette.
  • Un buon modo potrebbe essere quello di saltare da una regione di testo all'altra e controllare la prima e l'ultima riga.
  • Per correggere la posizione delle linee, puoi spostarle verso il basso con "Control" e "Enter", verso l'alto con "Return", e poi potrai naturalmente cancellare o aggiungere semplicemente del testo nell'editor di testo.
  • Se vuoi cancellare linee o regioni, può essere utile farlo nella scheda "Layout", dove puoi trovare una panoramica del layout del documento.

Credits

Vorremmo ringraziare i molti utenti che hanno contribuito con il loro feedback a migliorare il software Transkribus. Un ringraziamento speciale a Gundram Leifert dell'Università di Rostock per la programmazione di questo strumento.