Il futuro dell'estrazione delle informazioni - Partecipa al progetto TUC 2024! ✨ 15-16 febbraio, di persona e online. Ottieni il tuo biglietto >>

×

Text2Image

Lo strumento Text2Image (Text-to-Image) cerca di abbinare le trascrizioni esistenti a livello di pagina a una segmentazione di linea.
Attualmente, è necessario seguire un approccio in due fasi utilizzando l'Expert Client di Transkribus:

1Caricamento di file di testo:
Le trascrizioni esistenti possono attualmente essere specificate durante il caricamento del documento come file txt separati in una sottocartella chiamata 'txt'. Nota che ogni file txt deve avere lo stesso nome base del file immagine corrispondente.
Queste trascrizioni vengono poi memorizzate in "linee fittizie", cioè linee con le dimensioni dell'immagine.
Per caricare i file di testo per i documenti esistenti, andare su "Menu -> Documento -> Sincronizza file di testo locali con doc..." nel client esperto.

2 - Avviare il processo di abbinamento:
Per utilizzare Text2Image nel Client Expert, andare a "Strumenti -> Altri strumenti -> Text2Image...". La finestra di dialogo presenta le seguenti opzioni:

  • Modello baseÈ necessario selezionare un modello che esegua innanzitutto un HTR - il testo risultante viene quindi confrontato con il testo in ingresso per trovare una corrispondenza.
  • Eseguire l'analisi del layout: se eseguire un rilevamento della linea di base prima dell'HTR (se non viene selezionato, vengono utilizzate le linee di base esistenti)
  • Mantenere le linee spaiate: se mantenere il testo delle righe dell'HTR che non è stato possibile abbinare
  • Mantenere l'ordine di linea: se preservare o meno l'ordine delle righe del testo in ingresso durante la corrispondenza
  • Scrivere il tag di somiglianza: se scrivere un'etichetta di somiglianza con un valore di accuratezza all'interno dell'etichetta personalizzata di ogni riga abbinata
  • Soglia della regione: soglia per la corrispondenza basata sui blocchi (varia tra 0 e 1) - come primo passo, l'intero testo di una pagina viene assegnato a una regione in base a questa soglia - impostare questo valore a 0 per provare a far corrispondere il testo in ingresso a ogni regione (il che comporta un costo computazionale maggiore)
  • Soglia di lineaSoglia per l'abbinamento delle righe (compresa tra 0 e 1) - dopo che il testo è stato abbinato a una regione, le righe in ingresso vengono abbinate alle righe di questa regione utilizzando questa soglia - 0,45 è di solito un buon valore per le righe più lunghe, per le righe più corte provare a utilizzare un valore più alto, ad esempio 0,7 o addirittura 0,9 per una migliore qualità dell'abbinamento