×

Text2Image

Lo strumento Text2Image (Text-to-Image) cerca di abbinare le trascrizioni esistenti a livello di pagina a una segmentazione di linea.

Le trascrizioni esistenti possono attualmente essere specificate durante il caricamento del documento come file txt separati in una sottocartella chiamata 'txt'. Nota che ogni file txt deve avere lo stesso nome base del file immagine corrispondente.
Queste trascrizioni vengono poi memorizzate in "linee fittizie", cioè linee con le dimensioni dell'immagine.

Lo strumento Text2Image prima (opzionalmente) inizia una nuova analisi del layout sulle pagine specificate, poi cerca di abbinare il testo dato a questo layout.

L'utente può specificare se linebreaks del testo dato vengono rispettate durante l'abbinamento.

Lo strumento threshold determina quale qualità di corrispondenza è abbastanza buona per eseguire una corrispondenza. Un buon valore è compreso tra 0,02 e 0,05, ma anche il valore predefinito di 0,0 è una buona scelta poiché le corrispondenze errate possono essere comunque corrette in seguito.

Ignore reading order fa sì che il processo ignori l'ordine delle linee come determinato dall'analisi integrata del layout. Abilitando questo può migliorare la corrispondenza per layout complicati (ad esempio linee miste verticali e orizzontali) e la scrittura da destra a sinistra.

Lo strumento Text2Image è stato implementato dal gruppo CITlab di Rostock, vedi anche https://github.com/CITlabRostock/CITlabModule