>

Text Region

Text Region

Per generare una trascrizione HTR è necessario segmentare i documenti in regioni di testo, linee e linee di base. Per impostazione predefinita, un'area di testo è un rettangolo, che racchiude tutto il testo scritto a mano contenuto nell'immagine. È comunque possibile modificare un'area di testo secondo il layout generale, aggiungendo Control Points, creando così un poligono.

Di solito, il CITlab Advanced Analisi del layout nella sua impostazione standard riconoscerà una singola regione di testo su un'immagine con le linee di base corrispondenti. 
Tuttavia, ci sono anche layout in cui l'uso di più Regioni di testo è raccomandato, ad esempio se ci sono note marginali o note a piè di pagina e simili elementi ricorrenti. Finché queste aree di testo, che differiscono per contenuto e struttura, sono contenute in un'unica Regione di testo, l'analisi del layout conta semplicemente le linee dall'alto verso il basso. Questo Ordine di lettura non tiene conto di dove un testo appartiene effettivamente in termini di contenuto (ad esempio un'inserzione), ma solo dove si trova graficamente nella pagina. Correggere un ordine di lettura generato automaticamente ma insoddisfacente può richiedere molto tempo. Il problema può essere facilmente evitato creando diverse regioni di testo in cui i testi e le linee correlate sono ben organizzate come in una scatola.

Figura 1 Analisi del layout - Trovare le regioni di testo
Figura 2 Struttura del layout
Figura 3 Regioni di testo nel documento

Inizia ad usare Transkribus

Rendi accessibili i tuoi documenti storici