L'Analisi del layout

Se hai già caricato il tuo documento su Transkribus e ora vuoi iniziare a lavorarci, il prossimo passo è l'analisi del layout, perché per poterlo trascrivere, l'immagine deve essere divisa in regioni di testo e linee. Vedrai che può essere fatto con pochi clic e nella maggior parte dei casi non richiederà correzioni manuali. Nel seguente video imparerai ad utilizzare la funzione di analisi del layout.

In Transkribus Lite l'analisi del layout viene eseguita automaticamente, quando si avvia un incarico di riconoscimento del testo.

Eseguire l'analisi del layout

Per arrivare allo strumento di analisi del layout, clicca sulla scheda "Tools". La sezione di analisi del layout si trova proprio in cima. Devi solo selezionare le pagine su cui vorresti eseguire il lavoro e poi premere "Run". Puoi controllare il progresso con il pulsante jobs. Nella colonna della descrizione è indicato su quale pagina lo strumento sta attualmente lavorando.

Risultati

Non appena l'analisi del layout è terminata, verranno mostrate nell'immagine le text regions (verde) e le base lines (blu). Per controllare i risultati, è utile attivare la visualizzazione di segmentazione nei profili di visualizzazione. In questo modo l'editor di testo è nascosto e abbiamo più spazio per mostrare l'immagine. La regione di testo copre il testo. Con layout più complessi, ci può essere anche più di una regione di testo su una pagina.  

La base line dovrebbe correre lungo la parte inferiore della linea di testo, le lettere dovrebbero essere posizionate su di essa e la parte discendente andare sotto. Se fai cambiamenti sulle linee, è importante farlo sempre sulle base lines. Questo bisogna saperlo, perché per ogni linea nel tuo documento c'è anche una regione di linea in background. Puoi dare un'occhiata a queste visualizzandole con il pulsante di visibilità dell'elemento. Queste regioni di linea non devono essere cambiate, saranno adattate automaticamente quando cambi qualcosa alla base line. Ci sarà un pop-up che ti chiederà se vuoi cambiare anche la parent line, per favore conferma.  

Eseguire modifiche

Normalmente l'analisi del layout offre risultati con un alto grado di precisione. Se dovessero essere necessarie delle modifiche, è possibile utilizzare il menu canvas a sinistra dell'immagine per farlo.

Se ci sono sezioni nel documento che non servono nei dati di addestramento, puoi semplicemente cancellare la base line, in questo modo non sarà considerata per l'addestramento del modello. Fai clic su di essa per selezionarla e poi usa il pulsante di cancellazione "delete" nel menu canvas.

Puoi personalizzare le base lines e le text regions trascinando i punti o anche dividerli con uno dei pulsanti "split" per la divisione.

Con questo pulsante si arriva di nuovo alla modalità di selezione.

Due regioni di testo o linee di base che dovrebbero essere una sola possono essere unite selezionandole entrambe, tenendo premuto il tasto control sulla tua tastiera e poi usando il pulsante "merge".

Analisi del layout terminata

Non appena l'analisi del layout è terminata sei pronto per iniziare a trascrivere e creare dati di addestramento. Per questo avrai bisogno di attivare di nuovo la visualizzazione di trascrizione per vedere il text editor.

Per la trascrizione manuale si prega di trascrivere riga per riga, pagina dopo pagina, il più vicino possibile al testo originale. 

Non appena avrai circa 50 pagine di trascrizione manuale, che chiamiamo Ground Truth, potrai iniziare con l'addestramento di un modello. Se lavori con materiale stampato o usi un modello di base, che è adatto alla scrittura del tuo documento, la quantità di dati di addestramento può essere anche minore.

Per ulteriori informazioni sull'analisi del layout, consulta le nostre guide pratiche per l'uso.