Come lavorare con le tabelle in Transkribus

Come lavorare con le tabelle in Transkribus

Tabelle
Transkribus Expert Client
Ultimo aggiornamento 4 mesi fa
Informazioni su Transkribus

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Sommario

Sommario

Questa è una breve introduzione alla marcatura e all'esportazione di tabelle, così come all'elaborazione semi-automatica delle tabelle usando Transkribus e nomacs. Segmentare tabelle stampate o disegnate a mano usando l'Editor di tabelle in Transkribus aggiungerà linee grafiche nella tua immagine e assegnerà una struttura tabellare al layout dei tuoi documenti. Permette anche di esportare le trascrizioni come un foglio di calcolo di Microsoft Excel. Questa guida si riferisce alle immagini in un documento di Transkribus, che seguono la stessa stampa di tabelle o lo stesso modello.

Introduzione

Le tabelle stampate e disegnate a mano sono comuni nei documenti storici di tutti i tipi. Tali tabelle possono essere marcate in Transkribus, sia come primo passo nella creazione di dati di addestramento per il riconoscimento automatico del testo o semplicemente per preparare i documenti alla trascrizione manuale.

Attualmente, le tabelle devono essere disegnate manualmente usando l'editor di tabelle in Transkribus. La tecnologia che permetterà il riconoscimento automatico delle tabelle è in fase di sviluppo e sarà presto messa a disposizione degli utenti.

Spesso più pagine seguono la stessa stampa della tabella o lo stesso modello di tabella, quindi il mark-up della tabella deve essere fatto solo per la prima comparsa della stessa stampa e può essere distribuito alle pagine rimanenti usando il toolkit nomacs.

La prima sezione di questa guida descrive la creazione manuale di una struttura di tabella in Transkribus e la trascrizione del testo contenuto in questa tabella. La seconda sezione dà istruzioni su come lavorare con i modelli di tabella creati in Transkribus e come applicarli a diverse pagine usando un metodo chiamato "batch processing" nello strumento nomacs.

Infine, questo documento spiega anche come le tabelle possono essere esportate in strumenti standard per fogli di calcolo per un'ulteriore elaborazione dei dati.

Segmentazione

Creare regioni di testo

  • Per prima cosa, create delle regioni di testo per qualsiasi informazione non appartenente alla tabella.
    Questo si riferisce alle informazioni in alto, in basso o ai lati della pagina che chiaramente non fanno parte della tabella, come ad esempio:
    • Numeri di pagina
    • Numeri di linea
    • Date
    • Qualsiasi altra marcatura o annotazione
  • Per ulteriori informazioni sulla creazione di regioni di testo, vedere la sezione "Segmentazione" in Come trascrivere documenti con Transkribus - Introduzione.

Creare la tabella

  • Seleziona il pulsante "Add other item" nel menu Canvas e poi clicca su "Add a table"
  • Clicca sull'angolo superiore sinistro della tabella nell'immagine e poi clicca sull'angolo inferiore destro

Segmentare la tabella

Ora puoi segmentare la tua tabella in righe e colonne

  • Per iniziare, assicurati di essere in "Selection mode". Premi il tasto "ESC" sulla tua tastiera o clicca sul pulsante "Selection mode". nel menu principale.
  • Clicca sulla regione della tabella che hai creato.
  • Per creare righe, clicca sul pulsante "Splits a shape with a horizontal line". nel menu Canvas.
  • Muovi il cursore sulla pagina e clicca dove vuoi per creare una linea orizzontale.
  • Per creare colonne, clicca su "Splits a shape with a vertical line". nel menu Canvas.
  • Muovi il cursore sulla pagina e clicca dove vuoi per creare una linea verticale.
  • Continua fino a quando tutte le celle della tabella sono contrassegnate.

Nota: A seconda del layout della tua tabella, potresti voler trattare il dorso del libro come una colonna extra (come nella Figura 1). Puoi anche marcare questa colonna a livello di cella della tabella usando il tag "book-binding" nella scheda "Metadata/structural".

Copiare il formato della tabella da una pagina all'altra

Se il layout della tabella di diverse pagine è simile, è possibile trasferire il formato della tabella da una pagina ad altre pagine. Per farlo, procedi come segue:

  • Prepara il layout della tabella come indicato sopra
  • Apri "other segmentation tools" tramite il menu Canvas.
  • Scegli "Copy regions (texts or tables) to other pages".
  • Scegli le pagine in cui deve essere copiato il layout nella finestra che appare.
  • Conferma con "OK" e il layout della tabella verrà copiato nelle pagine indicate.
  • Per eseguire definitivamente lo strumento, deselezionate "Dry run".
  • Potrebbe essere che la posizione della tabella nella pagina debba essere corretta. Per farlo seleziona l'intera tabella e poi spostala tenendo premuto "Ctrl" + "Shift" sulla tua tastiera.

Correggere le celle della tabella

In alcuni casi, può essere necessario unire le celle per rappresentare le celle che si estendono su più righe o colonne.

  • Assicurati di essere in "Selection mode" premendo il tasto "ESC" sulla tua tastiera o cliccando su "Selection mode" nel menu principale.
  • Per selezionare le celle da unire, tieni premuto il tasto "CTRL/CMD" sulla tua tastiera e poi clicca sulle rispettive celle nella tua tabella.
  • Fai clic sul pulsante "Merges the selected shapes" nel menu Canvas.
  • Continua con tutte le celle fino ad ottenere la struttura prevista. Nell'esempio qui sotto, la fusione deve essere completata per ogni serie di celle evidenziate.

Se ti concentri sull'avere una segmentazione della tabella perfetta, potrebbe anche essere necessario correggere le forme di alcune delle celle della tua tabella. Le linee verdi segmentate dovrebbero quindi corrispondere il più possibile alle linee della tua tabella. Per fare ciò,

  • seleziona la cella della tabella che vuoi modificare
  • clicca e trascina i grandi punti verdi per spostare la posizione delle linee

Nota: Per l'esportazione e l'elaborazione automatica, avere linee rette e rettangolari vicine ai bordi originali della tabella è perfettamente sufficiente.

Aggiungere informazioni grafiche

Mark-up di confine

I bordi delle celle (linee grafiche) devono essere marcati quando sono visibili.

  • Clicca con il tasto destro del mouse sulla cella che vuoi contrassegnare
  • Clicca su "Mark-up borders" nel menu a comparsa o usa il tasto  per aprire il menu di marcatura dei bordi
  • Scegli le opzioni corrette per descrivere il confine della cella

Nota: Puoi scegliere più celle contemporaneamente scegliendo "Select all cells" o "Select row cells". Selezionare o deselezionare le celle funziona tenendo premuto il tasto di comando (Ctrl) e cliccando su una cella diversa.

Aggiungere linee di base

Il prossimo passo è quello di aggiungere le linee di base alla tua tabella. Le linee di base dovrebbero riflettere il flusso logico del testo e possono quindi superare i bordi delle celle se necessario.

  • Puoi disegnare le linee di base a mano o usare gli strumenti di rilevamento automatico delle linee di base in Transkribus. Quando usi l'analisi del layout per rilevare automaticamente le linee di base, assicurati di deselezionare "Find text regions".

Nota: lo strumento di ricerca delle linee creato dal Laboratorio di tecnologia dell'intelligenza computazionale all'Università di Rostock è attualmente il più efficace per il riconoscimento automatico delle linee di base nelle tabelle. Nella sezione "Layout Analysis" della scheda "Tools" clicca su "Method: CITlab Advanced".

  • Se si rilevano automaticamente le linee di base, potrebbe essere necessario correggere le linee generate o spostarle nella cella corretta
  • Potresti anche voler controllare l'ordine di lettura e correggere le tue linee di base. Per maggiori informazioni su come aggiungere e correggere le linee di base, vedi la sezione "Segmentazione" di Come trascrivere documenti con Transkribus - Introduzione.

Linee di base corrette che si estendono su più di una cella

Potresti scoprire che lo strumento di layout automatico sulle celle della tabella si tiene rigorosamente ai bordi delle celle. Le baselines, che si allungano su più celle, vengono divise. Puoi usare lo strumento di fusione per combinare queste linee di base parziali. Se vuoi unire le linee di base che si estendono su più di una cella, spostale prima nella stessa cella, selezionale e usa lo strumento di unione

  • Apri la scheda "Layout".
  • Clicca sulla prima cella dell'immagine dove dovrebbero essere posizionate le tue linee di base. Questo evidenzierà la rispettiva posizione nell'albero della struttura.
  • Espandi le frecce per visualizzare gli elementi della linea.
  • Seleziona le linee che vuoi spostare dall'albero tenendo premuto il tasto Ctrl
  • Trascina le linee nella cella corretta
  • Utilizza lo strumento di unione per fissare la disposizione delle linee

Trascrivere le intestazioni delle tabelle

Soprattutto per determinati moduli o tabelle, le intestazioni rimangono le stesse su più pagine. Qualsiasi informazione trascritta, contenuta nel modello di tabella, verrà automaticamente adottata dallo strumento di abbinamento delle tabelle.

Esempi di risultati del markup delle tabelle

Allenare la struttura delle colonne con P2PaLA

La funzione P2PaLA-training può essere usata per addestrare le colonne delle tabelle nei vostri documenti.

Prima di iniziare l'addestramento, le tabelle devono essere preparate:

  • Disegna una regione di testo per ogni colonna.
  • Definisci queste regioni con tag strutturali attraverso la scheda "Metadata" e "Structural". Puoi leggere come viene fatto nella sezione linea guida per l' etichettatura strutturale .
  • L'importante è che ogni colonna abbia il proprio tipo di struttura.
  • Al fine di accelerare la creazione dei dati di addestramento è possibile copiare il layout nelle pagine seguenti come descritto sopra.

Questo approccio è particolarmente utile se siete interessati a colonne speciali nel documento (quindi non a tutte le colonne delle tabelle).

Trascrizione

  • Trascrivi il testo della tua tabella esattamente come appare nell'immagine
  • Clicca su una cella della tua tabella per iniziare a trascrivere e poi muoviti attraverso le altre celle della tua tabella
  • Se stai trascrivendo del testo come dati di addestramento per il riconoscimento automatico del testo, l'ordine di lettura della tua trascrizione non è importante
  • Se stai trascrivendo un testo per scopi di ricerca, potresti voler aggiustare l'ordine di lettura delle linee di base
  • Puoi anche eseguire un riconoscimento automatico del testo (modello HTR) sul tuo documento segmentato. Per maggiori informazioni vedi Come addestrare un modello di riconoscimento del testo scritto a mano in Transkribus
  • Nella prossima sezione della guida, scoprirai come creare un modello di tabella che può ripetersi in diverse immagini nel vostro documento.

Esportazione di tabelle

Una volta che hai segmentato e trascritto una pagina, puoi esportare i risultati delle tue tabelle trascritte in formato XLS.

  • Fai clic sul pulsante "Esporta documento". nel menu principale
  • Nella parte superiore del riquadro, seleziona la posizione in cui vuoi che i tuoi file esportati vengano salvati
  • Nella sezione "Choose export format", seleziona "Table Export into Excel".
  • In basso a destra della casella, assicurati di selezionare il numero di pagine che vuoi esportare.
  • Esporta una singola pagina

Nota: Solo le tabelle e i loro contenuti vengono esportati, le regioni di testo saranno ignorate. Se la tua selezione di pagine non contiene tabelle, Transkribus ti mostrerà un messaggio di errore e fermerà il processo di esportazione.

Credits

Vorremmo ringraziare i molti utenti che con il loro feedback hanno contribuito a migliorare il software Transkribus.

Transkribus è reso disponibile al pubblico come parte del progetto H2020 e-Infrastructure READ (Recognition and Enrichment of Archival Documents) che ha ricevuto finanziamenti dalla Commissione Europea sotto l'accordo di sovvenzione No. 674943.