Come usare la funzione di tagging strutturale e come addestrarla con P2PaLA

Come usare la funzione di tagging strutturale e come addestrarla con P2PaLA

Metadati
Transkribus Expert Client
Ultimo aggiornamento 7 mesi fa
Informazioni su Transkribus

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Sommario

Sommario

Questa guida vi mostrerà come arricchire i vostri documenti con tag strutturali come "paragrafo", "titolo", "didascalia" o "piè di pagina". Questo mark-up permette di definire la struttura dei vostri documenti. Ora è anche possibile addestrare la struttura di un documento in Transkribus con il P2PaLA-training.

Se stai cercando informazioni sui tag basati su parole e frasi come persone, luoghi, ecc. date un'occhiata al sito Come arricchire con mark-up i documenti trascritti e la guida Convenzioni di trascrizione in Transkribus .

Introduzione

Con la funzione di tagging strutturale, puoi marcare la struttura dei tuoi documenti.

Inoltre è possibile addestrare modelli per riconoscere automaticamente la struttura dei documenti. L'aggiunta di tag strutturali crea dati di addestramento per questo processo.

Non c'è bisogno di etichettare ogni caratteristica dei tuoi documenti - concentrati sulla marcatura delle sezioni che ti interessano.

L'interfaccia di tagging strutturale di Transkribus permette di

  • dividere i tuoi documenti in sezioni strutturali come paragrafi, titoli o numeri di pagina.
  • aggiungere categorie di tag personalizzate per le tue esigenze individuali.
  • utilizzare queste informazioni strutturali in futuro per l'addestramento di un modello.

Interfaccia di structural tagging

  • Innanzitutto, apri il tuo documento in Transkribus
  • L'interfaccia di structural tagging può essere trovata cliccando sulla scheda "Metadata" e poi sulla scheda "Structural".

Figura 1 Dove trovare le opzioni di structural tagging

  • Al centro della scheda si possono vedere i diversi tipi di struttura predefiniti.

Crea le tue categorie di tag

  • Per creare le tue categorie di tag, clicca sul pulsante "Customize". Si aprirà la finestra "Tag configuration".

Figura 2 Pulsante "Customize"

  • Per creare una nuova categoria di tag basta digitare il nome nella casella vuota nella parte inferiore della finestra, quindi fare clic sul pulsante "+" verde .

Figura 3 Creare una nuova categoria di tag

  • In questa finestra puoi anche personalizzare i colori dei tag cliccando sulla sezione colorata accanto a un tag e poi scegliendo il colore desiderato.

Figura 4 Personalizzare i colori

Figura 5 Scegliere il colore

  • I nuovi tag che hai creato saranno automaticamente disponibili per tutti i tuoi documenti in tutte le tue Collections.

Assegnare tag agli elementi del tuo documento

  • Puoi assegnare dei tag alle regioni di testo e alle regioni di linea su ogni pagina del tuo documento.
  • Il sistema di riconoscimento strutturale automatizzato è basato sulla regione, quindi ha più senso applicare i tag alle linee.
  • Nota: non è necessario etichettare ogni caratteristica dei tuoi documenti - lo scopo è quello di contrassegnare le sezioni che ti interessano.
  • Per applicare un tag, clicca sul pulsante "Item Visibility" nel menu principale e assicurati che le regioni di testo e le regioni di linea siano visibili sul tuo documento.

Figura 6 Pulsante "Item Visibility"

  • Clicca su una regione di testo o di linea nel tuo documento. Puoi selezionare più regioni contemporaneamente tenendo premuto il tasto "CTRL" sulla tua tastiera e poi cliccando sul tuo documento.
  • Hai quindi due opzioni:
    • Puoi aggiungere il tag cliccando il pulsante "+" verde a destra della categoria di tag desiderata nella scheda "Structural".

Figura 7 Assegnare i tag con il pulsante verde con croce bianca

  • Oppure clicca con il tasto destro del mouse sulla sezione contrassegnata nel tuo documento e poi scegli il tag desiderato sotto "Assign structure type".

Figura 8 Assegnazione di tag con il clic destro

Forme di collegamento

  • Puoi collegare due tag strutturali insieme con i pulsanti "Links" nella scheda "Structural", ad esempio un collegamento tra una linea e la nota a piè di pagina collegata a quella linea.
  • Il primo pulsante è per creare tale collegamento e il secondo per rimuoverlo.
  • Si prega di notare che per l'addestramento il collegamento delle forme non è rilevante.

Figura 9 Collegamento delle forme

Tipo di pagina

  • Puoi scegliere di assegnare un "Tipo di pagina" ad ogni pagina del tuo documento.
  • Le opzioni possibili sono:
    • Copertina anteriore
    • Copertina sul retro
    • Titolo
    • Tabella dei contenuti
    • Indice
    • Contenuto
    • Vuoto
  • Quando hai la tua pagina aperta, scegli la definizione appropriata cliccando sulla freccia accanto all'opzione "Tipo di pagina" e scegliendo poi il tipo desiderato.
  • Anche il tipo di pagina non è rilevante per l'addestramento della struttura.

Figura 10 Scegliere un tipo di pagina

Sezione layout

  • All'interno della sezione "Layout" della scheda "Structural" puoi saltare tra i diversi tipi di struttura del tuo documento.
  • In questa sezione, troverai una panoramica dei tipi strutturali nel tuo documento e frammenti di qualsiasi testo trascritto. Potresti trovare più veloce consultare questa lista, piuttosto che cercare una particolare linea o regione di testo nell'immagine.
  • Per andare alla regione di testo o di linea desiderata, fai doppio clic sulla regione nella sezione "Layout". L'immagine e l'Editor di testo salteranno automaticamente a questa linea.

Figura 11 sezione "Layout

  • I tag che hai aggiunto saranno mostrati nella colonna "Struttura". Accanto al tipo di struttura c'è una piccola freccia verso il basso. Cliccando su di essa, puoi cambiare rapidamente il tipo di struttura.

Figura 12 Cambiare il tipo di struttura attraverso la sezione "Layout

Altre opzioni

Cancellare i tag strutturali

  • Per cancellare un tag strutturale, clicca su di esso nella colonna "Struttura" e nel menu di selezione scegli l'opzione "-delete-" in alto.

Figura 13 Come cancellare i tag strutturali

Draw struct type

  • Se scegli questa opzione, sul tuo documento appariranno delle etichette di testo che descrivono ogni tag strutturale che avete aggiunto.
  • Se non scegli questa opzione, le etichette di testo verranno nascoste.

Figura 14 Mostra le denominazioni dei tag strutturali nell'immagine

Figura 15 Opzione "Draw structure type"

Draw default colours

  • Ai tag strutturali sono assegnati colori diversi da quelli predefiniti per le regioni di testo e di linea.
  • Se aggiungi dei tag strutturali al tuo documento, i colori dell'immagine del tuo documento cambieranno.
  • Se vuoi tornare alla visualizzazione dei colori di default in Transkribus, scegli l'opzione "Draw default colours".
  • I tuoi tag non verranno cancellati - ma i colori predefiniti saranno visualizzati nel tuo documento, invece di quelli relativi ai tag strutturali.

Figura 16 Mostra i colori predefiniti

Type of selected

  • Quando clicchi su una regione di testo o di linea nel tuo documento, la linea "Type of selected" nella scheda "Structural" ti mostra quale tag strutturale è stato assegnato ad essa.

Figura 17 Tag strutturale attualmente contrassegnato

Addestramento della struttura

Con la funzione di addestramento strutturale otterrete un modello che può riconoscere la struttura dei vostri documenti. L'efficienza dipenderà, come per il riconoscimento del testo scritto a mano, dalla qualità dei dati di addestramento. Se hai etichettato circa 50 esempi da addestrare per ogni tipo di struttura, questo dovrebbe bastare per iniziare l'addestramento. 50-100 pagine di materiale di addestramento dovrebbero dunque essere adatte per creare un modello utile. Naturalmente è possibile iniziare l'addestramento anche con meno materiale, tuttavia con una diminuzione dell'efficienza.

Dopo aver finito il processo di etichettatura puoi iniziare l'addestramento. Per questo apri la scheda "Strumenti" e clicca sul pulsante "P2PaLA" nella sezione "Other tools". Si aprirà la seguente finestra:

Figura 18 Impostazioni di addestramento P2PaLA

Impostazioni rilevanti per l'addestramento:

  • "Rectify regions: tutte le regioni verranno semplificate nella bounding box della forma attuale riconosciuta
  • "Min area": Le forme con un *area* più piccola di questa frazione della *larghezza* dell'immagine saranno rimosse dopo il riconoscimento. Usa questo parametro per rimuovere piccole regioni "spazzatura". Il valore predefinito è 0,01

Se clicchi su "Train", si apriranno i parametri di addestramento:

Figura 19 Parametri di addestramento P2PaLA

Nelle sezioni superiori devono essere aggiunti alcuni dettagli sul modello.

"Structures": qui puoi aggiungere i tipi di struttura che devono essere addestrati. Quando si inserisce si prega di prestare attenzione alla sensibilità alle maiuscole e di non usare la barra spaziatrice. Raccomandiamo di usare solo le minuscole. Inoltre raccomandiamo di usare i trattini (-) e le sottolineature (_) come unici caratteri speciali.

  • Esempio: titolo del paragrafo nota a piè di pagina numero di pagina

"Merged Structures": viene usato per trattare certi tipi di struttura allo stesso modo di altri durante l'addestramento (ad esempio 'footnote-continued' o 'footer' come 'footnote'). Ci si aspetta una lista dei tipi di struttura, separati da due punti con i tipi di struttura da unire.

  • Beispiel: footnote:footnote-continued,footer heading:header

"Training mode": qui puoi decidere se vuoi addestrare solo regioni, solo linee o entrambe. Tieni presente che l'addestramento di baselines non significa che i tipi di struttura sono addestrati sulla base delle linee. Si tratta invece del riconoscimento delle linee di base.

"Edit status": se desideri utilizzare l'ultima versione, non è necessario scegliere nulla, altrimenti puoi scegliere quale versione del documento deve essere addestrata.

"Training set": questo è il luogo in cui scegliere i dati di addestramento.

"Analyze structure types": dà una panoramica sul numero e i tipi di tag di struttura all'interno del documento scelto.

Per iniziare l'addestramento, clicca su "Train".

Dopo che il processo di addestramento è finito, il modello è disponibile per la tua collection e può essere condiviso anche con altre collections.

Applicare un modello di struttura

Se vuoi applicare un modello di struttura a un documento per far riconoscere i tipi di struttura, apri la funzione "P2PaLA" nella scheda "Tools".

Figura 20 Applicazione di un modello P2PaLA

Scegli quali pagine devono essere riconosciute.

"Model filter":

  • "Collection": quando il modello desiderato si trova nella tua collezione
  • "Utente": quando hai addestrato tu stesso il modello
  • "Public models": se vuoi usare un modello pubblico.

Dopo aver scelto una delle opzioni, i modelli disponibili appariranno accanto a: "Select a model for recognition". Scegli il modello che vuoi utilizzare. Una panoramica di tutti i modelli si ottiene cliccando su "Models".

"Rectify regions: tutte le regioni verranno semplificate nella bounding box della forma attuale riconosciuta

"Min area": Le forme con un *area* più piccola di questa frazione della *larghezza* dell'immagine saranno rimosse dopo il riconoscimento. Usa questo parametro per rimuovere piccole regioni "spazzatura". Il valore predefinito è 0,01

Per avviare il riconoscimento, clicca su "Run".

Credits

Vorremmo ringraziare i molti utenti che con il loro feedback hanno contribuito a migliorare il software Transkribus.