Come usare la funzione di tagging strutturale e come allenarla con P2PaLA

Come usare la funzione di tagging strutturale e come allenarla con P2PaLA

Metadati
Transkribus Expert Client
Ultimo aggiornamento 4 mesi fa
Informazioni su Transkribus

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Sommario

Sommario

Questa guida vi mostrerà come arricchire i vostri documenti con tag strutturali come "paragrafo", "titolo", "didascalia" o "piè di pagina". Questo mark-up permette di definire la struttura dei vostri documenti. Ora è anche possibile addestrare la struttura di un documento in Transkribus con il P2PaLA-training.

Se state cercando informazioni sui tag basati su parole e frasi come persone, luoghi, ecc. date un'occhiata al sito Come arricchire i documenti trascritti con il mark-up e il Convenzioni di trascrizione in Transkribus guide.

Introduzione

Con la funzione di tagging strutturale, potete marcare la struttura dei vostri documenti.

Inoltre è possibile addestrare modelli per riconoscere automaticamente la struttura dei documenti. L'aggiunta di tag strutturali crea dati di allenamento per questo processo.

Non c'è bisogno di etichettare ogni caratteristica dei tuoi documenti - concentrati sulla marcatura delle sezioni che ti interessano.

L'interfaccia di tagging strutturale di Transkribus permette di

  • dividete i vostri documenti in sezioni strutturali come paragrafi, titoli o numeri di pagina.
  • aggiungere categorie di tag personalizzate per le vostre esigenze individuali.
  • in futuro utilizzare queste informazioni strutturali per l'addestramento di un modello.

Interfaccia di etichettatura strutturale

  • Innanzitutto, aprite il vostro documento in Transkribus
  • L'interfaccia di etichettatura strutturale può essere trovata cliccando sulla scheda "Metadata" e poi sulla scheda "Structural".

Figura 1 Dove trovare le opzioni di etichettatura strutturale

  • Al centro della scheda si possono vedere i diversi tipi di struttura predefiniti.

Crea le tue categorie di tag

  • Per creare le tue categorie di tag, clicca sul pulsante "Personalizza". Si aprirà la finestra "Configurazione dei tag".

Figura 2 Pulsante di personalizzazione

  • Per creare una nuova categoria di tag basta digitare il nome nella casella vuota nella parte inferiore della finestra, quindi fare clic sul pulsante verde più.

Figura 3 Creare una nuova categoria di tag

  • In questa finestra puoi anche personalizzare i colori dei tag cliccando sulla sezione colorata accanto a un tag e poi scegliendo il colore desiderato.

Figura 4 Personalizzare i colori

Figura 5 Scegliere il colore

  • I nuovi tag che hai creato saranno automaticamente disponibili per tutti i tuoi documenti in tutte le tue collezioni.

Assegnare tag agli elementi del documento

  • Puoi assegnare dei tag alle regioni di testo e alle regioni di linea su ogni pagina del tuo documento.
  • Il sistema di riconoscimento strutturale automatizzato è basato sulla regione, quindi ha più senso per le linee di tag.
  • Nota: non è necessario etichettare ogni caratteristica dei tuoi documenti - lo scopo è quello di contrassegnare le sezioni che ti interessano.
  • Per posizionare prima un tag, clicca sul pulsante "Visibilità dell'elemento" nel menu principale e assicurati che le regioni di testo e le regioni di linea siano visibili sul tuo documento.

Figura 6 Pulsante "Visibilità dell'elemento

  • Clicca su una regione di testo o di linea nel tuo documento. Puoi selezionare più regioni contemporaneamente tenendo premuto il tasto "CTRL" sulla tua tastiera e poi cliccando sul tuo documento.
  • Avete quindi due opzioni:
    • Puoi aggiungere il tag cliccando il pulsante verde più a destra della categoria di tag desiderata nella scheda "Strutturale".

Figura 7 Assegnare i tag con il pulsante della croce verde bianca

  • Oppure clicca con il tasto destro del mouse sulla sezione contrassegnata nel tuo documento e poi scegli il tag desiderato sotto "Assegna tipo di struttura".

Figura 8 Assegnazione di tag con il clic destro

Forme di collegamento

  • Puoi collegare due tag strutturali insieme con i pulsanti "Links" nella scheda "Structural", ad esempio un collegamento tra una riga e la nota a piè di pagina collegata a quella riga.
  • Il primo pulsante è per creare tale collegamento e il secondo per rimuoverlo.
  • Si prega di notare che per la formazione il collegamento delle forme non è rilevante.

Figura 9 Collegamento delle forme

Tipo di pagina

  • Puoi scegliere di assegnare un "Tipo di pagina" ad ogni pagina del tuo documento.
  • Le opzioni possibili sono:
    • Copertina anteriore
    • Retrocopertina
    • Titolo
    • Tabella dei contenuti
    • Indice
    • Contenuto
    • Vuoto
  • Quando hai la tua pagina aperta, scegli la definizione appropriata cliccando sulla freccia accanto alle opzioni "Tipo di pagina" e scegliendo poi il tipo desiderato.
  • Anche il tipo di pagina non è rilevante per la struttura-formazione.

Figura 10 Scegliere un tipo di pagina

Sezione layout

  • All'interno della sezione "Layout" della scheda "Structural" puoi saltare tra i diversi tipi di struttura del tuo documento.
  • In questa sezione, troverai una panoramica dei tipi strutturali nel tuo documento e frammenti di qualsiasi testo trascritto. Potresti trovare più veloce consultare questa lista, piuttosto che cercare una particolare linea o regione di testo nell'immagine.
  • Per andare alla regione di testo o di linea desiderata, fai doppio clic sulla regione nella sezione "Layout". L'immagine e l'Editor di testo salteranno automaticamente a questa linea.

Figura 11 sezione "Layout

  • I tag che hai aggiunto saranno mostrati nella colonna "Struttura". Accanto al tipo di struttura c'è una piccola freccia verso il basso. Cliccando su di essa, puoi cambiare rapidamente il tipo di struttura.

Figura 12 Cambiare il tipo di struttura attraverso la sezione "Layout

Altre opzioni

Cancellare i tag strutturali

  • Per cancellare un tag strutturale, clicca su di esso nella colonna "Struttura" e nel menu di selezione scegli l'opzione "-delete-" in alto.

Figura 13 Come cancellare i tag strutturali

Tipo di struttura di disegno

  • Se scegliete questa opzione, sul vostro documento appariranno delle etichette di testo che descrivono ogni tag strutturale che avete aggiunto.
  • Se non scegliete questa opzione, le etichette di testo saranno nascoste.

Figura 14 Mostra le denominazioni dei tag strutturali nell'immagine

Figura 15 Opzione del tipo di struttura del disegno

Disegnare colori predefiniti

  • Ai tag strutturali sono assegnati colori diversi da quelli predefiniti per le regioni di testo e di linea.
  • Se aggiungi dei tag strutturali al tuo documento, i colori dell'immagine del tuo documento cambieranno.
  • Se vuoi tornare alla visualizzazione dei colori di default in Transkribus, scegli l'opzione "Disegna colori di default".
  • I tuoi tag non saranno cancellati - ma i colori predefiniti saranno visualizzati nel tuo documento, invece di quelli relativi ai tag strutturali.

Figura 16 Mostra i colori predefiniti

Tipo di selezionato

  • Quando clicchi su una regione di testo o di linea nel tuo documento, la riga "Type of selected" nella scheda "Structural" ti mostra quale tag strutturale è stato assegnato ad essa.

Figura 17 Tag strutturale attualmente contrassegnato

Struttura-Formazione

Con la funzione di addestramento strutturale otterrete un modello che può riconoscere la struttura dei vostri documenti. L'efficienza dipenderà, come per il riconoscimento del testo scritto a mano, dalla qualità dei dati di allenamento. Se hai etichettato circa 50 esempi di ogni tipo di struttura, che dovrebbero essere addestrati, questo dovrebbe essere abbastanza giusto per iniziare l'addestramento, quindi 50-100 pagine di materiale di addestramento dovrebbero essere adatte per creare un modello utile. Naturalmente è possibile iniziare l'addestramento prima, con una diminuzione dell'efficienza.

Dopo aver finito il processo di etichettatura puoi iniziare l'allenamento. Per questo apri la scheda "Strumenti" e clicca sul pulsante "P2PaLA" nella sezione "Altri strumenti". Si aprirà la seguente finestra:

Figura 18 Impostazioni di formazione P2PaLA

Impostazioni rilevanti per la formazione qui:

  • "Rettifica regioni": tutte le regioni saranno semplificate al riquadro di delimitazione della forma attuale riconosciuta
  • "Area minima": Le forme con un *area* più piccola di questa frazione della *larghezza* dell'immagine saranno rimosse dopo il riconoscimento. Usa questo parametro per rimuovere piccole regioni "spazzatura". Il valore predefinito è 0,01

Se clicchi su "Train", si apriranno i parametri di allenamento:

Figura 19 Parametri di formazione P2PaLA

Nelle sezioni superiori devono essere aggiunti alcuni dettagli sul modello.

"Strutture": qui potete aggiungere i tipi di struttura che devono essere addestrati. Quando si inserisce si prega di prestare attenzione alla sensibilità alle maiuscole e di non usare la barra spaziatrice. Raccomandiamo di usare solo le minuscole. Inoltre raccomandiamo di usare i trattini (-) e le sottolineature (_) come unici caratteri speciali.

  • Esempio: titolo del paragrafo nota a piè di pagina numero di pagina

"Merged Structures": sono usati per trattare certi tipi di struttura allo stesso modo di altri durante l'addestramento (ad esempio 'footnote-continued' o 'footer' come 'footnote'). Si aspetta una lista dei tipi di struttura, separati da due punti con i tipi di struttura da unire.

  • Beispiel: footnote:footnote-continued,footer heading:header

"Training mode": qui puoi decidere se vuoi allenare solo regioni, solo linee o entrambe. Tieni presente che l'addestramento delle linee di base non significa che i tipi di struttura sono addestrati sulla base delle linee. Si tratta invece del riconoscimento delle linee di base.

"Modifica stato": se si desidera utilizzare l'ultima versione, non è necessario scegliere nulla, altrimenti si può scegliere, quale stato del documento deve essere formato.

"Training set": questo è il luogo in cui scegliere i dati di allenamento.

"Analyze structure types": dà una panoramica sul numero e i tipi di tag di struttura all'interno del documento scelto.

Per iniziare la formazione, clicca su "Train".

Dopo che il processo di formazione è finito, il modello è disponibile per la tua collezione e può essere condiviso anche con altre collezioni.

Applicare un modello di struttura

Se vuoi applicare un modello di struttura a un documento per far riconoscere i tipi di struttura, apri la funzione "P2PaLA" nella scheda "Tools".

Figura 20 Applicazione di un modello P2PaLA

Scegliete quali pagine devono essere riconosciute.

"Filtro modello":

  • "Collection": quando il modello desiderato è nella tua collezione
  • "Utente": quando hai addestrato il modello
  • "Modelli pubblici": se vuoi usare un modello pubblico.

Dopo aver scelto una delle opzioni, i modelli disponibili appariranno accanto a: "Seleziona un modello per il riconoscimento". Scegli il modello che vuoi utilizzare. Una panoramica di tutti i modelli si ottiene cliccando su "Modelli".

"Rettifica regioni": tutte le regioni saranno semplificate al riquadro di delimitazione della forma attuale riconosciuta

"Area minima": Le forme con un *area* più piccola di questa frazione della *larghezza* dell'immagine saranno rimosse dopo il riconoscimento. Usa questo parametro per rimuovere piccole regioni "spazzatura". Il valore predefinito è 0,01

Per avviare il riconoscimento, cliccate su "Run".

Credits

Vorremmo ringraziare i molti utenti che con il loro feedback hanno contribuito a migliorare il software Transkribus.