Come arricchire con mark-up i documenti trascritti

Come arricchire con mark-up i documenti trascritti

Metadati
Transkribus Expert Client
Ultimo aggiornamento 8 mesi fa
Informazioni su Transkribus

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Sommario

Sommario

Questa guida ti mostrerà come aggiungere mark-up ai documenti già trascritti in Transkribus. Questo ti dà la possibilità di definire persone, luoghi e abbreviazioni. Puoi aggiungere categorie di tag personalizzate e cercare singoli tag nei tuoi documenti. Inoltre i tag possono essere esportati in diversi formati. Maggiori informazioni sull'esportazione dei tag possono essere trovate nella sezione Come esportare documenti da Transkribus.

Introduzione

L'interfaccia di tagging in Transkribus permette di

  • assegnare dei tag a parole o frasi importanti nel tuo documento.
  • Cerca singoli tag o categorie di tag.
  • Esporta i tag che hai aggiunto in diversi formati di file in modo che tu possa continuare a lavorare con questi anche al di fuori di Transkribus.

Interfaccia dei tag

  • L'interfaccia dei tag si trova cliccando sulla scheda "Metadata" e poi sulla scheda "Textual".

Figura 1 La scheda "Textual

  • Se metti un segno di spunta a "Show all" in fondo alla scheda "Textual", verranno mostrati tutti i tag predefiniti. Puoi iniziare subito a lavorare con questi.

Figura 2 Mostra tutti i tag predefiniti

Figura 3 Tag predefiniti in Transkribus

Crea i tuoi tag

  • Per personalizzare le tue categorie di tag, clicca sul pulsante "Customize" nella scheda "Tag". Si aprirà la finestra "Tag configuration".

Figura 4 Creare i propri tag

  • Con il pulsante "Create new tag" puoi aggiungere i tuoi tag.
  • Una volta che hai creato un nuovo tag, apparirà quando cliccherai su "Show all".
  • Nella finestra "Tag configuration" i tag predefiniti sono mostrati in corsivo, quelli personalizzati sono mostrati senza corsivo.

Aggiunta di tag

  • Se vuoi etichettare una parola o una frase ci sono tre modi (almeno) per farlo:
    • Evidenzia il testo nel campo del Text Editor e poi clicca sul pulsante verde "+" del tag che vuoi applicare.

Figura 5 Evidenziare la parola da etichettare

Figura 6 Scegliere il tag giusto

  • In alternativa, si può evidenziare la parola o la frase e poi fare un clic destro con il mouse. Sotto "All tags" si può poi scegliere quello adatto.

Figura 7 Etichettare una parola o una frase con il tasto destro del mouse

  • Infine, se ci sono categorie di tag che usi frequentemente, puoi creare un collegamento per loro al fine di accelerare il tuo lavoro. Per farlo, all'interno della scheda "Textual", clicca sul pulsante "Customize" nella scheda "Tags". Nella sezione "Tag specifications" puoi ora aggiungere il tuo collegamento preferito nella colonna "Shortcut".

Figura 8 Aggiungere collegamenti per i tag usati di frequente

  • Puoi anche aggiungere un collegamento relativo alle proprietà dei tuoi tag, ad esempio per espandere i collegamenti o aggiungere un nome di paese standardizzato a un tag di luogo.
    • Fai clic sul pulsante "Customize" nella scheda "Tags".
    • Nella finestra "Tag configuration" clicca sul tag desiderato. I dettagli relativi a quel tag appariranno nella sezione "Properties".
    • Clicca su "Aggiungi proprietà" per aggiungere la proprietà che desideri.
    • Poi clicca su "Add tag specification".
    • Ora il tuo tag e la sua proprietà (per esempio un'espansione per un'abbreviazione) appariranno nella sezione "Tag specification" della finestra.
    • Aggiungi il collegamento che vorresti usare.
    • Ora puoi aggiungere il tag e la sua proprietà semplicemente evidenziando la parola o la frase nel campo dell'editor di testo e poi cliccare sul collegamento.

Figura 9 Come aggiungere un'abbreviazione fissa

  • Se hai etichettato qualcosa per errore, puoi annullarlo evidenziando di nuovo la parola o la frase, cliccando con il tasto destro del mouse e premendo il pulsante "Delete". Il programma ti darà due opzioni:
    • Elimina solo il tag evidenziato
    • Elimina tutti i tag per la collezione corrente
  • Nota: i tag possono essere applicati al testo a livello di regione, linea, parola o anche carattere. Per applicare i tag a un elemento di segmentazione, clicca su una regione di testo o di linea nel visualizzatore di immagini Canvas e segui le istruzioni di cui sopra.
  • Gli utenti possono applicare tutti i tag necessari al testo.
  • Nella scheda "Textual" Transkribus ti darà una panoramica dei tag che hai messo nel tuo documento.

Figura 10 Panoramica dei tag

Lettere storiche e segni di abbreviazione

  • Nei documenti moderni la gestione delle abbreviazioni è meno importante, ma nei documenti storici è un compito complesso e impegnativo.
  • Nei periodi precedenti le parole erano spesso pesantemente abbreviate, nella speranza di scrivere più velocemente o di risparmiare carta. In alcuni documenti più del 20 o 30% di tutte le parole sono abbreviate, come mostrato nella figura sottostante:

https://upload.wikimedia.org/wikipedia/commons/thumb/8/83/Latin-breve.svg/681px-Latin-breve.svg.png Figura 11 Esempi di abbreviazioni tipiche nei testi latini del Medioevo
(cfr. Wikipedia: https://en.wikipedia.org/wiki/Scribal_abbreviation)

  • Anche in questo caso ci sono due opzioni principali per trascrivere il testo abbreviato:
    • Opzione 1: Espandere le abbreviazioni nel solito modo. Le reti neurali sono spesso in grado di imparare a riconoscere e riprodurre le espansioni. Ad esempio, prefissi e suffissi latini come "cum", "con" o "us" e "orum" vengono appresi facilmente dalla macchina. Ciò significa che è sufficiente fornire una versione espansa del testo nella tua trascrizione.
    • Opzione 2: Attenersi alla regola di cui sopra, purché si possa riconoscere il carattere di base. trascrivere il carattere base. Questa regola è particolarmente utile per gli storici e alle persone interessate al "contenuto" di un documento e a coloro che vogliono fornire dati di addestramento per il motore HTR.
      • Nota: quando si tratta di addestramento HTR, i tag non sono ancora rilevanti. Gli sviluppi della tecnologia Named Entity Recognition dovrebbero rendere possibile in futuro il riconoscimento automatico dei tag.
    • Quindi la trascrizione corretta per gli esempi di cui sopra sarebbe semplice:
      • pdor - qq - cus - qr
      • Nota: In futuro i motori HTR potrebbero anche imparare a espandere automaticamente queste abbreviazioni (o a fornire l'abbreviazione corretta per un'espansione) in modo da supportare la trascrizione assistita dal computer.
    • Opzione 3: Se vi è anche interesse a usare i caratteri Unicode che sono simili ai grafemi speciali del documento originale, poi si può trascrivere il testo utilizzando tutta la potenza di Unicode.
    • In questo caso la trascrizione di cui sopra potrebbe presentarsi così:
      • pˀ: LETTERA MINUSCOLA LATINA P CHE COMBINA OGONEK SOPRA
      • ᵭ: LETTERA MINUSCOLA LATINA D CON TILDE CENTRALE
      • o: LETTERA MINUSCOLA LATINA O
      • : LETTERA MINUSCOLA LATINA RUM ROTUNDA. Anche LATIN SMALL LETTER R ROTUNDA può essere usato per rappresentare questa lettera.
    • Nota: Nei casi reali è spesso difficile decidere quale diacritico, lettera modificatrice o carattere Unicode possa essere quello giusto. Potete consultare il sito web della MUFI per avere maggiori informazioni su questo argomento (cfr. la sezione "Riferimenti"): http://folk.uib.no/hnooh/mufi/
    • Unicode e altri caratteri speciali possono essere trovati cliccando "Tastiere virtuali" nel menu dell'Editor di testo.

Figura 12 Pulsante delle tastiere "virtuali

Figura 13 Finestra "Tastiere virtuali

  • Naturalmente i modelli misti saranno spesso utili. Ad esempio, i caratteri storici che ricorrono frequentemente possono essere trascritti con la loro lettera Unicode corretta, mentre i caratteri che sono stati usati solo da uno scrittore specifico possono essere trascritti con il loro carattere base. Si dovrebbero notare tali decisioni editoriali nella sezione "Dichiarazione editoriale"nella scheda "Document", all'interno della scheda "Metadata" in modo che le tue regole di trascrizione siano trasparenti per gli altri utenti.
    • Esempio: LETTERA MINUSCOLA LATINA RUM ROTUNDA è usata regolarmente nei testi medievali e della prima età moderna. Quindi potrebbe essere utile introdurre questa lettera in un modello HTR che si occupa esclusivamente di documenti medievali ed è dedicato all'elaborazione di grandi quantità di tali documenti.

Testo illeggibile

  • Un testo che non può essere trascritto perché illeggibile può essere contrassegnato con i tag "poco chiaro" o "vuoto".
  • Se il testo non è chiaro, evidenzialo nel campo dell'editor di testo e etichettalo come "non chiaro".
  • Se il testo è impossibile da leggere, clicca il cursore dove il testo appare nel campo dell'editor di testo e aggiungi il tag "gap".
  • Puoi anche aggiungere alternative o suggerimenti per la parola illeggibile nella sezione "Properties" del tag.

Cancellazioni

  • Se scopri un testo cancellato, ci sono diverse opzioni:
    • Opzione 1: Il testo che viene cancellato è ancora leggibile, o almeno ci sono molte parti leggibili. In questo caso trascrivi il testo nel miglior modo possibile e segnalo come barrato. Puoi trovare il pulsante "strike through" nel menu dell'Editor di testo.

Figura 14 Pulsante per barrare

    • Nota: i motori HTR sono in grado di decifrare il testo barrato e più esempi hanno, meglio funziona.

Oscuramento del testo

  • Il tag "blackening" può essere usato per oscurare informazioni sensibili nei formati di esportazione. Tipicamente questo viene usato per nascondere i dati personali in un documento che viene reso pubblico.
  • Il tag di oscuramento è usato insieme alla regione "blackening" che deve essere aggiunta con gli strumenti di segmentazione.
  • Per oscurare una parte del testo:
    • Usa il menu a tendina sul pulsante "+..." dell'elemento di segmentazione nel menu "Canvas" e seleziona "Blackening". Usa la regione "Blackening" per marcare la parola o la sezione che vuoi nascondere.
    • Nota: fai clic sul pulsante "item visibility" nel menu principale e seleziona "Render blackenings" per visualizzare le sezioni oscurate su una pagina.
    • Evidenzia la parola corrispondente nel campo Text Editor e seleziona il tag "Blackening". Nell'esportazione del documento il testo sarà sostituito da: [...].
    • Quando esporti il tuo documento, assicurati che sia selezionato "Do blackening".
    • Nota: Nei file METS e TEI la parola o la frase viene oscurata, ma le informazioni dietro la sezione oscurata vengono mantenute. In altri formati di file, il testo dietro la sezione oscurata viene completamente nascosto.

Figura 15 Selezionare "Do blackening" per nascondere le regioni dell'immagine e il testo nei file esportati

Ricerca di tag

  • Se hai bisogno di cercare tag distinti, clicca sul pulsante binocolo nella scheda "Textual".

Figura 16 Pulsante binocolo per la ricerca di tag

  • Nella finestra che si aprirà puoi definire la tua ricerca
    • Scegli dove vuoi cercare (collezione corrente, pagina corrente...)
    • Livello di linea o di parola
    • Nel campo "Name" metti il nome del tag
    • Nel campo "Text" metti il testo scritto
    • Premi il pulsante "Search!
    • I risultati della ricerca appariranno nella parte inferiore della finestra.

Figura 17 Finestra "Search for..." per la ricerca di tag

  • Per aggiungere rapidamente un'espansione o un'altra proprietà a una parola che appare più volte nel testo:
    • Ordina i risultati della ricerca per "value". Questo si fa semplicemente cliccando su "value".
    • Segna le parole simili cliccandole mentre tieni premuto il tasto "Control" della tastiera.
    • Poi clicca sul pulsante "Assegna valori ai tag..." e digita la proprietà che deve essere aggiunta.

Figura 18 Accelerare il lavoro aggiungendo proprietà a più parole o frasi allo stesso tempo

Metadati

  • Attualmente stiamo supportando solo una descrizione molto semplice dei documenti, dato che assumiamo che in una Digital Edition la maggior parte dei metadati risiederebbe su un server esterno e sarebbe collegata al documento. Ogni documento ha il suo ID unico e vi si può accedere anche attraverso i servizi REST forniti dalla piattaforma Transkribus (https://transkribus.eu/wiki/).
  • I seguenti campi sono attualmente disponibili nella scheda "Document", all'interno della scheda "Metadata":
    • Titolo
    • Autore
    • Caricato
    • Genere
    • Scrittore
    • Lingua
    • Tipo di scrittura
    • Data di scrittura
    • Descrizione

Dichiarazione editoriale

  • Poiché ci sono sempre diversi modi per produrre una trascrizione corretta di un testo, è importante essere trasparenti sul modo in cui la trascrizione è stata effettuata.
  • A questo scopo abbiamo incluso una funzione speciale in Transkribus, chiamata "Dichiarazione Editoriale". Questa si trova nella scheda "Document", all'interno della scheda "Metadata".
  • Come per il sistema di tagging, la "Dichiarazione Editoriale" offre una serie di funzioni e opzioni predefinite. Inoltre sei in grado di creare le tue descrizioni individuali e di memorizzarle insieme al tuo documento.
  • È particolarmente importante elencare i caratteri speciali e il loro uso nella Dichiarazione Editoriale utilizzando il modulo:
    • Estensione del set di caratteri: LETTERA MINUSCOLA LATINA S LUNGA (U+017F)

Figura 19 Creare la tua dichiarazione editoriale

Credits

Vorremmo ringraziare i molti utenti che con il loro feedback hanno contribuito a migliorare il software Transkribus.