Come trascrivere documenti con Transkribus - Introduzione

Come trascrivere documenti con Transkribus - Introduzione

Panoramica di base
Transkribus Expert Client
Ultimo aggiornamento 1 mese fa
Informazioni su Transkribus

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Sommario

Sommario

Questa guida spiega come trascrivere documenti con Transkribus

  • Per l'addestramento della tecnologia di riconoscimento del testo scritto a mano
  • Per le edizioni accademiche

Se volete avere una panoramica più generale, date un'occhiata al nostro Guida in 10 passi.

Transkribus è una piattaforma per il riconoscimento automatico, la trascrizione e la ricerca di documenti storici, utilizzando la tecnologia Handwritten Text Recognition (HTR+).

Le trascrizioni generate con Transkribus possono essere:

  • Utilizzato per addestrare una rete neurale ("modello") in grado di riconoscere automaticamente i documenti stampati o scritti a mano
  • Arricchito e marcato per servire come base per le edizioni digitali dei documenti.

Questa introduzione vi permette di creare rapidamente dei dati di allenamento per il riconoscimento automatico dei vostri documenti specifici o di creare una trascrizione per un'edizione accademica.

Se avete già a disposizione dei documenti trascritti e volete usarli come dati di allenamento per HTR, consultate il nostro Come usare le trascrizioni esistenti guida.

Introduzione

Questa guida spiega il processo di trascrizione dei documenti in Transkribus.

Queste trascrizioni possono essere utilizzate:

  • Come dati di allenamento per un riconoscimento del testo scritto a mano (HTR+) che è in grado di trascrivere automaticamente i vostri documenti.
  • Come base per un edizione digitale accademica.

C'è un semplice processo in tre fasi per trascrivere un documento in Transkribus:

Passo 1: Caricamento

  • Carica i tuoi documenti sulla piattaforma Transkribus

Passo 2: Segmentazione

  • Esegui lo strumento di segmentazione automatica per creare linee di base per il tuo documento.

Passo 3: Trascrizione

  • Trascrivi il testo nelle linee segmentate.

Questa forma di trascrizione semplice è sufficiente per allenare la tecnologia HTR. Nota: HTR può lavorare sia su documenti scritti a mano che stampati. L'efficienza di un modello dipenderà dalla qualità del materiale di allenamento (la tua trascrizione manuale), dalla qualità delle immagini e da quanto è ordinata o disordinata la scrittura.

Ci sono anche opzioni avanzate di trascrizione per coloro che lavorano su edizioni accademiche. È possibile regolare l'ordine di lettura del testo, utilizzare caratteri storici, aggiungere tag e metadati, espandere le abbreviazioni e altro ancora.

Carica i documenti su Transkribus

  • Per poter eseguire gli strumenti necessari sui tuoi documenti, questi devono risiedere sul server di Transkribus. Questo significa che bisogno di caricare a Transkribus.
    • Nota: Tutte le collezioni e i documenti in Transkribus sono privati. Solo gli utenti autorizzati da te possono vedere i tuoi documenti. Non sono resi disponibili al pubblico.
  • Per caricare clicca sul pulsante "Import Documents" nel menu principale.

Figurarsie 1 Ucaricare i file nella tua collezione personale

Figura 2 Seleziona "Carica documento singolo" per documenti fino a 500 MB

  • Hai quattro opzioni per caricare i documenti:
    • Carica un singolo documento da una cartella locale:
      • Questa opzione permette di caricare documenti fino a 500 MB
      • Per scegliere questa opzione scegliete "Carica documento singolo".
      • Fai in modo che i file da caricare risiedano in una cartella extra. Quando scegliete i file per il caricamento non sarete in grado di vedere i file nella cartella. Questo è normale in questo caso. Basta segnare la cartella e confermare con "OK".
    • Caricare via FTP
      • Questo è adatto se vuoi caricare diversi documenti di grandi dimensioni
      • Puoi caricare file di immagini, così come documenti PDF con questa opzione
      • Assicurati che i file PDF non siano all'interno di una cartella quando usi l'FTP-upload
    • Carica tramite URL di DFG Viewer METS
      • Questo ti permette di caricare documenti direttamente dai repository che supportano il DFG (Deutsche Forschungsgemeinschaft - Fondi scientifici tedeschi) Viewer
    • Estrarre e caricare immagini da PDF
      • Questa opzione è adatta alle immagini che vuoi caricare e che si trovano in un documento PDF.
      • Se questi documenti PDF sono di grandi dimensioni, si prega di utilizzare l'FTP-upload.
      • Inoltre, se hai immagini JP2000 nei tuoi PDF, ha senso scegliere l'opzione FTP.

 

  • Aggiungere pagine a un documento già esistente in Transkribus:
    • Caricate il documento a cui volete aggiungere pagine in Transkribus
    • Aprire la gestione dei documenti
    • Seleziona nuovamente il documento cliccando sul suo nome nella finestra "Document Manager".
    • Clicca sull'icona del cerchio verde accanto a "Aggiungi nuova pagina(e)".
    • Cercare e aggiungere le nuove pagine attraverso la directory
  • Elimina i documenti dalla tua collezione:
    • Seleziona il documento nella panoramica della collezione nella scheda "Server
    • Clicca sull'icona della cartella con il piccolo cerchio rosso "Elimina i documenti selezionati da Transkribus".
    • Il documento o i documenti cancellati resteranno nel cestino (icona "contiene documenti cancellati") per due settimane. Se hai cancellato un documento per errore puoi contattarci (info@readcoop.eu) e saremo in grado di riattivare il documento entro queste due settimane. Dopodiché il documento sarà cancellato definitivamente.

Segmentazione - Analisi del layout

  • Una volta che hai caricato i tuoi documenti su Transkribus, sei pronto per iniziare la segmentazione.
  • Per trascrivere i documenti in Transkribus, essi devono essere segmentati in regioni di testo, linee e linee di base.
  • Affinché l'HTR funzioni, il testo e immagine devono essere collegati.
  • Tutti gli elementi segmentati, come spazio di stampa, regione di testo, regione di linea o linea di base sono memorizzati nel file PAGE con le loro coordinate.

Visualizzazione dei profili

  • I profili di visualizzazione sono disponibili per aiutarvi nei compiti di segmentazione e trascrizione.
  • È possibile selezionare tra la visualizzazione dei profili per "Segmentazione" e "Trascrizione"cliccando sul pulsante "Profili" nel menu principale.
  • Il profilo "Segmentazione" significa che le linee di base sono visualizzate in rosso, rendendo più facile individuare eventuali errori derivanti dal processo di segmentazione automatica.
  • Il profilo "Trascrizione" significa che il campo Editor di testo sarà visualizzato, permettendoti di trascrivere il tuo documento.
  • Naturalmente si può semplicemente usare il profilo "predefinito" per eseguire entrambi i compiti.

Figura 3 Visualizzazione dei profili per i compiti di segmentazione e trascrizione

Rileva automaticamente regioni di testo, linee e linee di base

  • Seleziona il profilo di visualizzazione "Segmentazione" dal menu principale.
  • Seleziona la scheda "Strumenti" sul lato sinistro dello schermo e vai alla sezione "Analisi del layout".
  • Sotto "Metodo:" selezionate "CITlab Advanced" (già preselezionato).
  • Seleziona se vuoi eseguire l'analisi del layout solo per la pagina corrente, per pagine distinte o per l'intero documento.
  • Assicurati che sia selezionato "Trova regioni di testo".
  • Fare clic sul pulsante "Esegui".

Figura 4 Eseguire la segmentazione automatica nella scheda "Strumenti

  • Se vuoi disegnare le regioni di testo a mano e poi cercare le linee di base in queste regioni, deseleziona l'opzione "Trova regioni di testo" prima di iniziare l'analisi del layout. Come disegnare le regioni di testo è spiegato più avanti nel testo.

Correggere i risultati della segmentazione automatica

  • NotaSe si sta addestrando un modello HTR, la posizione delle regioni di testo non ha bisogno di essere completamente esatta e l'ordine di lettura del testo non è rilevante.
  • Se stai lavorando a un'edizione accademica in cui è richiesto un grado di precisione maggiore, è possibile correggere manualmente il testo come negli esempi qui sotto.
  • Tutti gli strumenti per le correzioni sull'analisi del layout si trovano nel menu "Tela" a sinistra dell'immagine. Puoi controllare la loro funzionalità passando il mouse sull'icona.

Una linea è stata dimenticata o aggiunta per errore

Figura 5 Aggiungere una linea a una regione di testo esistente

  • Nell'esempio qui sopra la prima riga è stata saltata dal programma. Se vuoi aggiungerla alla regione di testo esistente:
    • Clicca all'interno della regione in modo che sia evidenziata.
    • Trascinate il bordo della regione di testo come necessario.

Una nota marginale deve essere divisa in una regione di testo separata

Figura 6 Dividere una regione di testo

  • Se avete bisogno di dividere una regione in due, potete farlo con i pulsanti nel menu Canvas.
  • Come mostrato nella Figura 6, il "pulsante H" divide una regione di testo orizzontalmente.
  • Il pulsante "V" divide verticalmente una regione di testo.
  • Il "pulsante L" permette di dividere una regione di testo con una linea personalizzabile.

Rimuovere una regione che non è necessaria

Figura 7 Rimuovi regione

    • Nell'esempio qui sopra due regioni si sovrappongono, quindi una può essere cancellata.
    • Clicca sulla regione di testo che vuoi cancellare e clicca sul pulsante rosso "Remove a shape".

Unire due regioni

  • A volte il programma crea due regioni di testo dove solo una è necessaria. In questo caso potete facilmente unire le due insieme.
    • Tieni premuto il tasto "CTRL" sulla tua tastiera e clicca su entrambe le regioni di testo.
    • Fai clic sul pulsante "Unisce le forme selezionate" nel menu Tela.

Figura 8 Unisci due regioni di testo

Linee di base corrette

  • Naturalmente è anche possibile correggere le linee di base nel vostro documento.
  • Come per le regioni di testo, clicca su una linea di base e puoi trascinare le parti della linea, dividere una linea in due o unire due linee insieme.
  • Puoi anche cancellare una linea di base e disegnarne una nuova da zero. Clicca il pulsante "+BL" nel menu della Tela. Clicca una volta per iniziare a disegnare la linea di base e fai doppio clic per finire la linea.
  • Nota: gli Baseline sono più importanti per HTR; le regioni di linea non hanno bisogno di essere corrette.

Trascrizione semplice - per la formazione HTR

  • Seleziona il profilo di visualizzazione "Trascrizione" dal menu principale.
  • Vedrai il campo dell'editor di testo sotto l'immagine: Per ogni linea/linea nell'immagine troverete una linea corrispondente nell'editor di testo. L'immagine e il testo sono collegati in questo modo.

Figura 9 Trascrivi il tuo documento

  • Trascrivete il testo secondo la lingua del vostro documento di origine. Usa i caratteri della tua tastiera.
  • Puoi avere più di una persona che lavora su un documento, ma non dovrebbero lavorare sulla stessa pagina simultaneamente. Puoi permettere agli altri utenti di Transkribus di vedere i tuoi documenti cliccando sul pulsante "User Manager" nella scheda "Server".

Addestrare un modello HTR

  • Se volete addestrare un modello HTR per riconoscere i vostri documenti, questa semplice trascrizione è sufficiente.
  • Raccomandiamo di iniziare il processo di addestramento con tra le 5.000 e le 15.000 parole (circa 25-75 pagine) di materiale trascritto. Se stai lavorando con un testo stampato piuttosto che scritto a mano, di solito è necessaria una quantità minore di dati di allenamento.
  • Utilizzando anche un modello base può ridurre il materiale di allenamento richiesto. Come modello di base puoi usare uno dei modelli pubblicamente disponibili in Transkribus (assicurati che la scrittura sia almeno simile a quella dei tuoi documenti [ad esempio di una data simile, la stessa lingua e/o stile]) o uno dei tuoi modelli precedentemente addestrati - purché sia abbastanza buono da servire come modello di base.

Trascrizione avanzata - per un'edizione accademica

Ordine di lettura

  • Una volta che un documento è stato segmentato in regioni di testo, linee e linee di base, potrebbe essere necessario pensare all'ordine di lettura del testo (questo non è rilevante se la trascrizione deve servire solo come materiale di allenamento).
  • Molti documenti scritti a mano includono correzioni e aggiunte aggiunto dall'autore o da qualcun altro.
  • In un'edizione accademica si vuole mantenere l'ordine di lettura e forse anche esprimere il fatto che questo testo è stato un'aggiunta.
  • A questo scopo tutti gli elementi di segmentazione possono essere ordinati secondo un ordine definito dall'utente.
  • L'ordine di lettura predefinito segue il topologia del testo o delle regioni di linea. Tutte le forme sono ordinate secondo le coordinate dell'angolo superiore sinistro di una regione di testo o di linea.

Figura 10 Ordine di lettura delle regioni di testo - i numeri possono essere riordinati

  • Questo ordine di lettura meccanica può essere cambiato:
    • Cliccate sul pulsante "Visibilità degli elementi" nel menu principale, e potete quindi scegliere di mostrare l'ordine di lettura di regioni di testo, linee, linee di base (o parole).

Figura 11 Il pulsante "visibilità degli elementi" visualizza l'ordine logico degli elementi di segmentazione

    • Una volta che hai scelto di mostrare l'ordine di lettura delle regioni di testo o delle linee, i numeri saranno visualizzati sull'immagine del tuo documento.
    • Cliccando su uno dei numeri che segnano l'ordine di lettura, è possibile digitare un nuovo numero e cambiare l'ordine di lettura di conseguenza. Lo stesso può essere fatto spostando gli elementi di segmentazione nella scheda "Layout".

Figura 12 Modifica l'ordine di lettura cliccando sulla cifra e inserendo un nuovo numero

  • Nei casi in cui l'ordine di lettura di una pagina è completamente errato, è possibile riordinare il testo
    • Rendere visibile l'ordine di lettura delle linee come descritto sopra
    • Clicca sulla scheda "Layout" sul lato sinistro dello schermo
    • Seleziona la pagina o la regione di testo che vuoi riordinare
    • Fare clic sul pulsante "R".
    • L'ordine di lettura sarà riordinato secondo le coordinate dell'angolo superiore sinistro di una regione di testo o di linea. Dopo di che, le linee dovrebbero essere nell'ordine giusto.
    • Ci possono essere problemi con l'ordine di lettura delle colonne dei giornali e documenti simili. Per esempio, il programma assegna un ordine di lettura basato sulla disposizione orizzontale delle linee su una pagina, piuttosto che mettere le linee in ordine per colonna. Per risolvere questo problema, usa il pulsante "V" nel menu Canvas per dividere la regione di testo sulla pagina in regioni separate per ogni colonna. Una volta che c'è una regione di testo separata per ogni colonna, l'ordine di lettura dovrebbe aggiornarsi automaticamente ed essere corretto.

Figura 13 Impostare l'ordine di lettura secondo le coordinate

Ordine di lettura: Aggiunte interlineari

  • Le aggiunte di interlinea sono un modo frequente in cui il testo viene aggiunto a un documento.
  • Per generare il corretto ordine di lettura, i seguenti passi devono essere eseguiti manualmente:
    • Fare clic sul pulsante "Visibilità dell'elemento" nel menu principale
    • Seleziona "Mostra l'ordine di lettura delle linee".

Figura 14 Fai clic sul pulsante "Shape Visibility", quindi scegli di mostrare le linee di base e l'ordine di lettura delle linee.

    • Seleziona la linea di base sotto l'aggiunta (se l'aggiunta è sopra la linea).
    • Dividere la regione della linea con il pulsante "V" nel menu Canvas esattamente dove l'aggiunta dovrebbe essere logicamente posizionata

Figura 15 Applicare il pulsante "V" per dividere la regione della linea

  • Modifica l'ordine di lettura in modo che sia corretto. Clicca sul numero associato ad ogni regione di linea e poi digita quello corretto.

Figura 16 Aggiungere l'ordine di lettura corretto: 4 (=prima parte della linea)
diventa 3, 3 (=addizione della linea) diventa 4 e 5 (seconda parte della linea) rimane come 5.

Figura 17 Ordine di lettura corretto dopo la modifica manuale

Ordine di lettura: Aggiunte come note extra

  • Aggiunte che appaiono come note extra (per esempio ai margini di una pagina) dovrebbero essere gestiti in modo simile alle aggiunte interlinea.
    • Nota: Spesso queste note extra (o marginalia) non fanno parte dell'ordine di lettura ma sono "commenti" e come tali sono su un livello diverso dall'ordine di lettura primario.
    • Sarà quindi sufficiente marcarli come "marginalia" nella scheda Metadata. Le istruzioni sulla marcatura del testo si trovano nella sezione Come arricchire i documenti trascritti con mark-up guida.
  • Ma se la nota extra è davvero un'aggiunta al testo corrente e deve essere aggiunta nell'ordine di lettura, allora può essere fatta nei seguenti modi:
    • Opzione 1: La regione di testo può essere espansa in modo che tutte le linee di base dell'aggiunta facciano anche parte della rispettiva regione di testo.
      • Nota: potete usare sia regioni di testo piuttosto grandi, sia regioni di testo poligonali. A questo scopo seleziona il pulsante "Aggiungi punto alla forma selezionata" dal menu Tela.

Figura 18 Aggiungi un punto alla forma selezionata

      • Seguendo il movimento del vostro puntatore del mouse potete aggiungere punti alla regione di testo originale ed espandere la forma in modo che includa anche l'aggiunta.
      • In seguito, le linee/basi aggiuntive possono essere rinumerate secondo il loro corretto ordine di lettura.
    • Opzione 2: Potete generare una sola grande regione di testo per tutta la pagina e fare la segmentazione delle linee/linee manualmente nell'ordine corretto. In questo modo otterrai l'ordine di lettura corretto fin dall'inizio.
      • Nota: questa può essere l'opzione migliore se avete a che fare con un documento che ha un layout sofisticato con molte aggiunte, note e cancellazioni.
    • Opzione 3: Puoi collegare la regione di testo extra che contiene l'aggiunta alla linea a cui appartiene l'aggiunta. Per farlo, seleziona entrambe le regioni di testo e poi clicca sul pulsante "Collega due forme" nella scheda "Strutturale", all'interno della scheda "Metadati".
      • Nota: il collegamento sarà parte del file XML ma non è attualmente supportato nei formati di esportazione.

Figura 19 Collegare due forme

Trascrizione e tastiere virtuali

Figura 20 Tastiera virtuale

  • Una trascrizione che servirà come la base per un'edizione accademica dovrebbe rendere più dati espliciti all'utente e offrire più dati contestuali che una semplice trascrizione. In questo caso non solo leggibilità della macchina (cioè i dati di allenamento per il motore HTR) ma anche leggibilità umana del testo avrà un ruolo importante.
  • Si possono aggiungere caratteri speciali e simboli Unicode usando il tasto "Tastiere virtuali"nel campo dell'editor di testo.
  • Con il pulsante "Modifica..." è possibile aggiungere scorciatoie per i caratteri usati frequentemente e aggiungere nuovi caratteri Unicode.
  • Per creare una scorciatoia, basta scriverla nella colonna "Shortcut".
  • Per aggiungere nuovi caratteri Unicode, si usa il pulsante verde più.
  • Nell'editor di testo potete usare "Backspace" per spostare il testo di una riga verso l'alto e "Ctrl" + "Return" per spostare il testo di una riga verso il basso.

Figura 21 Aggiungere caratteri Unicode e scorciatoie

Diacritici e legature

  • La trascrizione corretta dei diacritici e delle legature richiede una certa esperienza. Ci sono due opzioni principali per gestire la corretta trascrizione di questi caratteri:
  • Opzione 1: Leggera normalizzazione secondo il dizionario
    • La regola principale da applicare qui è la seguente: Finché si può vedere chiaramente il carattere base di un glifo e finché il carattere base è anche quello usato nel dizionario per esprimere questo glifo, attenersi al carattere base.
    • Esempio 1: La LETTERA PICCOLA LATINA Y apparirà in molti documenti con un segno diacritico supplementare, che indica la storia di questo carattere proveniente da ii o ij. Perciò si trovano due punti o qualcosa di simile sopra la "y".

Figura 22 Scrittura tedesca corrente: "bey". Nota: y è scritto come LATIN SMALL LETTER Y poiché il carattere base è ancora chiaramente visibile

    • Nelle trascrizioni semplici lo trascriverete come LATIN SMALL LETTER Y poiché il carattere di base è chiaramente visibile.
    • Esempio 2: La LETTERA PICCOLA LATINA S è espressa con due grafemi nella maggior parte delle scritture storiche europee. Troviamo quindi una chiara distinzione tra LATIN SMALL LETTER S e LATIN SMALL LETTER LONG S.

Figura 23 "Thatbestand." vs. "Revisionsgerichts": LETTERA PICCOLA LATINA S lunga vs. LETTERA PICCOLA LATINA S

    • Ma anche se c'è una chiara distinzione, una semplice trascrizione userebbe la S minuscola latina in entrambi i casi.
  • Opzione 2: Paleografico Trascrizione
    • I filologi o paleografi non sono solo interessati alla trascrizione corretta, ma anche all'aspetto storico e allo sviluppo dei grafemi. Quindi potrebbe anche essere interessante trascrivere gli esempi di cui sopra con il pieno supporto del set di caratteri Unicode o anche utilizzando l'area privata di Unicode.

Figura 24 Trascrizione paleografica: Thatbeſtand vs. Kammergerichts

    • Nota: Tenete conto che questo è un importante decisione e influenzerà la fruibilità del testo in molti modi. Se si decide di optare per una trascrizione paleografica, questo comporterà molto più lavoro che con una trascrizione leggermente normalizzata.
  • Nota: In testi stampati (che può anche essere trascritto in Transkribus) il trascrizione di legature può giocare un ruolo. Anche in questo caso si può applicare la stessa regola: Sebbene specifiche combinazioni di lettere, come "ft", siano espresse con un grafema specifico dove due grafemi sono abbinati insieme, e sebbene tali legature possano anche essere espresse con specifiche lettere Unicode, si raccomanda di trascriverle secondo il dizionario.

Segni di punteggiatura

  • I segni di punteggiatura sono trascritti allo stesso modo dei caratteri. Usa il carattere appropriato sulla tua tastiera e non normalizzare o aggiungere segni di punteggiatura. I tipici segni di punteggiatura sono:
    • caratteri moderni come punto, virgola, punto e virgola, due punti: ".", ",", ";":"
    • personaggi storici come virgule (slash), o riempitivi di linee, ecc.
    • Nota: i due punti nei testi storici sono spesso usati per contrassegnare parole abbreviate. Questi dovrebbero essere trascritti come due punti.
  • In contrasto con molte regole di trascrizione in cui i segni di punteggiatura sono aggiunti e omessi secondo una comprensione moderna, noi raccomandiamo di mantenere i segni di punteggiatura originali.
  • Se vuoi aggiungere segni di punteggiatura che non appaiono nel documento originale puoi usare il tag "fornito" nella scheda "Tagging", all'interno della scheda "Metadata" per indicare che il segno di punteggiatura è stato aggiunto da te.

Riferimenti

Per avere una panoramica sugli script di Unicode: http://www.unicode.org/charts/

Per le trascrizioni storiche sono interessanti le seguenti estensioni:

Latino esteso-B: http://www.unicode.org/charts/PDF/U0180.pdf

  • Contiene ad esempio:
    • Latino non europeo e storico
    • Lettere fonetiche e storiche
    • Aggiunte per sloveno e croato
    • ecc.

Latino esteso-C: http://www.unicode.org/charts/PDF/U2C60.pdf

  • Contiene ad esempio:
    • Aggiunte latine ortografiche
    • ecc.

Latino esteso-D: http://www.unicode.org/charts/PDF/UA720.pdf

  • Contiene ad esempio:
    • Aggiunte medievali
    • Lettere insulari e celtiche
    • Lettere epigrafiche romane antiche
    • ecc.

MUFI (Medieval Unicode Font Initiative)

Credits

Vorremmo ringraziare i molti utenti che con il loro feedback hanno contribuito a migliorare il software Transkribus.