Questa guida spiega come trascrivere i documenti con Transkribus per creare dati di addestramento per il riconoscimento automatico di documenti specifici o per creare una trascrizione per un'edizione scientifica.
Se desideri consultare una panoramica più generale, dai un'occhiata alla nostra Guida in 10 passi.
Transkribus è una piattaforma per il riconoscimento, la trascrizione e la ricerca automatizzati di documenti storici che utilizza la tecnologia HTR (Handwritten Text Recognition).
È possibile utilizzare le trascrizioni generate con Transkribus:
- Utilizzato per addestrare un Riconoscimento del testo scritto a mano (HTR) modello, in grado di riconoscere automaticamente documenti stampati o scritti a mano;
- Come base per le edizioni scientifiche digitali.
Se hai già a disposizione dei documenti trascritti e vuoi usarli come dati di allenamento per HTR, consulta la nostra guida Come usare le trascrizioni esistenti .
Introduzione
C'è un semplice processo in tre fasi per trascrivere un documento in Transkribus:
- Caricamento: caricare i documenti sulla piattaforma Transkribus;
- Segmentazione: eseguire lo strumento di segmentazione automatica per creare linee di base per il documento;
- Trascrizione: trascrivere il testo nelle righe segmentate.
Questa forma di trascrizione semplice è sufficiente per addestrare la tecnologia Handwritten Text Recognition (HTR). Si noti che HTR può funzionare sia su documenti scritti a mano che su documenti stampati. L'efficienza di un modello dipende dalla qualità del materiale di addestramento (la vostra trascrizione manuale), dalla qualità delle immagini e dal grado di pulizia o disordine della scrittura.
Ci sono anche opzioni avanzate di trascrizione per coloro che lavorano su edizioni accademiche. È possibile regolare l'ordine di lettura del testo, utilizzare caratteri storici, aggiungere tag e metadati, espandere le abbreviazioni e altro ancora.
1. Caricare i documenti su Transkribus
Per poter eseguire gli strumenti necessari sui vostri documenti, questi devono risiedere sul server Transkribus. Ciò significa che c'è bisogno di caricare i file su Transkribus.
Tutte le collezioni e i documenti in Transkribus sono privati. Solo gli utenti da te autorizzati possono vedere i tuoi documenti. Non sono resi disponibili al pubblico.
Per caricarli clicca sul pulsante "Import Documents" nel menu principale.
Sono disponibili cinque opzioni per caricare i documenti:
- Caricare un singolo documento da una cartella locale:
Questa opzione consente di caricare documenti fino a 500 MB. Per scegliere questa opzione, selezionare "Carica documento singolo". Assicurarsi che i file da caricare si trovino in una cartella aggiuntiva. Quando si scelgono i file per il caricamento, non sarà possibile vedere i file nella cartella. Questo è normale in questo caso. Contrassegnare la cartella e confermare con "OK". - Caricare via FTP:
Questa opzione è adatta se si desidera caricare diversi documenti di grandi dimensioni. Con questa opzione è possibile caricare file immagine e documenti PDF. Quando si utilizza il caricamento FTP, assicurarsi che i file PDF non siano all'interno di una cartella. - Caricamento tramite URL del visualizzatore DFG METS:
Questo consente di caricare i documenti direttamente dagli archivi che supportano il visualizzatore DFG (Deutsche Forschungsgemeinschaft - Fondi scientifici tedeschi). - Caricare tramite l'URL del manifesto IIIF:
Inserisci l'URL del manifesto IIIF nell'apposito campo e clicca su "Upload". - Estrazione e caricamento di immagini da PDF:
Questa opzione è adatta alle immagini che si desidera caricare e che si trovano in un documento PDF. Se i documenti PDF sono di grandi dimensioni, utilizzare l'opzione FTP-upload. Inoltre, se nei PDF sono presenti immagini JP2000, è opportuno scegliere l'opzione FTP.
Per aggiungere pagine a un documento già esistente in Transribus: caricare il documento a cui si desidera aggiungere pagine in Transkribus. Aprire il Gestore documenti e selezionare nuovamente il documento facendo clic sul suo nome nella finestra "Gestione documenti". Fare clic sull'icona del cerchio verde accanto a "Aggiungi nuove pagine" e cercare e aggiungere le nuove pagine attraverso la directory.
Per eliminare i documenti dalla raccolta: seleggere il documento nella panoramica della raccolta all'interno della scheda "Server". Cliccate sull'icona della cartella con il piccolo cerchio rosso "Cancella i documenti selezionati da Transkribus". I documenti eliminati resteranno nel cestino (icona "contiene documenti eliminati") per due settimane. Se avete cancellato un documento per errore, potete contattarci (info@readcoop.eu) e saremo in grado di riattivare il documento entro queste due settimane. Dopodiché il documento sarà definitivamente cancellato.
2. Segmentazione - Analisi del layout
Una volta che hai caricato i tuoi documenti su Transkribus, sei pronto per iniziare la segmentazione. Per poter trascrivere i documenti in Transkribus, è necessario segmentarli in regioni di testo e linee di base, e fo l'HTR per funzionare, il testo e l'immagine devono essere collegati.
Tutti gli elementi segmentati, come ad esempio lo spazio di stampa, regione di testo, regione di linea o linea di base, sono memorizzati nel file PAGE con le loro coordinate.
Visualizzazione dei profili
I profili di visualizzazione sono disponibili per aiutarti nei compiti di segmentazione e trascrizione. È possibile selezionare tra la visualizzazione dei profili per "Segmentazione" e "Trascrizione"cliccando sul pulsante "Profiles" nel menu principale.
Il profilo "Segmentazione" significa che le linee di base sono visualizzate in rosso, rendendo più facile individuare eventuali errori derivanti dal processo di segmentazione automatica.
Il profilo "Trascrizione" significa che il campo Editor di testo sarà visualizzato, permettendoti di trascrivere il tuo documento. Naturalmente si può semplicemente usare il profilo "predefinito" per eseguire entrambi i compiti.
Rileva automaticamente regioni di testo, linee e linee di base
Per eseguire automaticamente l'analisi del layout, accedere alla sezione La scheda "Strumenti" nella barra Gestione e strumenti (sul lato sinistro dello schermo). La sezione che ci interessa è denominata "Analisi del layout".
In "Metodo" è possibile scegliere il metodo di rilevamento della linea di base. "Transkribus LA" è selezionato per impostazione predefinita e funziona bene con la maggior parte dei layout. È possibile applicare l'impostazione predefinita o fare clic su "Configura" e modificare le impostazioni di configurazione.
Nella finestra Configurazione dell'analisi del layout, le impostazioni che si possono configurare sono:
- Modello: lasciare il modello "Preset" se non si è addestrato un modello di base specifico sul layout dei documenti.
Il modello Transkribus LA preimpostato funziona bene per la maggior parte delle tipologie di documenti. Solo se i vostri documenti hanno un layout complesso e il modello preimpostato non è soddisfacente, potete addestrare un modello Baselines specifico per la vostra tipologia di documento, come spiegato qui.
- Lunghezza minima della linea di baseindica la lunghezza minima delle linee di base in pixel. Le Baseline più corte di questa lunghezza non verranno rilevate.
- Soglia di precisione BaselineNella prima fase dell'analisi del layout, ogni pixel viene etichettato come linea di base, separatore o altro. La soglia di precisione della linea di base si applica all'etichettatura della linea di base in questa fase. È compresa tra 0 e 255 e i valori più alti implicano una maggiore accuratezza delle linee di base rilevate.
Se si dispone di immagini a bassa risoluzione e non vengono rilevate linee di base o solo alcune, provare a ridurre il valore. Tenere presente, tuttavia, che i risultati possono diventare rumorosi con soglie più basse.
- Soglia del separatoreI separatori sono piccole linee verticali tracciate accanto a ogni linea di base; segnano l'inizio e la fine di ogni linea di base (non vanno confusi con i separatori veri e propri nelle immagini dei documenti stampati). Come per la soglia di accuratezza della linea di base, la soglia dei separatori si riferisce alla prima fase, quando i pixel vengono etichettati.
La soglia dei separatori è compresa tra 0 e 255: 0 significa che i separatori non vengono utilizzati affatto; con un valore più alto, i separatori vengono utilizzati e quindi le linee di base vicine tendono a non essere unite.
Di solito, i valori bassi sono sufficienti per evitare un collegamento tra linee di base vicine. Usare, ad esempio, 1 per usare le informazioni di separazione "qualche volta" e valori più grandi per usarle quasi sempre, ad esempio quando le righe di testo sono vicine ma devono essere separate perché appartengono a colonne diverse.
- Max-dist per la fusioneNella seconda fase, l'algoritmo cerca di unire le linee di base vicine, ma solo quando la loro distanza è inferiore al valore impostato. Il valore non è misurato in pixel, ma è una frazione della larghezza dell'immagine. Per impostazione predefinita, è impostato su 0,01: quando due linee di base sono più vicine della frazione di 0,01 della larghezza dell'immagine, vengono unite; se sono più distanti di questo valore, non vengono unite. In base al layout e alla larghezza dell'immagine, è possibile aumentare il valore della frazione per unire linee più distanti o ridurlo per evitare che le linee di base vicine vengano unite.
- Max-dist per il clusteringQuesto valore si riferisce alla creazione della regione di testo: dopo aver rilevato le linee di base, queste vengono raggruppate in regioni di testo in base alla loro distanza. La distanza massima per il raggruppamento è una frazione della larghezza dell'immagine: le linee di base più vicine di questa frazione vengono raggruppate in una regione di testo.
Se con le impostazioni predefinite vengono create troppe regioni di testo, si può provare ad aumentare il valore in modo da raggruppare più linee di base. Se è impostato su -1, non verrà eseguito alcun raggruppamento di regioni e verrà prodotta una sola regione di testo come rettangolo di selezione di tutte le linee.
Per ulteriori informazioni sull'algoritmo e sull'impostazione di Transkribus LA, consultare questa pagina.
Per avviare l'analisi automatica del layout, selezionare se si desidera elaborare solo la pagina corrente, pagine distinte o l'intero documento. Assicuratevi che "Trova regioni di testo" sia selezionato e cpremere il pulsante "Esegui".
Se si desidera disegnare le regioni di testo a mano e poi cercare le linee di base in queste regioni, deselezionare l'opzione "Trova regioni di testo" prima di avviare l'analisi del layout.
Correggere i risultati della segmentazione automatica
Può accadere che l'analisi automatica del layout richieda una correzione manuale perché mancano alcune linee di base o perché si desidera unire/spostare le regioni di testo.
Se si sta addestrando un modello HTR, le regioni di testo non devono essere corrette e l'ordine di lettura del testo non è rilevante. È importante che i caratteri della riga poggino sulla linea di base e che i discendenti si estendano al di sotto e che vi sia una corrispondenza tra la riga nell'immagine e la riga trascritta.
Tutti gli strumenti per le correzioni sull'analisi del layout si trovano nel menu "Canvas" a sinistra dell'immagine. Puoi controllare la loro funzionalità passando il mouse sull'icona.
Una linea è stata dimenticata o aggiunta per errore
Nell'esempio precedente, la prima riga è stata saltata dal programma. Se si desidera aggiungerla alla regione di testo esistente, clecca all'interno dell'area in modo da evidenziarla e dSe necessario, stracciare il bordo dell'area di testo. Per disegnare la linea di base, fare clic sul pulsante "+BL" nel menu Tela: fare clic una volta per iniziare a disegnare la linea di base e fare doppio clic per terminare la linea.
Una nota marginale deve essere divisa in una regione di testo separata
Se è necessario dividere una regione in due, è possibile farlo con i pulsanti del menu Tela. Il pulsante "H" divide una regione di testo orizzontalmente; tIl pulsante "V" divide una regione di testo verticalmente; il pulsante "L" consente di dividere una regione di testo con una linea personalizzabile. Ricordarsi di selezionare sempre prima la regione di testo che si desidera dividere.
Rimuovere una regione che non è necessaria
Nell'esempio precedente, due regioni si sovrappongono, quindi una può essere eliminata. Clicca sulla regione di testo che vuoi cancellare e clicca sul pulsante rosso "Remove a shape".
Unire due regioni
A volte il programma crea due regioni di testo quando ne serve solo una. In questo caso, è possibile unire facilmente le due regioni. Tenere premuto il tasto "CTRL" sulla tastiera e fare clic su entrambe le aree di testo. Fare clic sul pulsante "Unisci le forme selezionate" nel menu Tela.
Linee di base corrette
Naturalmente, è anche possibile correggere le linee di base nel documento. Come per le regioni di testo, clicca su una linea di base e trascina le parti della linea, dividi una linea in due o unisci due linee.
È anche possibile eliminare una linea di base e disegnarne una nuova da zero. Fare clic sul pulsante "+BL" nel menu Tela. Fare clic una volta per iniziare a disegnare la linea di base e fare doppio clic per terminare la linea..
3. Trascrizione
Trascrizione semplice - per la formazione HTR
Per trascrivere il documento, selezionare il profilo di visualizzazione "Trascrizione" dal menu principale. Si vedrà il campo Editor di testo sotto l'immagine.
Per ogni linea/linea di base nell'immagine, si troverà una linea corrispondente nell'Editor di testo. L'immagine e il testo sono collegati in questo modo.
È possibile che più persone lavorino su un documento, ma non devono lavorare contemporaneamente sulla stessa pagina. Puoi permettere agli altri utenti di Transkribus di vedere i tuoi documenti cliccando sul pulsante "User Manager" nella scheda "Server".
Se vuoi addestrare un modello HTR per riconoscere i tuoi documenti, questa semplice trascrizione è sufficiente. Si consiglia di iniziare il processo di addestramento con un numero di parole compreso tra 5.000 e 15.000 (circa 25-75 pagine) di materiale trascritto. Se si lavora con testi stampati piuttosto che scritti a mano, di solito è necessaria una quantità inferiore di dati per l'addestramento. Leggere qui come addestrare il modello HTR.
Trascrizione avanzata - per un'edizione accademica
Una volta che un documento è stato segmentato in regioni di testo, righe e linee di base, potrebbe essere necessario pensare al ordine di lettura del testo (questo non è rilevante se la trascrizione deve servire solo come materiale di addestramento). Molti documenti scritti a mano includono correzioni e aggiunte aggiunto dall'autore o qualcun altro. In un'edizione accademica, si vuole mantenere l'ordine di lettura e forse anche esprimere il fatto che questo testo è un'aggiunta. A questo scopo, tutti gli elementi di segmentazione possono essere ordinati in base ad una ordine definito dall'utente.
L'ordine di lettura predefinito segue la topologia del testo o delle regioni di linea. Tutte le forme sono ordinate secondo le coordinate dell'angolo superiore sinistro di una regione di testo o di linea.
L'ordine di lettura meccanico può essere modificato: cCliccando sul pulsante "Visibilità degli elementi" nel menu principale, si può scegliere di mostrare l'ordine di lettura di regioni di testo, righe, linee di base (o parole).
Figura 11 Il pulsante "Item visibility" visualizza l'ordine logico degli elementi di segmentazione
Una volta che hai scelto di mostrare l'ordine di lettura delle regioni di testo o delle linee, i numeri saranno visualizzati sull'immagine del tuo documento. Cliccando su uno dei numeri che segnano l'ordine di lettura, è possibile digitare un nuovo numero e cambiare l'ordine di lettura di conseguenza. Lo stesso può essere fatto spostando gli elementi di segmentazione nella scheda "Layout".
Nei casi in cui l'ordine di lettura di una pagina è completamente errato, è possibile riordinare il testo:
- Rendere visibile l'ordine di lettura delle linee come descritto sopra
- Clicca sulla scheda "Layout" sul lato sinistro dello schermo
- Seleziona la pagina o la regione di testo che vuoi riordinare
- Fai clic sul pulsante "R".
- L'ordine di lettura verrà riorganizzato in base alle coordinate dell'angolo superiore sinistro di una regione di testo o di riga. Successivamente, le righe dovrebbero essere nell'ordine corretto.
- Possono verificarsi problemi con l'ordine di lettura delle colonne dei giornali e di documenti simili. Ad esempio, il programma assegna un ordine di lettura basato sulla disposizione orizzontale delle righe su una pagina, invece di ordinare le righe per colonna. Per risolvere questo problema, utilizzate il pulsante "V" nel menu Tela per dividere la regione di testo della pagina in regioni separate per ogni colonna. Una volta creata una regione di testo separata per ogni colonna, l'ordine di lettura si aggiornerà automaticamente e sarà corretto.
Aggiunte interlinea sono un modo frequente di aggiungere testo a un documento. Per generare il corretto ordine di lettura, i seguenti passi devono essere eseguiti manualmente:
- Fare clic sul pulsante "Visibilità dell'elemento" nel menu principale e selezionare "Mostra ordine di lettura delle righe" (come spiegato sopra).
- Seleziona la linea di base sotto l'aggiunta (se l'aggiunta è sopra la linea).
- Dividere la regione della linea con il pulsante "V" nel menu Canvas esattamente dove l'aggiunta dovrebbe essere logicamente posizionata
- Modificare l'ordine di lettura in modo che sia corretto. Fare clic sul numero associato a ciascuna linea di base e digitare quello corretto.
Aggiunte che appaiono come note extra (ad esempio, ai margini di una pagina) devono essere gestite in modo simile alle aggiunte interlineari. Esistono tre opzioni per gestire le note marginali:
- Opzione 1: La regione di testo può essere espansa in modo che tutte le linee di base dell'aggiunta facciano parte della rispettiva regione di testo. È possibile utilizzare regioni di testo rettangolari piuttosto grandi oppure regioni di testo poligonali. A tale scopo, selezionare il pulsante "Aggiungi punto alla forma selezionata" dal menu Tela. Seguendo il movimento del puntatore del mouse, è possibile aggiungere punti alla regione di testo originale ed espandere la forma in modo che includa anche l'aggiunta.
In seguito, le righe/basi aggiuntive possono essere rinumerate secondo il loro corretto ordine di lettura. - Opzione 2: è possibile generare un'unica grande regione di testo per l'intera pagina ed eseguire manualmente la segmentazione delle linee/linee base nell'ordine corretto. In questo modo, si otterrà l'ordine di lettura corretto fin dall'inizio. Questa può essere l'opzione migliore se si tratta di un documento con un layout sofisticato con molte aggiunte, note e cancellazioni.
- Opzione 3: È possibile collegare la regione di testo supplementare che contiene l'aggiunta alla linea a cui appartiene l'aggiunta. A tale scopo, selezionare entrambe le regioni di testo e fare clic sul pulsante "Collega due forme" nella scheda "Struttura", all'interno della scheda "Metadati". Si noti che il collegamento farà parte del file XML (PAGE), ma attualmente non è supportato negli altri formati di esportazione.
Se tali note aggiuntive (o marginalia) non fanno parte dell'ordine di lettura ma sono "commenti" e, come tali, si trovano su un livello diverso rispetto all'ordine di lettura primario, sarà quindi sufficiente contrassegnarle come "marginalia" nella scheda Metadati. Le istruzioni per contrassegnare il testo si trovano nella sezione Come arricchire i documenti trascritti con mark-up .
Una trascrizione che servirà da base per un'edizione accademica, dovrebbe contenere più dati espliciti per l'utente e offrire più dati contestuali di una semplice trascrizione. In questo caso, non solo leggibilità della macchina (cioè i dati di addestramento per il motore HTR) ma anche la leggibilità umana del testo avrà un ruolo importante.
Si possono aggiungere caratteri speciali e simboli Unicode usando il tasto "Virtual Keyboards"nel campo dell'editor di testo.
Con il pulsante "Modifica..." è possibile aggiungere scorciatoie per i caratteri più utilizzati e aggiungere nuovi caratteri Unicode. Per creare una scorciatoia, è sufficiente digitarla nella colonna "Scorciatoia". Per aggiungere nuovi caratteri Unicode, si utilizza il pulsante verde più.
Nell'editor di testo, è possibile utilizzare "Backspace" per spostare il testo di una riga in alto e "Ctrl" + "Return" per spostare il testo di una riga in basso.
Segni diacritici e legature
La trascrizione corretta dei diacritici e delle legature richiede una certa esperienza. Ci sono due opzioni principali per gestire la corretta trascrizione di questi caratteri:
- Leggera normalizzazione secondo il dizionario:
La regola principale da applicare qui è la seguente: Finché si può vedere chiaramente il carattere base di un glifo e finché il carattere base è anche quello usato nel dizionario per esprimere questo glifo, attenersi al carattere base.
Esempio 1: La LETTERA MINUSCOLA LATINA Y apparirà in molti documenti con un segno diacritico supplementare, che indica la storia di questo carattere proveniente da ii o ij. Perciò si trovano due punti o qualcosa di simile sopra la "y".
Nelle trascrizioni semplici, si trascrive come LETTERA PICCOLA LATINA Y, poiché il carattere di base è chiaramente visibile.
Esempio 2: La LETTERA LATINA MINUSCOLA S è espressa con due grafemi nella maggior parte delle scritture storiche europee. Troviamo quindi una chiara distinzione tra la LETTERA LATINA MINUSCOLA S e la LETTERA LATINA MINUSCOLA S lunga.
Ma anche se c'è una chiara distinzione, una semplice trascrizione userebbe la LETTERA LATINA MINUSCOLA S in entrambi i casi.
Nota: si tenga presente che si tratta di una decisione importante e che influirà sulla fruibilità del testo in molti modi. Se si decide di optare per una trascrizione paleografica, il lavoro sarà molto più impegnativo rispetto a una trascrizione leggermente normalizzata.
Segni di punteggiatura
I segni di punteggiatura sono trascritti allo stesso modo dei caratteri. Usa il carattere appropriato sulla tua tastiera e non normalizzare o aggiungere segni di punteggiatura. I tipici segni di punteggiatura sono:
- caratteri moderni come punto, virgola, punto e virgola, due punti: ".", ",", ";":"
- caratteri storici come virgule (slash), o riempitivi di linee, ecc.
Si noti che i due punti nei testi storici sono spesso usati per indicare parole abbreviate. Questi dovrebbero essere trascritti con i due punti.
A differenza di molte regole di trascrizione che prevedono l'aggiunta e l'omissione di segni di punteggiatura secondo una concezione moderna, noi raccomandiamo di attenersi ai segni di punteggiatura originali.
Se si desidera aggiungere segni di punteggiatura che non compaiono nel documento originale, è possibile utilizzare il tag "fornito" nella scheda "Tagging", all'interno della scheda "Metadata", per indicare che il segno di punteggiatura è stato aggiunto da voi.
Lavorare in gruppo: aggiungere altri utenti alla tua collezione
In Transkribus è anche possibile lavorare su collezioni e documenti insieme ad altri utenti di Transkribus. È possibile aggiungere qualcun altro alla propria raccolta tramite il "Gestore utenti" che si trova nella "Scheda server". Per prima cosa, dovrete cercare l'altro utente tramite l'e-mail o il nome in basso a destra, quindi selezionare la riga di destra in alto, poi scegliere "Aggiungi utente" in basso a sinistra e infine aggiungere le autorizzazioni, che vengono fornite con il ruolo dell'utente. Nella schermata sottostante, è possibile controllare i diritti di ciascun ruolo utente:
Riferimenti
Per avere una panoramica sulle scritture di Unicode: http://www.unicode.org/charts/
Per le trascrizioni storiche, sono interessanti le seguenti estensioni:
Latino esteso-B: http://www.unicode.org/charts/PDF/U0180.pdf
- Contiene ad esempio:
- Latino non europeo e storico
- Lettere fonetiche e storiche
- Aggiunte per sloveno e croato
- ecc.
Latino esteso-C: http://www.unicode.org/charts/PDF/U2C60.pdf
- Contiene ad esempio:
- Aggiunte latine ortografiche
- ecc.
Latino esteso-D: http://www.unicode.org/charts/PDF/UA720.pdf
- Contiene ad esempio:
- Aggiunte medievali
- Lettere insulari e celtiche
- Lettere epigrafiche romane antiche
- ecc.
MUFI (Medieval Unicode Font Initiative)
- Questa iniziativa ha raccolto e sistematizzato circa 1512 caratteri che sono particolarmente raccomandati per la trascrizione di documenti medievali. Nota: alcuni di essi sono ancora nella sezione "privata" di Unicode, quindi non ufficialmente disponibili.
- http://folk.uib.no/hnooh/mufi/
- http://folk.uib.no/hnooh/mufi/specs/MUFI-Alphabetic-4-0.pdf
Crediti
Vorremmo ringraziare i molti utenti che con il loro feedback hanno contribuito a migliorare il software Transkribus.