Convenzioni di trascrizione in Transkribus

Convenzioni di trascrizione in Transkribus

Panoramica di base
Transkribus Expert Client
Ultimo aggiornamento 6 mesi fa
Informazioni su Transkribus

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Sommario

Sommario

Questa guida fornisce istruzioni dettagliate per trascrivere in Transkribus, fornendo indicazioni su caratteristiche come abbreviazioni, diacritici e tag.

Gli utenti dovrebbero passare a questa guida dopo aver prima consultato la nostra guida di base per la trascrizione: Come Trascrivere documenti con Transkribus - Introduzione.

Introduzione

Nel corso degli ultimi anni, le nostre linee guida per la trascrizione sono state riviste e semplificate in linea con le nostre scoperte su ciò che la tecnologia Handwritten Text Recognition (HTR) può imparare a elaborare in base a ciò che la Handwritten Text Recognition (HTR) può fare.

Questa guida fornisce istruzioni standardizzate per la trascrizione di documenti storici in Transkribus.

Il nostro obiettivo è quello di aiutare gli utenti a produrre trascrizioni in modo rapido ed efficiente, come base per modelli HTR forti che possono riconoscere il testo con un alto livello di precisione.

Gli utenti potrebbero voler generare una semplice trascrizione che verrà usata solo per addestrare la tecnologia HTR a riconoscere i loro documenti.

In questo caso, la considerazione più importante è generare una trascrizione coerente che rappresenti accuratamente le parole del tuo documento.

In alternativa, gli utenti potrebbero voler generare una trascrizione ricca di tag e metadati aggiuntivi, adatti per un'edizione accademica.

Questa guida stabilisce le convenzioni storiche comuni per la trascrizione accademica che gli utenti possono adattare secondo le loro esigenze e le caratteristiche specifiche dei loro documenti. Non devi necessariamente cambiare le trascrizioni esistenti che hai già completato. Potresti anche trovare altri modi efficaci per affrontare i problemi di trascrizione che non vengono trattati in questa guida.

Gli utenti di Transkribus saranno presto in grado di trascrivere documenti anche nell'interfaccia web di Transkribus, dove sarà più facile trascrivere documenti in gruppo.

Prima di iniziare, controlla che tu stia lavorando con l'ultima versione del Transkribus expert client:

  • Clicca sul pulsante "☰" e clicca su "Check for updates".
  • Puoi anche provare le versioni "Snapshot", che sono anteprime delle versioni ufficiali della piattaforma

Figura 1 Verifica dell'ultima versione di Transkribus

Segmentazione

  • Per trascrivere i documenti in Transkribus, devono essere segmentati in regioni di testo, linee e linee di base.
  • Puoi segmentare i tuoi documenti automaticamente usando le opzioni nella scheda "Tools".
  • Le linee di base sono l'elemento di segmentazione più importante
  • Le Baseline devono sempre terminare a filo con la linea di testo e non devono uscire dalla regione del testo.
  • I caratteri dovrebbero "sedersi" sulla linea di base, i discendenti dovrebbero estendersi al di sotto di essa.
  • Se il layout dei tuoi documenti è molto complesso, potresti aver bisogno di eseguire qualche correzione manuale delle linee di base.
  • Per ulteriori informazioni sulla segmentazione dei documenti, consultare: Come trascrivere documenti con Transkribus - Introduzione.

Trascrizione

Trascrizione diplomatica

Il testo deve essere trascritto carattere per carattere, secondo quanto mostrato nell'immagine. Poiché in passato non esistevano regole ortografiche uniformi, la correttezza ortografica e grammaticale è di secondaria importanza.

Combinare le parole

Le parole dovrebbero essere separate o combinate secondo il testo originale, anche se non è conforme alla prassi corrente.

Maiuscole e minuscole

Di nuovo, il testo originale dovrebbe essere la base per la tua decisione. Se una lettera iniziale non può essere chiaramente identificata come maiuscola o minuscola, la decisione spetta a te, ma dovrebbe essere basata sulle regole ortografiche correnti.

Parole sillabate

Quando le parole sillabate appaiono alla fine della riga, devono essere trascritte e spezzate

secondo il testo originale. Non è più necessario contrassegnarli con un "-" o un "segno di spunta".

Quando le parole sillabate appaiono nel mezzo di una riga, devono essere trascritte secondo il testo originale.

Passaggi di testo barrato

I passaggi di testo che sono stati barrati dovrebbero essere marcati usando il "Tag as strikethrough".

nel campo dell'editor di testo.

Passaggi di testo in apice

I passaggi di testo in apice (compresi i segni di punteggiatura) dovrebbero essere marcati come apice con il carattere

"Tag as superscript" nel campo dell'editor di testo.

Punteggiatura

La punteggiatura deve essere trascritta usando i tasti della tastiera, mantenendosi il più vicino possibile all'originale.

Per i documenti del 16°° secolo e più tardi: La trascrizione deve seguire il testo originale, anche se un segno di punteggiatura è stato usato in un modo che non corrisponde all'uso moderno.

Per le trascrizioni di testi medievali: Non cercare di usare la punteggiatura moderna. Sarebbe meglio omettere tutta la punteggiatura o usare simboli specifici (per esempio il Middle Dot, U+00B7).

I punti appaiono spesso dopo i numeri e i titoli - e dovrebbero essere trascritti.

A volte i documenti storici usano "/:" al posto delle parentesi. In questi casi, il simbolo "/:" dovrebbe essere

trascritto.

Passaggi di testo sottolineati

I passaggi di testo sottolineati vengono contrassegnati con il pulsante "Tag as underlined" nel campo dell'Editor di testo.

Scritture diverse

Caratteri diversi come Kurrent o Antiqua non sono appositamente contrassegnati.

Aggiunte e ordine di lettura

Le aggiunte tra le righe sono segmentate come righe separate e trascritte normalmente, ma non devono essere contrassegnate in modo speciale. L'importante è che l'aggiunta sia collocata al posto giusto nel testo secondo l'ordine di lettura. In questi casi potrebbe essere necessario controllare e rivedere l'ordine di lettura.

L'ordine di lettura dovrebbe essere il seguente, secondo l'ordine di lettura naturale di un lettore umano:

  • Numero di pagina
  • Intestazione
  • Prima sezione in alto a sinistra
  • Prima sezione in alto a destra
  • Ecc.

Per mostrare le opzioni dell'ordine di lettura cliccate sul pulsante "Shape visibility" nel menu principale.

Figura 2 Controllo dell'ordine di lettura

Seleziona "Show baselines reading order" e i numeri corrispondenti a ciascuna linea di base appariranno sull'immagine del tuo documento. Clicca sul numero associato a una linea di base per aggiornare il suo posto nell'ordine di lettura.

Quando appaiono aggiunte interlineari, l'ordine di lettura corretto è: Testo - Aggiunta - Testo.

Figura 3 Cambiare l'ordine di lettura

Convenzioni per i caratteri speciali

Abbreviazioni

Normalmente le abbreviazioni sono trascritte secondo il testo originale, cioè non ampliate. Questo include le abbreviazioni storiche e le abbreviazioni che sono ancora usate oggi (per esempio le indicazioni monetarie contemporanee, i titoli e i saluti). Solo se l'espansione comporta solo una o due lettere in più, dovrebbe essere effettuata.

Figura 4 Esempio di abbreviazione: parola con un'abbreviazione nasale sulla m o sulla n: Zim̄ er

Caratteri diacritici

Trascrizioni semplici: i caratteri diacritici (per esempio accenti, circonflessi, cediglie, trattini, tildes) possono essere ignorati, eccetto gli umlaut tedeschi moderni.

Trascrizioni più elaborate: I caratteri diacritici sono trascritti secondo i caratteri scritti sulla pagina.

Equivalente di i/j o I/J

Le lettere "i" e "j" possono essere usate in modo intercambiabile. Di nuovo, il testo originale dovrebbe aiutarti a prendere la tua decisione. Le due lettere sono trascritte come tali, anche se non corrispondono alle regole dell'ortografia moderna. Poiché sono spesso difficili da distinguere l'una dall'altra (specialmente con le lettere maiuscole), qui è decisiva la propria discrezione o l'ortografia in uso oggi.

Pratica alternativa: È possibile usare solo la "i", tranne che per l'uso consonantico della lettera.

Equivalente di u/v o U/V

Gli equivalenti storici di "u" e "v" non esistono più perché le lettere sono ora usate separatamente. Pertanto, si prega di adattare la trascrizione secondo l'uso corrente.

Pratica alternativa: È possibile usare "u" e "v" come verrebbero letti.

Legature

Le legature sono combinazioni comuni di lettere per formare un nuovo carattere.

Le legature "St" e "Sch" e le legature alla fine delle parole o delle abbreviazioni devono essere trascritte per intero. Non hanno bisogno di essere segnate come abbreviazioni.

Per esempio, la legatura "præs" dovrebbe essere trascritta come "praes".

Carattere S

La lettera "s" può apparire in diverse forme. La "s" normale e quella lunga (con discensore) possono essere trascritte entrambe come una "s" normale o secondo la loro forma come "s" o "I" (U-017F). Le doppie "s" o "ß" (s acuta o "Eszett") sono trascritte secondo il testo originale.

Tag strutturali

Ci sono opzioni per marcare la struttura dei tuoi documenti nella scheda "Metadata"/"Structural". La struttura del testo è assegnata a livello di base durante il processo di segmentazione. Puoi marcare elementi come numeri di pagina, titoli e marginalia e anche addestrare questo layout con lo strumento P2PaLA.

Puoi trovare maggiori informazioni su questo nella sezione Come usare la funzione di etichettatura strutturale .

Tagging (Etichettare)

Nomi personali, luoghi o località, date di vario tipo così come organizzazioni, istituzioni o identità astratte possono essere contrassegnati con i tag corrispondenti.

Puoi trovare tutti i tag nella scheda "Metadata/Textual".

Nota: Quando si esegue l'addestramento HTR, i tag non sono ancora rilevanti. Gli sviluppi della tecnologia Named Entity Recognition dovrebbero rendere possibile in futuro il riconoscimento automatico dei tag.

Per maggiori informazioni su come arricchire i documenti con i tag, vedere: Come arricchire il trascritto Documenti con mark-up.

Alcuni principi

  • Si prega di etichettare solo ciò che è necessario; i caratteri e le parole che appartengono realmente al tag appropriato.
  • Ad esempio, "d. d." per "de dato" non appartiene alla data stessa e quindi non dovrebbe essere

etichettato come tale.

  • Ogni tag dovrebbe essere applicato separatamente ad ogni parola. Se ci sono diversi nomi o abbreviazioni (diversi) uno accanto all'altro, per favore etichettali singolarmente. Altrimenti la ricerca e la normalizzazione non funzioneranno.
  • Se necessario, diversi tag possono essere assegnati alla stessa parola, ad esempio abbreviazione, nome, luogo, ecc.

Nomi personali

  • Quando si tratta di nomi, non segnare gli attributi (ad esempio professione, origine, famiglia, nomi di fattoria, titoli) prima o dopo il nome.
  • ECCEZIONE: ad esempio "Physikus Mr. XY". In casi come questo si prega di segnare tutto come un unico nome, perché è a questo che ci si riferisce, anche se il "signor" è nel mezzo.
  • Inoltre, le parole che si riferiscono a un singolo individuo unico, ma che non includono un nome, dovrebbero essere contrassegnate come persone (ad esempio il sindaco, l'imperatore, ecc.).
  • Termini indefiniti come "lo stesso" vengono ignorati.
  • Se un nome viene menzionato all'inizio e successivamente ci si riferisce alla persona con un'

etichetta impersonale (per esempio "il panettiere"), allora questo nome indefinito non viene etichettato.

Etichettatura delle abbreviazioni

  • Le parole abbreviate dovrebbero essere marcate con il tag "abbreviation".
  • Quando due o più abbreviazioni appaiono consecutivamente, si prega di contrassegnare ogni abbreviazione con un'etichetta separata.
    • Per esempio: Joh. Jak.
  • Tuttavia, nel caso di frasi fisse in cui due abbreviazioni appaiono consecutivamente, possono essere marcate con un solo tag di abbreviazione.
    • Per esempio d. d. per de dato
    • v. M. (ultimo), d. M. (questo mese)
    • l. J., K.K., P. C. ecc.
  • Se una parola è abbreviata in qualsiasi modo puoi etichettare l'intera parola, anche se solo una lettera è abbreviata all'inizio/alla fine/in mezzo, oppure puoi etichettare la parte abbreviata. Per favore sii il più coerente possibile.

Organizzazioni

  • Tutto è contrassegnato come organizzazione o istituzione che non è un individuo ma appare comunque come soggetto, agente o personalità giuridica. Esempi possono essere le confraternite, gli uffici o i commercianti.

Date

  • Le date non numeriche che a prima vista possono non sembrare complete devono essere segnate, per esempio la Natività di Maria, il mese di settembre, il primo trimestre del 1792, ecc.
  • Tuttavia, si prega di non segnare alcun periodo come data, ad esempio tre mesi.

Gaps

  • Se il documento è illeggibile in qualsiasi punto a causa di una scrittura difficile o di un colpo di spugna, il tag corrispondente lo indica come lacuna.
  • Clicca il cursore dove appare il testo illeggibile e aggiungi il tag "gap".
  • Se uno o più caratteri illeggibili possono essere indovinati, i relativi caratteri possono essere semplicemente trascritti (senza parentesi quadre). Anche se è pratica comune aggiungere i caratteri mancanti all'interno delle parentesi quadre, questo è purtroppo controproducente quando si tratta di addestrare il motore HTR.
  • Il testo fornito, anche i singoli caratteri, dovrebbero essere etichettati con il tag "supplied".

Incertezze

  • Qualsiasi incertezza può essere segnata con il tag "unclear" e, se possibile, risolta in seguito.

Stato

Segna le pagine modificate o completate con l'attributo corrispondente nella barra di stato nel menu principale.

Figura 5 Definire lo stato del documento

Possono essere assegnati i seguenti stati:

In Progress: pagine ancora da trascrivere

Done: pagine che sono state trascritte ma che devono ancora essere riviste.

Final: pagine trascritte che sono state revisionate come "Finale".

Ground Truth: pagine trascritte che sono completamente finalizzate dall'amministratore del progetto come

Dati "Ground Truth" adatti all'addestramento HTR. Una volta che questo status è stato assegnato a una pagina, questo non dovrebbe

essere più cambiato.

Credits

Vorremmo ringraziare i molti utenti che con il loro feedback hanno contribuito a migliorare il software Transkribus.

Transkribus è reso disponibile al pubblico come parte del progetto H2020 e-Infrastructure READ (Recognition and Enrichment of Archival Documents) che ha ricevuto finanziamenti dalla Commissione europea sotto l'accordo di sovvenzione n. 674943.