Come usare Transkribus in 10 passi

Come usare Transkribus in 10 passi

Panoramica di base
Transkribus Expert Client
Ultimo aggiornamento 5 mesi fa
Informazioni su Transkribus

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Sommario

Sommario

Questo documento è un'introduzione di base a Transkribus. Fornisce un semplice procedimento standard per lavorare con la piattaforma. Se hai bisogno di istruzioni più dettagliate sulle funzioni di Transkribus, dai un'occhiata alle nostre Guide pratiche per l'uso.

1 - Introduzione

Transkribus può essere utilizzato per diversi scopi. I più importanti sono:

  • Trascrivere documenti per un'edizione scientifica
  • Creare dati di allenamento per il riconoscimento del testo scritto a mano (HTR+) in modo che possa imparare a decifrare i tuoi documenti storici.
  • Eseguire il riconoscimento (HTR+) sui tuoi documenti e ricevere trascrizioni generate automaticamente.
  • Cercare parole distinte nelle tue collections di documenti tramite il Keyword Spotting che è molto più potente della ricerca full-text standard.
  • La piattaforma vive della community. Più dati vengono caricati su Transkribus, più efficiente sarà il programma e soprattutto il riconoscimento del testo scritto a mano.

Transkribus è un'infrastruttura di ricerca che è stata creata come parte del progetto H2020READ (Riconoscimento e Arricchimento dei Documenti d'Archivio).

Prenditi un po' di tempo per esplorare Transkribus e familiarizzare con il suo funzionamento. Per renderlo più facile abbiamo creato diverse guide, che danno istruzioni sulle diverse funzioni della piattaforma. Puoi trovarle nella nostra base di risorse.

2 - Per utilizzare Transkribus - registrati sul sito web

  • Vai alla nostra pagina Transkribus
  • Leggi e accetta i termini e le condizioni e la nostra Informativa sulla privacy
  • Tutti i documenti caricati su Transkribus sono "privati", il che significa che nessuno tranne te vi ha accesso.
  • Il team di Transkribus sostiene pienamente tutte le direttive UE sulla protezione dei dati e la privacy. Rispetteremo la tua privacy e useremo i dati che ci darai solo per migliorare i nostri servizi e sostenere la ricerca futura nelle scienze umanistiche e informatiche!

3 - Scarica Transkribus dal sito web

  • Vai alla pagina pagina di download di Transkribus
  • Transkribus funziona su Windows, MacOS e Linux. Se hai bisogno di aiuto per installare la piattaforma, puoi dare un'occhiata qui.
  • Se usi MacOS potrebbe apparire un messaggio di errore quando cerchi di aprire Transkribus per la prima volta. Per rimediare:
    • fai clic con il tasto destro del mouse sul Track Pad per aprire il menu contestuale e modificare le informazioni di sicurezza per Transkribus.
  • Una volta che hai scaricato Transkribus, assicurati di decomprimere il file. Il programma non può essere avviato dal file zippato.

4 - Apri Transkribus

  • Avvia il programma e clicca su "Login" nella scheda "Server".

Figura 1 Accesso

  • Avrai accesso alla tua collection privata chiamata come il tuo indirizzo e-mail. Questa collezione include alcuni documenti di prova con cui puoi sperimentare.
  • Puoi trovarli cliccando il pulsante "Collections" nella scheda "Server".

Figura 2 Documenti di prova nella tua collezione

5 - Carica i tuoi documenti

  • Transkribus ti permette di lavorare con i tuoi documenti, sia localmente che caricandoli sul server.
  • I processi automatizzati possono essere eseguiti solo se i documenti vengono caricati sulla piattaforma Transkribus. La piattaforma può elaborare file PDF, JPEG, PNG e TIFF. I file JP2 purtroppo non sono supportati.
  • Puoi caricare i documenti che hai scannerizzato tu stesso. Puoi anche usare la nostra App DocScan per smartphone Android per scattare immagini e caricarle direttamente su Transkribus. Per maggiori informazioni: https://scantent.cvl.tuwien.ac.at/en
  • Puoi anche scaricare documenti da Internet e caricarli su Transkribus. Molte biblioteche e archivi seguono una politica open access incoraggiando un ulteriore utilizzo della loro collezione - puoi chiedere direttamente agli archivi e alle biblioteche se puoi caricare immagini dei loro documenti su Transkribus!
  • Clicca sul pulsante "Import document(s)" per trasferire le immagini dal tuo computer alla piattaforma. Nota: le immagini devono essere salvate in una cartella separata sul tuo computer prima che vengano caricate su Transkribus!

Figura 3 Carica i tuoi documenti su Transkribus

  • Puoi aggiungere i tuoi documenti a una delle tue collections esistenti o creare una nuova collection cliccando prima "Add to collection" in fondo alla casella "Document ingest/upload" e poi cliccando "Create".

Figura 4 Aggiungere documenti a una delle collections esistenti o creare una collection nuova

Figura 5 Crea la tua collection

  • Per accedere ai tuoi documenti, clicca sul pulsante "Collections" nella scheda "Server" e scegli la tua collezione. Poi, per aprirli, fai doppio clic sui documenti nella casella in fondo alla scheda "Server".

Figura 6 Aprire i documenti della tua collection

  • Tutti i documenti caricati su Transkribus sono privati per impostazione predefinita. Se lo desideri, puoi dare ad altri utenti l'autorizzazione a visualizzare i tuoi documenti. Usa il pulsante "User Manager" nella scheda "Server" per aggiungere utenti alla tua collezione. Puoi condividere le collezioni solo con gli utenti che hanno un account Transkribus.

Figura 7 Pulsante "User Manager" per modificare l'accesso alla tua collezione

6 - Suddividi i tuoi documenti in segmenti

  • Per addestrare il motore HTR con i dati, i tuoi documenti devono essere segmentati. Questo può essere fatto automaticamente in Transkribus.
  • Apri la scheda "Tools".
  • Assicurati che la voce "Find Text Regions" sia selezionata e premi "Run".
  • Puoi scegliere di segmentare la pagina corrente o un gruppo di pagine.
  • Le linee segmentate e le regioni di testo nel tuo documento saranno rilevate automaticamente.

Figura 8 Segmentazione

7 - Iniziare la trascrizione

  • Una volta che le baselines sono visibili sulla tua immagine, puoi scrivere del testo nel campo dell'editor di testo.
  • Clicca sul pulsante "Profiles" e seleziona la visualizzazione "Transcription".
  • Per ogni baseline ci sarà una linea corrispondente nell'editor di testo. Trascrivi il testo riga per riga, esattamente come appare nell'immagine.

Figura 9 Visualizzazione della trascrizione

  • I caratteri speciali possono essere trovati nel campo "Virtual Keyboards" nella barra degli strumenti dell'Editor di testo.

Figura 10 pulsante "Virtual Keyboards"

Figura 11 Virtual keyboards

  • Lavorando in un team, potrebbe essere più facile trascrivere direttamente nell'interfaccia web di Transkribus. Questa è una versione lite di Transkribus che è semplice da usare: https://transkribus.eu/r/read/projects/

8 - Salva ed esporta la tua trascrizione

Figura 12 Salvare le modifiche nel documento

  • Premi il pulsante "Save" nel menu principale per salvare il documento in Transkribus.
  • Se clicchi sul pulsante "Versions" nella scheda "Server", vedrai che è stata creata una nuova versione . Questo significa che puoi sempre accedere alle versioni precedenti di un documento, se dovessi averne bisogno.

Figura 13 Clicca sul pulsante "Versions" per accedere alle versioni precedenti del tuo documento

  • Puoi anche esportare l'intero documento in qualsiasi momento durante il processo cliccando sul pulsante "Export document".

Figura 14 Pulsante "Export document"

9 - Usa il riconoscimento del testo scritto a mano (HTR) sui tuoi documenti

  • È semplice far riconoscere i tuoi documenti dal computer. Puoi iniziare ad addestrare un modello con circa 5.000 parole trascritte di testo stampato o 15.000 parole di testo scritto a mano.
  • Una volta che un modello HTR è stato addestrato per i tuoi documenti, può essere applicato cliccando il pulsante "Run" nella sezione "Text Recognition" nella scheda "Tools". Puoi selezionare una o più pagine dei tuoi documenti e avviare il riconoscimento.

Figura 15 Eseguire il riconoscimento del testo scritto a mano

Figura 16 Panoramica del modello e curva di apprendimento

  • Se clicchi su "Run" e poi su "Select HTR model", puoi scegliere il modello per il riconoscimento e ottenere maggiori informazioni su di esso.
  • Sul lato sinistro della finestra si vede una panoramica dei modelli disponibili.
  • In alto a destra della finestra vengono mostrati i dettagli del modello.
  • Il grafico in basso a destra indica la precisione del tuo modello con il Character Error Rate (CER), cioè la percentuale di caratteri che sono stati trascritti in modo errato da HTR. La linea blu rappresenta il progresso dell'addestramento. La linea rossa rappresenta il progresso delle valutazioni sul Test Set di dati che è stato messo da parte durante il processo di addestramento.
  • Dopo che l'HTR ha finito, i risultati appariranno direttamente come nuova versione del tuo documento all'interno di Transkribus. È possibile valutare la precisione della trascrizione automatica usando la funzione "Compute Accuracy" nella scheda "Tools".

Figura 17 Calcolare la precisione dell'HTR

10 - Keyword Spotting

  • Una volta che avrai un modello HTR per i tuoi documenti, sarai in grado di cercarli con la funzione Keyword Spotting. Se disponibile, puoi naturalmente anche usare uno dei modelli pubblici per questo.
  • In primo luogo esegui il modello HTR sui tuoi documenti per produrre una trascrizione automatica.
  • Poi apri la funzione Keyword Spotting con il pulsante binocolo mostrato nella Figura 18.

Figura 18 Apri la finestra "Search for..." per utilizzare la funzione Keyword Spotting

  • Nella finestra che si apre scegli la scheda "KWS".

Figura 19 Finestra per utilizzare la funzione Keyword Spotting

  • Digita semplicemente la parola che vuoi cercare nella casella "Keyword 1" e premi il pulsante "Search".
  • Apparirà una finestra di conferma. Clicca su "Yes" per avviare la ricerca tramite Keyword Spotting

Figura 20 Finestra di conferma

  • Una volta che la tua ricerca è finita, fai doppio clic sulla data e sul valore numerico nella colonna "Created" per accedere ai risultati della tua ricerca

Figura 21 Risultati Keyword Spotting

  • La finestra "Keyword Spotting Results" ti mostrerà una lista di posti dove appare quella parola chiave.

Figura 22 Informazioni sui risultati del tuo Keyword Spotting

Credits

Vorremmo ringraziare i molti utenti che con il loro feedback hanno contribuito a migliorare il software Transkribus.

Transkribus e la tecnologia che c'è dietro sono resi disponibili attraverso i seguenti progetti e siti:

Contatto

http://transcriptorium.eu/figs/jaune.jpg

La piattaforma Transkribus è fornita dalla Cooperativa Europea READ-COOP SCE.

Fino a giugno 2019 Transkribus è stato finanziato come parte del progetto Horizon 2020 READ sotto l'accordo di sovvenzione n. 674943.