Come usare Transkribus in 10 passi

Come usare Transkribus in 10 passi

Panoramica di base
Transkribus Expert Client
Ultimo aggiornamento 9 mesi fa
Informazioni su Transkribus

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Sommario

Sommario

Questo documento è un'introduzione di base a Transkribus. Fornisce un semplice flusso di lavoro standard per lavorare con la piattaforma. Se avete bisogno di istruzioni più dettagliate sulle funzioni di Transkribus, vi invitiamo a consultare i nostri altri documenti. Guide pratiche per l'uso.

1 - Introduzione

Transkribus può essere utilizzato per diversi scopi. I più importanti sono:

  • Trascrivere documenti per un'edizione scientifica
  • Creare dati di allenamento per il riconoscimento del testo scritto a mano (HTR+) in modo che possa imparare a decifrare i tuoi documenti storici.
  • Eseguire il riconoscimento (HTR+) sui tuoi documenti e ricevere trascrizioni generate automaticamente.
  • Ricerca di parole distinte nelle raccolte di documenti.
  • La piattaforma vive della community. Più dati vengono caricati su Transkribus, più efficiente sarà il programma e soprattutto il riconoscimento del testo scritto a mano.

Transkribus è un'infrastruttura di ricerca creata nell'ambito del progetto H2020.t READ (Riconoscimento e arricchimento dei documenti d'archivio).

Prendetevi un po' di tempo per esplorare Transkribus e familiarizzare con il suo funzionamento. Per facilitarvi il compito, abbiamo creato diverse guide, che forniscono istruzioni sulle diverse funzioni della piattaforma. Le potete trovare all'interno del nostro base di risorse.

2 - Per utilizzare Transkribus - registrati sul sito web

  • Vai alla nostra pagina Transkribus
  • Leggete e accettate il nostro termini e le condizioni e la nostra Informativa sulla privacy
  • Tutti i documenti caricati su Transkribus sono "privati", il che significa che nessuno tranne te vi ha accesso.
  • Il team di Transkribus sostiene pienamente tutte le direttive UE sulla protezione dei dati e la privacy. Rispetteremo la tua privacy e useremo i dati che ci darai solo per migliorare i nostri servizi e sostenere la ricerca futura nelle scienze umanistiche e informatiche!

3 - Scarica Transkribus dal sito web

  • Vai alla pagina pagina di download di Transkribus
  • Transkribus funziona su Windows, MacOS e Linux. Se hai bisogno di aiuto per installare la piattaforma, puoi dare un'occhiata qui.
  • Se usi MacOS potrebbe apparire un messaggio di errore quando cerchi di aprire Transkribus per la prima volta. Per rimediare:
    • fai clic con il tasto destro del mouse sul Track Pad per aprire il menu contestuale e modificare le informazioni di sicurezza per Transkribus.
  • Una volta che hai scaricato Transkribus, assicurati di decomprimere il file. Il programma non può essere avviato dal file zippato.

4 - Apri Transkribus

  • Avvia il programma e clicca su "Login" nella scheda "Server".
Figura 1. Accesso
  • Avrai accesso alla tua collection privata chiamata come il tuo indirizzo e-mail. Questa collezione include alcuni documenti di prova con cui puoi sperimentare.
  • Puoi trovarli cliccando il pulsante "Collections" nella scheda "Server". 
Figura 2. Documenti di prova nella vostra collezione

5 - Carica i tuoi documenti

  • Transkribus ti permette di lavorare con i tuoi documenti, sia localmente che caricandoli sul server.
  • I processi automatizzati possono essere eseguiti solo se i documenti vengono caricati sulla piattaforma Transkribus. La piattaforma può elaborare file PDF, JPEG, PNG e TIFF. I file JP2 purtroppo non sono supportati.
  • Puoi caricare i documenti che hai scannerizzato tu stesso. Puoi anche usare la nostra App DocScan per smartphone Android per scattare immagini e caricarle direttamente su Transkribus. Per maggiori informazioni: https://scantent.cvl.tuwien.ac.at/en
  • Puoi anche scaricare documenti da Internet e caricarli su Transkribus. Molte biblioteche e archivi seguono una politica open access incoraggiando un ulteriore utilizzo della loro collezione - puoi chiedere direttamente agli archivi e alle biblioteche se puoi caricare immagini dei loro documenti su Transkribus!
  • Clicca sul pulsante "Import document(s)" per trasferire le immagini dal tuo computer alla piattaforma. Nota: le immagini devono essere salvate in una cartella separata sul tuo computer prima che vengano caricate su Transkribus!
Figura 3. Caricare i documenti su Transkribus
  • Puoi aggiungere i tuoi documenti a una delle tue collections esistenti o creare una nuova collection cliccando prima "Add to collection" in fondo alla casella "Document ingest/upload" e poi cliccando "Create".
Figura 4. Aggiungere documenti a una delle raccolte esistenti o crearne una nuova
Figura 5. Creare la propria collezione
  • Per accedere ai tuoi documenti, clicca sul pulsante "Collections" nella scheda "Server" e scegli la tua collezione. Poi, per aprirli, fai doppio clic sui documenti nella casella in fondo alla scheda "Server".
Figura 6. Aprire i documenti della raccolta
  • Tutti i documenti caricati su Transkribus sono privati per impostazione predefinita. Se lo desideri, puoi dare ad altri utenti l'autorizzazione a visualizzare i tuoi documenti. Usa il pulsante "User Manager" nella scheda "Server" per aggiungere utenti alla tua collezione. Puoi condividere le collezioni solo con gli utenti che hanno un account Transkribus.
Figura 7. Pulsante "Gestione utenti" per gestire l'accesso alla propria collezione

6 - Suddividi i tuoi documenti in segmenti

  • Per addestrare il motore HTR con i dati, i tuoi documenti devono essere segmentati. Questo può essere fatto automaticamente in Transkribus.
  • Aprire la scheda "Strumenti" e accedere alla sezione Analisi del layout.
  • Puoi scegliere di segmentare la pagina corrente o un gruppo di pagine.
  • Assicurati che la voce "Find Text Regions" sia selezionata e premi "Run".
  • Le linee segmentate e le regioni di testo nel tuo documento saranno rilevate automaticamente.
  • Se non vengono rilevate righe o se ne rilevano poche, se le immagini hanno una risoluzione bassa o se sono state create troppe regioni di testo, leggere qui come configurare le impostazioni dell'analisi del layout per ottenere risultati migliori.
Figura 8. Analisi del layout

7 - Iniziare la trascrizione

  • Una volta che le linee di base sono visibili sull'immagine, è possibile scrivere del testo nel campo dell'editor di testo.
  • Per ogni baseline ci sarà una linea corrispondente nell'editor di testo. Trascrivere il testo riga per riga esattamente come appare nell'immagine.
Figura 9. Trascrizione
  • I caratteri speciali possono essere trovati nel campo "Virtual Keyboards" nella barra degli strumenti Formattazione sotto l'Editor di testo.
Figura 10. "Pulsante "Tastiere virtuali
Figura 11. Tastiere virtuali
  • Lavorando in un team, potrebbe essere più facile trascrivere direttamente la versione browser di Transkribus, Transkribus Lite.

8 - Salva ed esporta la tua trascrizione

Figura 12. Salvataggio delle modifiche nel documento

  • Premi il pulsante "Save" nel menu principale per salvare il documento in Transkribus.
  • Se clicchi sul pulsante "Versions" nella scheda "Server", vedrai che è stata creata una nuova versione . Questo significa che puoi sempre accedere alle versioni precedenti di un documento, se dovessi averne bisogno.
Figura 13. Fare clic sul pulsante "Versioni" per accedere alle versioni precedenti del documento.
  • Puoi anche esportare l'intero documento in qualsiasi momento durante il processo cliccando sul pulsante "Export document".
Figura 14. "Pulsante "Esporta documento

9 - Usa il riconoscimento del testo scritto a mano (HTR) sui tuoi documenti

  • È semplice far riconoscere i propri documenti al computer. È possibile utilizzare uno dei modelli pubblici messo a disposizione dalla comunità di Transkribus, oppure si può iniziare ad addestrare il proprio modello: per farlo, occorrono circa 5.000 parole trascritte di testo stampato o 15.000 parole di testo scritto a mano.
  • Una volta che un modello HTR è stato addestrato per i tuoi documenti, può essere applicato cliccando il pulsante "Run" nella sezione "Text Recognition" nella scheda "Tools". Puoi selezionare una o più pagine dei tuoi documenti e avviare il riconoscimento.
Figura 15. Eseguire il riconoscimento del testo scritto a mano
Figura 16. Panoramica del modello e curva di apprendimento
  • Se clicchi su "Run" e poi su "Select HTR model", puoi scegliere il modello per il riconoscimento e ottenere maggiori informazioni su di esso.
  • Sul lato sinistro della finestra è possibile vedere una panoramica dei modelli disponibili.
  • Nella parte superiore destra della finestra vengono visualizzati i dettagli del modello.
  • Il grafico in basso a destra indica l'accuratezza del modello con il tasso di errore dei caratteri (CER), ossia la percentuale di caratteri trascritti in modo errato da HTR. La linea blu rappresenta il progresso dell'addestramento. La linea rossa rappresenta il progresso delle valutazioni sul set di dati di prova che è stato messo da parte durante il processo di formazione.
  • Al termine dell'HTR, i risultati appariranno direttamente su una nuova versione del documento all'interno di Transkribus. È possibile valutare la precisione della trascrizione automatica usando la funzione "Compute Accuracy" nella scheda "Tools".

10 – Ricerca

  • Una volta eseguito il modello HTR sui documenti, è possibile cercare termini specifici.
  • Aprite la funzione di ricerca con il pulsante del binocolo mostrato nella Figura 18.
Figura 18. Aprire la finestra "Cerca...".
  • Nella finestra che si apre, scegliere la scheda "Fulltext (Sorl)".
  • È sufficiente digitare la parola da cercare e premere il pulsante "Cerca".
  • I risultati appariranno in basso: passando con il cursore su un risultato, si vedrà l'anteprima della parola; facendo doppio clic su un risultato, la pagina che lo contiene si aprirà sullo sfondo.
  • È inoltre possibile contrassegnare l'opzione "Ricerca sfumata": La ricerca sfumata è una tecnica di ricerca che consente di trovare parole simili oltre alle corrispondenze esatte per il termine di ricerca. Questo può essere utile quando sono plausibili ortografie alternative.
Figura 19. Ricerca full-text

Crediti

Vorremmo ringraziare i molti utenti che con il loro feedback hanno contribuito a migliorare il software Transkribus.

Transkribus e la tecnologia che c'è dietro sono resi disponibili attraverso i seguenti progetti e siti:

Contatto

http://transcriptorium.eu/figs/jaune.jpg

La piattaforma Transkribus è fornita dalla Cooperativa Europea READ-COOP SCE.

Fino a giugno 2019 Transkribus è stato finanziato come parte del progetto Horizon 2020 READ sotto l'accordo di sovvenzione n. 674943.