Utilizzo di Transkribus per l'OCR con i libri stampati

Transkribus è noto per la sua capacità di trascrivere e arricchire documenti scritti a mano, ma sapevate che potete usare Transkribus anche come software OCR? OCR sta per riconoscimento ottico dei caratteri ed è una tecnologia utilizzata per trascrivere il testo nelle immagini, proprio come fa Transkribus. Tuttavia, la differenza è che i sistemi OCR sono solitamente in grado di trascrivere solo testi stampati e non testi scritti a mano come i documenti storici.

Il vantaggio dei sistemi di riconoscimento del testo scritto a mano (HTR), come Transkribus, è che sono in grado di trascrivere sia i testi scritti a mano che i testi in formato digitale. e testi stampati. In effetti, ci sono stati diversi progetti Transkribus che hanno comportato la digitalizzazione e la trascrizione su larga scala di libri e altri testi stampati. Se anche voi state cercando di digitalizzare una collezione di libri stampati, ecco tutto ciò che dovete sapere sull'utilizzo di Transkribus come servizio OCR.

Che cos'è l'OCR?

Come accennato nell'introduzione, esiste una somiglianza fondamentale tra le piattaforme di riconoscimento ottico dei caratteri (OCR) e di riconoscimento del testo scritto a mano (HTR): entrambe convertono l'immagine di un documento in testo. È possibile caricare una pagina scansionata di un libro sulla piattaforma e questa trasformerà le parole stampate in un file di testo digitale.

La differenza tra i due sistemi è la tecnologia alla base del convertitore di testo. Come suggerisce il nome, l'OCR si basa sul riconoscimento dei caratteri. Il software tradizionale di riconoscimento ottico dei caratteri è in pratica un enorme database di tutti i caratteri possibili in tutti i font possibili. Il motore OCR rileva i caratteri nell'immagine e poi, grazie a una tecnologia chiamata "pattern recognition", fa scorrere i caratteri estratti nel database, confrontandoli con ogni carattere memorizzato per verificarne la somiglianza. Una volta trovata una corrispondenza, il carattere viene inserito nella trascrizione.

Giornale alpino della Nuova Zelanda n. 12 (1922) , via Club Alpino della Nuova Zelanda

Perché utilizzare HTR per i testi stampati?

La tecnologia OCR va bene per il testo stampato, dove esiste un numero finito di font e caratteri possibili. Tuttavia, il testo scritto a mano ha un numero infinito di possibilità. Non esistono due persone che scrivono esattamente nello stesso modo e persino la stessa persona potrebbe scrivere in modo diverso in situazioni diverse, ad esempio su un modulo piuttosto che su una lista della spesa. Questo rende difficile il lavoro degli algoritmi OCR, che si trovano costantemente di fronte a informazioni molto diverse da quelle che hanno visto in precedenza. Anche i sistemi OCR con riconoscimento intelligente dei caratteri o riconoscimento ottico delle parole più avanzato spesso hanno difficoltà con i testi scritti a mano.

È qui che entra in gioco il riconoscimento del testo scritto a mano, o HTR. La tecnologia HTR, come Transkribus, è una forma più avanzata di OCR che utilizza l'apprendimento automatico per imparare a leggere diversi tipi di scrittura e fare ipotesi istruite su scritture mai viste prima. Ma anche se non necessità HTR per l'elaborazione di testi stampati, presenta diversi vantaggi rispetto all'OCR. Ad esempio, si tratta di una tecnologia più sofisticata e accurata, che utilizza diverse strategie per decifrare il testo nelle immagini, anziché limitarsi a confrontarlo con modelli preimpostati.

Ma il vantaggio maggiore di Transkribus rispetto ai normali sistemi OCR è che può essere adattato al vostro testo specifico grazie all'uso di modelli AI. Questi modelli sono stati appositamente addestrati per leggere determinati tipi di testi stampati (ad esempio, i libri tedeschi stampati in Fraktur) e si può scegliere di eseguire il riconoscimento del testo con uno degli oltre cento modelli disponibili. Poiché il sistema non ha un approccio univoco, è possibile personalizzare la piattaforma in base al tipo di testo stampato con cui si lavora, ottenendo trascrizioni più accurate.

Come eseguire l'OCR con Transkribus

Fase 1: scansione del libro

Il primo passo del processo OCR è la scansione di tutte le pagine da cui si desidera trascrivere o estrarre il testo. Esistono diversi modi per farlo, dall'utilizzo di uno scanner di fascia alta alla semplice acquisizione di un'immagine con lo smartphone.

Se si utilizza quest'ultimo metodo, si può prendere in considerazione l'utilizzo del metodo ScanTent. Questo prodotto innovativo offre l'ambiente di illuminazione ottimale per realizzare immagini di alta qualità di libri e documenti. È sufficiente posizionare il materiale da scansionare nella tenda, fissare lo smartphone al supporto sulla parte superiore e scattare un'immagine come di consueto.

Inoltre, è possibile utilizzare l'applicazione DocScan. L'applicazione può essere utilizzata con qualsiasi tipo di documento, ma è particolarmente utile per i libri, in quanto registra automaticamente quando si gira una pagina e scatta una nuova immagine dopo ogni giro. In questo modo è possibile scansionare rapidamente interi libri, senza dover premere continuamente i pulsanti sul touchscreen del telefono.

Lo strumento Biblioteca Nazionale di Francia di Parigi offre ora ScanTent a tutti i visitatori, in modo che possano facilmente realizzare immagini dei materiali presenti nella biblioteca. Per saperne di più, consultare il sito questo post del blog.

Scantent © Transkribus

Fase 2: caricamento dei documenti scansionati

Una volta ottenute le scansioni, è necessario caricarle su Transkribus. Per prima cosa è necessario creare un account e accedere. Quindi è necessario creare una collezione in cui archiviare le scansioni. Se si sta conducendo un progetto più ampio con molti libri diversi, ha senso creare una raccolta separata per ogni libro.

È possibile caricare su Transkribus scansioni in formato JPEG, PNG o PDF. Se avete utilizzato l'applicazione DocScan (vedi sopra), potete caricare automaticamente le vostre scansioni su Transkribus, senza doverle prima scaricare.

Se lavorate con informazioni private o sensibili, sarete lieti di sapere che tutti i documenti caricati su Transkribus sono privato per impostazione predefinita. I dati vengono memorizzati sui server di READ-COOP SCE (ovvero l'azienda che sviluppa e gestisce il software) in modo conforme al GDPR. I server sono tutti situati a Innsbruck, in Austria, e i dati possono essere trattati in conformità con il GDPR. Termini e condizioni sul sito web di READ-COOP SCE.

Fase 3: Scelta di un modello pubblico

Prima di iniziare il processo di riconoscimento del testo con Transkribus, è necessario scegliere un modello AI. Questo modello è come una guida che indica al software come trascrivere i singoli caratteri di ogni documento. Pertanto, il modello scelto influisce sul modo in cui Transkribus trascrive il testo dei libri.

Fortunatamente, poiché i testi stampati sono relativamente facili da trascrivere per le piattaforme HTR, sono disponibili molti modelli pubblici molto efficienti in diverse lingue. È possibile vedere tutti i modelli pubblici sul nostro sito web e può filtrare in base alla lingua e al tipo di testo (scritto a mano, dattiloscritto o stampato). In questo modo vengono visualizzati tutti i modelli pertinenti per l'esecuzione dell'OCR sui libri.

Fase 4: esecuzione del riconoscimento del testo

Il passo finale consiste nell'eseguire il riconoscimento del testo stesso. Aprite il documento o la raccolta su Transkribus e selezionate "Riconoscimento del testo" dalla barra degli strumenti di sinistra. Selezionate quindi il modello giusto per i vostri documenti e fate clic su "Avvia" per iniziare il riconoscimento del testo.

Il riconoscimento del testo può richiedere un certo tempo, a seconda delle dimensioni e del tipo di lavoro. Tuttavia, è possibile visualizzare lo stato in qualsiasi momento selezionando "Lavori" dalla barra degli strumenti di sinistra. Le istruzioni complete per il riconoscimento del testo sono qui.

Novali storici tedeschi (1789-1848), via Leggere e cercare

Come posso pubblicare online i miei libri trascritti?

Una delle motivazioni principali per la digitalizzazione e la trascrizione dei libri stampati è quella di renderli facilmente disponibili online per tutti.

Esistono vari modi per pubblicare online i propri libri digitalizzati. Spesso le grandi organizzazioni, come le università e le biblioteche, dispongono di piattaforme proprie per la pubblicazione di materiale digitalizzato. Tuttavia, se non si ha accesso a un sistema di questo tipo, è possibile pubblicare i propri libri trascritti tramite read&search.

read&search è una piattaforma facile da usare che consente di pubblicare documenti direttamente da Transkribus. È sufficiente scegliere le raccolte che si desidera pubblicare e il nostro team creerà un database completamente ricercabile di tali raccolte. In questo modo gli utenti possono cercare rapidamente le informazioni di cui hanno bisogno, senza dover cercare nella collezione. Diverse raccolte di libri stampati sono state pubblicate su read&search, tra cui la raccolta Collezione NOSCEMUS di testi scientifici e questa raccolta di romanzi storici in tedesco.

Se siete interessati a configurare un read&search per la vostra collezione, potete contattare il nostro team qui.

Provate voi stessi Transkribus:

CONDIVIDI QUESTO ARTICOLO

Post recenti

3 luglio 2024
News, Transkribus
Alcuni progetti Transkribus terminano con una collezione completa digitalizzata in Transkribus. Alcuni prendono la fonte digitalizzata e la usano per ...
12 giugno 2024
News, Transkribus
Quando si pensa alla minuscola carolingia (o carolina), probabilmente vengono in mente Carlo Magno e il suo vasto impero carolingio. Mentre il ...
14 maggio 2024
Uncategorized
La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo ...