Come trascrivere i giornali con Transkribus

Come trascrivere i giornali con Transkribus

Ultimo aggiornamento 1 mese fa
Informazioni su Transkribus

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Sommario

Sommario

1TP16I giornali sono una fonte inestimabile di informazioni per gli storici. Non solo forniscono una cronaca degli eventi descritti dalle persone che vivevano all'epoca, ma permettono anche ai ricercatori di studiare le tendenze a lungo termine, dal numero di epidemie di colera in una certa città all'opinione pubblica su un determinato argomento.

In passato, se un ricercatore voleva accedere a una raccolta di giornali, doveva prima recarsi alla biblioteca o all'archivio in cui era conservata e cercare manualmente nella raccolta per trovare le informazioni di cui aveva bisogno. Ma una tecnologia come Transkribus ha rivoluzionato questo processo. Transkribus utilizza l'intelligenza artificiale per trascrivere automaticamente documenti come i giornali e crearne versioni digitali. Queste versioni digitali possono poi essere facilmente ricercate per parole chiave o informazioni specifiche, rendendo molto più facile per gli storici trovare le informazioni di cui hanno bisogno. 

Tuttavia, a differenza di altri materiali come lettere o libri, i giornali presentano alcune sfide per le piattaforme di riconoscimento del testo. In questo post vorremmo esaminare come trascrivere al meglio i giornali con Transkribus, in modo da ottenere le trascrizioni più accurate possibili.

Perché i giornali sono così difficili per Transkribus?

In generale, le piattaforme di riconoscimento del testo trovano più facile trascrivere i testi stampati che quelli scritti a mano. In teoria, quindi, il testo stampato dei giornali non dovrebbe essere troppo difficile da trascrivere. 

Tuttavia, non è il testo a costituire una sfida per i giornali, ma il layout. Prima di iniziare il riconoscimento del testo, Transkribus esegue un riconoscimento del layout: in altre parole, rileva quali parti della pagina contengono testo e dove iniziano e finiscono le singole righe di testo. Sono questi blocchi e linee di testo che vengono poi trascritti. Ciò significa che se il riconoscimento del layout non viene eseguito correttamente, Transkribus non saprà quali parti della pagina trascrivere e produrrà quindi una trascrizione imprecisa.

Prendiamo alcuni esempi reali. Nel documento qui sotto, il testo è organizzato in un unico grande blocco e in righe regolari. Questo tipo di layout è abbastanza facile da riconoscere per Transkribus e quindi il riconoscimento del layout appare come segue:

© Diario di Marjory Fleming, Biblioteca Nazionale di Scozia, dominio pubblico, via Biblioteca nazionale di Scozia

Come si può notare, ogni riga di testo è stata sottolineata correttamente con una linea blu. Poiché il riconoscimento del layout è accurato, Transkribus sa esattamente quali parti del testo trascrivere ed è quindi in grado di produrre una trascrizione accurata:

© Diario di Marjory Fleming, Biblioteca Nazionale di Scozia, dominio pubblico, via Biblioteca nazionale di Scozia

Un giornale, invece, ha un layout molto più complicato. Il testo non è in un unico blocco, ma è diviso in più blocchi su più colonne, insieme a titoli, prezzi e altri elementi irregolari. Questo tipo di impaginazione è molto più difficile da rilevare per Transkribus, per cui il riconoscimento del layout può risultare come questo:

© Berliner Tageblatt - 1927-04-05, Staatsbibliothek zu Berlin, Pubblico dominio, via Europeana

Invece di sottolineare ordinatamente ogni riga di testo, le linee blu sono sparse sul testo in modo disordinato e con angoli strani. È chiaro che Transkribus non sa dove si trovi effettivamente il testo sulla pagina e quindi non è in grado di fornire una trascrizione accurata, come mostra l'immagine sottostante:

© Berliner Tageblatt - 1927-04-05, Staatsbibliothek zu Berlin, Pubblico dominio, via Europeana

Questa trascrizione è di scarsa utilità per uno storico. Tuttavia, è stata creata utilizzando le impostazioni predefinite di Transkribus per il riconoscimento del layout. Modificando tali impostazioni, è possibile ottenere risultati molto migliori.

Come migliorare il riconoscimento del layout con i giornali

Per rendere il riconoscimento del layout più adatto ai giornali è necessario un processo in due fasi. Innanzitutto, è necessario rilevare la struttura della pagina con il metodo di rilevamento dei blocchi stampati. Quindi è necessario configurare manualmente le impostazioni di Riconoscimento layout in modo che possano riconoscere i giornali in modo più efficace.

Nota bene: normalmente il riconoscimento del layout viene eseguito automaticamente come parte del processo di riconoscimento del testo. Per eseguire entrambi i passaggi sopra descritti, è necessario eseguire il Riconoscimento layout come fase separata prima di eseguire il Riconoscimento testo, come descritto nelle istruzioni seguenti.

Rilevamento del blocco stampato

Il metodo di rilevamento dei blocchi stampati è un modo per mostrare manualmente a Transkribus dove si trovano i singoli blocchi di testo in una pagina. Nel caso di un giornale, ogni blocco contiene normalmente un articolo. Per eseguire il metodo Rilevamento blocchi stampati, è necessario:

  • Selezionare la pagina o le pagine che si desidera trascrivere.
  • Fare clic su "Riconoscimento layout" nel menu a sinistra. 
  • Selezionare il metodo di rilevamento dei blocchi stampati e avviare il riconoscimento. La pagina verrà suddivisa in diversi blocchi, come mostrato nel video sottostante.
  • È quindi possibile regolare manualmente i blocchi per garantire che si adattino esattamente al layout della pagina.

Modifica delle impostazioni di riconoscimento del layout

Una volta che Transkribus ha rilevato con successo i blocchi di testo sulla pagina, è possibile eseguire il riconoscimento del layout nella sua interezza:

  • Selezionare la pagina o le pagine che si desidera trascrivere.
  • Selezionate "Riconoscimento testo" dal menu a sinistra.
  • Selezionare "Layout" dal menu a discesa in alto.
  • Fare clic su "Modelli pubblici" e selezionare "Orientamento linee testo misto".
  • Fare clic su "Configura" e modificare le impostazioni come mostrato di seguito.
  • È quindi possibile regolare manualmente le linee in modo che sottolineino correttamente ogni riga di testo.
Generazione di regioni di testo (blocchi di layout))Mantenere l'esistente
Ridimensionamento dell'immagineDi alto livello
(fare clic su Opzioni Baseline) 
Lunghezza minima BaselineBasso
Baseline Soglia di precisioneAlto
Utilizzare separatori addestratiNo
Distanza massima per la fusione delle linee di baseMedio
Linee divise sul bordo delle regioni

Il video qui sotto mostra questi passaggi in modo completo:

Come dovrebbe apparire il vostro giornale dopo il riconoscimento dell'impaginazione migliorata

Utilizzando le impostazioni predefinite di Transkribus per il riconoscimento del layout con un giornale, sono stati prodotti dei ghirigori blu su tutta la pagina. Tuttavia, seguendo i passaggi sopra descritti, Transkribus è stato in grado di riconoscere il layout dei giornali e di contrassegnare correttamente ogni blocco e riga di testo:

© Berliner Tageblatt - 1927-04-05, Staatsbibliothek zu Berlin, Pubblico dominio, via Europeana

Ora che Transkribus sa dove si trova il testo sulla pagina, può trascriverlo correttamente. Ricordate questa trascrizione?

© Berliner Tageblatt - 1927-04-05, Staatsbibliothek zu Berlin, Pubblico dominio, via Europeana

Ora si presenta così:

© Berliner Tageblatt - 1927-04-05, Staatsbibliothek zu Berlin, Pubblico dominio, via Europeana

Naturalmente, a seconda del materiale, potrebbero essere necessari alcuni interventi di post-editing. Ma in generale, seguendo questi passaggi si dovrebbe ottenere una trascrizione automatica di livello sufficientemente elevato per la maggior parte delle ricerche.

Ulteriori suggerimenti e trucchi

Ci sono altre cose che si possono fare per facilitare la trascrizione dei giornali.

  • Assicuratevi di avere immagini di buona qualità. In generale, migliore è la qualità dell'immagine, migliore è la qualità della trascrizione. Se le scansioni sono sfocate o presentano segni o altri "rumori", si consiglia di effettuare nuove scansioni in buone condizioni di illuminazione.
  • In alcuni casi, può essere utile raddoppiare le dimensioni delle scansioni prima di caricarle su Transkribus.
  • Le impostazioni di riconoscimento del layout descritte sopra sono quelle che abbiamo trovato più efficaci per la maggior parte dei giornali. Tuttavia, a seconda del vostro giornale specifico, può essere utile provare diverse configurazioni di impostazioni per vedere cosa funziona meglio per il vostro particolare layout.
  • Se si decide di provare diverse impostazioni, si consiglia di farlo prima su alcune pagine di prova. Una volta trovata la combinazione di impostazioni che fa al caso vostro, potete eseguire il Riconoscimento layout sull'intero documento o raccolta.

Ulteriori risorse

Ci auguriamo che questa guida vi dia una buona visione di come trascrivere i giornali in modo efficace con Transkribus. Per ulteriori informazioni, consultate la nostra pagina su trascrizione di giornali nel Centro assistenza Transkribus.