Come digitalizzare i materiali d'archivio con Transkribus

Se pensate a un archivio, potreste pensare a vecchie cantine polverose piene di scatole di documenti disorganizzati. Ma nell'era tecnologica gli archivi stanno assumendo un nuovo ruolo. Non si tratta più di collezioni puramente fisiche di carte, manoscritti o supporti fisici, come fotografie o opere d'arte. Al contrario, gli archivi stanno diventando collezioni digitali completamente consultabili, che rendono più facile per i ricercatori e il pubblico in generale accedere a documenti e oggetti storici da qualsiasi luogo e in qualsiasi momento.

Tuttavia, la digitalizzazione di un archivio in questo modo rappresenta una sfida. Un grande archivio nazionale può contenere milioni di pagine di testo, che devono essere trascritte per produrre versioni digitali. In precedenza, ciò avveniva manualmente: ogni singola parola del documento veniva digitata da un essere umano in un programma informatico. Come si può immaginare, trascrivere in questo modo è un processo che richiede molto tempo e ci vorrebbero letteralmente decenni per trascrivere i milioni di materiali d'archivio presenti in un grande archivio.

È qui che entra in gioco Transkribus. Transkribus è una piattaforma basata sull'intelligenza artificiale che utilizza l'apprendimento automatico per imparare a leggere un tipo specifico di scrittura, indipendentemente dalla lingua del testo o dal momento in cui è stato scritto. Una volta che la piattaforma è in grado di riconoscere sufficientemente la scrittura, può trascrivere migliaia di pagine con un semplice clic.

In questo post vogliamo fornirvi una panoramica dei diversi tipi di materiali d'archivio che possono essere trascritti con Transkribus. Imparerete come elaborare i materiali utilizzando la piattaforma e ci saranno anche esempi di archivi che hanno digitalizzato con successo le loro collezioni con Transkribus e le hanno rese adatte al futuro.

Gli archivi ospitano molti tipi diversi di materiale scritto. © Tatakdh / Wikimedia Commons / CC BY-SA 4.0

Cosa sono i materiali d'archivio?

Esistono diversi tipi di materiali d'archivio, ma tutti hanno una cosa in comune: sono tutti fonti primarie. Ciò significa che sono stati scritti nel momento in cui un particolare evento storico ha avuto luogo, di solito da qualcuno che era presente. Per questo motivo, i materiali d'archivio sono particolarmente utili per la ricerca storica e la maggior parte degli oggetti presenti in un archivio può essere utilizzata come fonte scientifica. Alcuni dei principali tipi di materiali d'archivio sono:

Manoscritti: Si tratta di qualsiasi tipo di materiale scritto a mano ("manu scripti" in latino significa "scritto a mano"). I manoscritti più antichi ancora in vita hanno migliaia di anni e sono estremamente fragili. Maneggiare materiale d'archivio come i vecchi manoscritti è un compito delicato, per cui la creazione di versioni digitali di essi rende possibile a tutti l'accesso ai contenuti senza danneggiare il manoscritto.

Documenti d'archivio: Si tratta di documenti redatti da individui o organizzazioni per tenere un resoconto scritto di eventi quali nascite, morti, riunioni, finanze e molto altro. Secondo il Glossario SAAIl termine "documento archivistico" indica solitamente documenti non pubblicati, piuttosto che manufatti pubblicati come i libri.

Lettere, diari e documenti personali: Questi tipi di materiale molto importanti danno un'idea della vita delle persone che li hanno scritti e del mondo in cui vivevano all'epoca. Sono particolarmente utili quando si studia un singolo individuo o un piccolo gruppo.

L'organizzazione dei materiali d'archivio non si limita a scrivere una descrizione e a collocarli nello scaffale giusto. Ogni oggetto viene classificato in base a diversi "elementi", che sono inclusi nella descrizione archivistica. Questi elementi includono elementi intellettuali, come il nome, la data e il tipo di materiale; elementi fisici, come il numero di pagine o la posizione; e l'elemento di presenza del supporto, che comprende il tipo di supporto, il colore, le dimensioni, il numero di pezzi e il numero di riproduzioni. Questi elementi dei materiali d'archivio facilitano la ricerca di un determinato materiale e la comprensione immediata del suo contesto.

L'ScanTent può essere utilizzato per creare scansioni di alta qualità di materiali d'archivio. © Transkribus

Una guida passo-passo alla digitalizzazione di materiali d'archivio con Transkribus

Transkribus è una piattaforma alimentata dall'intelligenza artificiale che converte testi scritti a mano o stampati in trascrizioni digitali. Viene utilizzata in molti archivi in tutto il mondo per trascrivere materiali in una frazione del tempo necessario a un essere umano. Ciò consente di digitalizzare rapidamente intere collezioni e di renderle accessibili a tutti.

Di seguito una breve panoramica su come trascrivere i materiali con Transkribus. Per maggiori dettagli, consultate il nostro Centro assistenzache contiene informazioni dettagliate su ogni fase del processo.

Fase 1: Creare immagini dei materiali d'archivio

Per utilizzare Transkribus, è necessario disporre di immagini o scansioni di alta qualità dei documenti da trascrivere. Queste devono essere in formato JPEG, PNG o PDF.

È possibile creare immagini utilizzando qualsiasi cosa, da una sofisticata tecnologia di scansione a un normale smartphone. Se si utilizza questa seconda opzione, si consiglia di utilizzare un dispositivo come il ScanTentper garantire un'illuminazione e una qualità dell'immagine ottimali.

Fase 2: Registrazione a Transkribus

Prima di poter trascrivere in Transkribus, è necessario creare un account. Andate a app.transkribus.eu , cliccare su "Iscriviti gratuitamente" e seguire le istruzioni. Per saperne di più registrazione e login nel nostro Centro assistenza.

Passo 3: caricare le immagini

Le immagini sono archiviate in "collezioni" su Transkribus. È possibile organizzare le raccolte nel modo desiderato. Ad esempio, una raccolta può includere tutte le scansioni di un determinato libro o di una collezione fisica.

Avviare la raccolta facendo clic su "Strumenti" e poi su "Crea una raccolta". Una volta creata la raccolta, selezionarla nel Workdesk e fare clic su "Carica" nella barra degli strumenti di sinistra. È quindi possibile selezionare i documenti che si desidera caricare.

Le vostre immagini e i vostri dati saranno conservati sui server di READ-COOP SCE, che si trovano tutti a Innsbruck, in Austria, in modo conforme al GDPR, e potranno essere trattati in base alla nostra Termini e condizioni. Se i dati non possono lasciare la vostra infrastruttura per motivi di privacy, consultate la nostra soluzione On-Prem (https://readcoop.eu/transkribus/on-prem/).

Per saperne di più creazione di collezioni e caricare i documenti nel nostro Centro assistenza.

Fase 4: creare una trascrizione automatica

Aprire la raccolta e selezionare un'immagine particolare. Fare clic su "Avvia trascrizione automatica" per avviare il processo di trascrizione.

È quindi necessario selezionare un modello. Si tratta di un pezzo di codice che contiene tutte le informazioni di cui Transkribus ha bisogno per trascrivere accuratamente il testo. Sono disponibili oltre 100 modelli pubblici, che coprono lingue e periodi diversi. Selezionate quello più pertinente al vostro materiale e fate clic su "Avvia".

Una volta completata l'elaborazione, la trascrizione automatica apparirà sul lato destro dello schermo. Per saperne di più trascrizione automatica dei documenti nel nostro Centro assistenza.

Transkribus può creare trascrizioni automatiche di qualsiasi documento storico. © Transkribus

Come migliorare l'accuratezza e l'efficienza delle trascrizioni

I modelli pubblici come quelli descritti sopra sono addestrati a trascrivere un'ampia gamma di materiali d'archivio con ragionevole accuratezza. Tuttavia, se volete migliorare l'accuratezza o l'efficienza delle vostre trascrizioni, ecco un paio di consigli.

Controllare la qualità delle scansioni

Migliore è la qualità delle scansioni, migliore sarà la trascrizione automatica. Pertanto, è opportuno verificare che tutto il testo delle scansioni sia chiaramente leggibile; come già detto, una buona illuminazione durante la ripresa delle immagini è di grande aiuto. Dovete anche assicurarvi che non ci siano segni o altri "rumori" che potrebbero influenzare l'elaborazione di Transkribus.

Infine, verificate che tutte le scansioni siano state caricate con l'orientamento corretto (verticale o orizzontale), poiché anche questo avrà un impatto sul riconoscimento del layout. Ruotare le scansioni non corrette per riportarle all'orientamento originale e caricarle nuovamente su Transkribus.

Migliorare il riconoscimento del layout

Prima di riconoscere il testo, Transkribus deve sapere in quale punto della pagina si trova il testo. A questo scopo utilizza il riconoscimento del layout. Questo analizza quali parti del documento contengono testo e contrassegna visivamente ogni singola riga. Sono queste righe di testo che vengono poi riconosciute dalla piattaforma.

Tuttavia, ciò significa anche che se il riconoscimento del layout non è corretto, anche il testo verrà trascritto in modo errato. Pertanto, eventuali errori nel riconoscimento del layout devono essere corretti manualmente per garantire una trascrizione accurata. Se si dispone di un materiale basato su una tabella, ad esempio un registro delle nascite, è possibile programmarlo separatamente in Transkribus, in modo che la piattaforma riconosca correttamente le righe e le colonne.

Per saperne di più riconoscimento manuale del layout e tavoli nel nostro Centro assistenza.

Un buon riconoscimento del layout porta a un buon riconoscimento del testo. © Transkribus

Addestrare un modello personalizzato

Transkribus non si limita a fornire modelli pubblici, ma consente anche di formare modelli personalizzati. Si tratta di modelli personalizzati in base al materiale individuale, che consentono di ottenere trascrizioni più accurate.

Per addestrare un modello personalizzato, è necessario trascrivere manualmente circa 5.000-15.000 parole, a seconda della complessità della scrittura. Transkribus utilizzerà quindi questo materiale trascritto per imparare a leggere la scrittura e creare un modello in grado di riconoscere testi simili in futuro.

Molti archivi addestrano modelli personalizzati per il riconoscimento di un tipo specifico di raccolta, ad esempio gli atti comunali di un determinato periodo o gli atti notarili scritti da un gruppo selezionato di notai. Ciò consente di trascrivere le raccolte in modo molto più accurato e di ridurre le operazioni di post-editing. Per saperne di più modelli di formazione nel nostro Centro assistenza.

3 archivi che hanno digitalizzato con successo i loro materiali con Transkribus

Gli archivi di tutto il mondo hanno utilizzato Transkribus per trascrivere molti tipi diversi di materiali e crearne versioni digitali. Per maggiori informazioni su alcuni dei nostri progetti archivistici di maggior successo, consultate gli articoli del blog qui sotto.

Trascrizione di 3 milioni di scansioni presso l'Archivio nazionale dei Paesi Bassi

L'Archivio Nazionale dei Paesi Bassi ospita letteralmente milioni di pagine di materiale, sia stampato che scritto a mano. Nell'ambito della loro strategia di digitalizzazione, gli archivi hanno utilizzato Transkribus per trascrivere 3 milioni di pagine di registri e atti notarili dei secoli XVII-XIX. Il modello personalizzato che hanno formato è ora disponibile per tutti come modello pubblico. Per saperne di più sul progetto qui.

Creazione di un'edizione digitale accademica dei documenti di Lovelace

I documenti Lovelace, conservati presso la Bodleian Library di Oxford, sono le lettere private e i promemoria della matematica del XIX secolo Ada Lovelace. In tutto sono circa 14.000 pagine, che la ricercatrice Jessica Cook sta utilizzando per addestrare un modello personalizzato in base alla calligrafia individuale di Lovelace e a quella di altri collaboratori, come il marito e la madre. Per saperne di più sul progetto qui.

Come l'Archivio di Stato di Zurigo ha pubblicato 50.000 pagine online

L'Archivio di Stato di Zurigo è una miniera di informazioni storiche sulla città svizzera. Tuttavia, l'accesso fisico alla collezione premoderna dell'archivio era una sfida, che ha spinto l'archivio a creare una versione digitale facilmente accessibile online. Grazie a un modello accurato, il team è riuscito a trascrivere e pubblicare 50.000 pagine di verbali del consiglio comunale in soli tre anni. Per saperne di più sul progetto qui.

Provate voi stessi Transkribus

Transkribus è una piattaforma alimentata dall'intelligenza artificiale che trascrive il testo scritto a mano premendo un pulsante.

È possibile provare la versione completa di Transkribus all'indirizzo app.transkribus.eu oppure provate la nostra versione demo qui sotto.

CONDIVIDI QUESTO ARTICOLO

Post recenti

3 luglio 2024
News, Transkribus
Alcuni progetti Transkribus terminano con una collezione completa digitalizzata in Transkribus. Alcuni prendono la fonte digitalizzata e la usano per ...
12 giugno 2024
News, Transkribus
Quando si pensa alla minuscola carolingia (o carolina), probabilmente vengono in mente Carlo Magno e il suo vasto impero carolingio. Mentre il ...
14 maggio 2024
Uncategorized
La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo ...