Storia di successo
Pubblicato: 1 anno fa

Trascrizione di 3 milioni di scansioni presso l'Archivio nazionale dei Paesi Bassi

Alcuni progetti Transkribus sono di poche pagine. Molti sono lunghi qualche centinaio o migliaio di pagine. Ma l'ultimo progetto Transkribus al Archivio nazionale dei Paesi Bassi ha coinvolto ben 3 milioni di pagine di documenti. E questo è solo l'inizio. Nei prossimi anni, l'archivio olandese si propone di scansionare circa 10% dell'intera collezione - vale a dire più di 10 milioni di scansioni all'anno - e di trascrivere almeno una parte della collezione per renderla più accessibile.

Abbiamo parlato con Liesbeth Keijser, Project Manager per la digitalizzazione presso l'Archivio Nazionale dei Paesi Bassi, per saperne di più sulla digitalizzazione di collezioni di documenti così ampie con Transkribus.

Benvenuti all'Archivio nazionale dei Paesi Bassi

Con sede nella città costiera olandese dell'Aia, l'Archivio Nazionale dei Paesi Bassi è il più grande archivio del Paese. Ospita centinaia di anni di documenti governativi e ufficiali, oltre a documenti privati rilevanti per la storia dei Paesi Bassi. L'archivio conserva milioni di pagine. La collezione è così vasta che, se la si mettesse in fila, si estenderebbe per oltre 140 km!

L'Archivio Nazionale dei Paesi Bassi è il più grande archivio del Paese © Tineke Dijkstra

Tuttavia, la maggior parte dei documenti dell'archivio è ancora cartacea, il che rende difficile l'accesso in due modi. In primo luogo, è necessario recarsi all'Aia per consultare l'archivio. In secondo luogo, e probabilmente più importante, non c'è modo di cercare rapidamente informazioni specifiche in intere collezioni. Invece di digitare semplicemente un termine di ricerca in un database, è necessario cercare manualmente tra le collezioni di documenti, il che è infinitamente più dispendioso in termini di tempo.

Con questo obiettivo, l'Archivio Nazionale ha intrapreso un'ambiziosa strategia di digitalizzazione. "Il nostro piano prevede di digitalizzare 10% dei nostri archivi nei prossimi 15 anni", ha spiegato la responsabile della digitalizzazione Liesbeth. "Questo porterà a più di 100 milioni di scansioni in un paio d'anni". 

Per rendere le scansioni più accessibili, l'archivio sta utilizzando una tecnologia di riconoscimento del testo scritto a mano per trascrivere automaticamente il testo scritto a mano e convertirlo in un file di testo digitale. Si è deciso di iniziare con una collezione di 3 milioni di pagine, principalmente documenti relativi alla Compagnia olandese delle Indie orientali nel XVII e XVIII secolo e atti notarili del XIX secolo. Questo primo progetto avrebbe posto le basi per le parti successive della strategia di digitalizzazione.

Creare un modello di intelligenza artificiale con Transkribus

L'Archivio Nazionale ha iniziato a lavorare con la tecnologia di riconoscimento della scrittura circa cinque anni fa e il team è rimasto piacevolmente sorpreso dalla sua facilità. "L'utilizzo di Transkribus e la creazione di un modello di intelligenza artificiale personalizzato sono stati piuttosto semplici", ha detto Liesbeth. All'inizio puntavamo a un CER [tasso di errore dei caratteri] di 20%, e ci saremmo accontentati di questo. Ma dopo aver creato 6.000 pagine di dati di addestramento, siamo arrivati a un CER di 7%, che per noi era ancora meglio".

In linea con i valori cooperativi di Transkribus, il team di Liesbeth ha anche deciso di rendere pubblico il proprio modello di intelligenza artificiale, in modo che altre persone possano trarre vantaggio dal loro lavoro. Il loro modello, Grafia olandese del 17°-19° secolocontiene ora quasi 1,5 milioni di parole e può essere utilizzato da qualsiasi utente di Transkribus che lavori con documenti simili.

Pubblicare le trascrizioni

Per Liesbeth e il suo team, la trascrizione è stata la fase meno complicata del progetto. "Trascrivere tutto è stata la parte più semplice", ha spiegato. "Pubblicare tutto online è stato molto più complesso, sia dal punto di vista archivistico che tecnico". Decidere come organizzare tutto in un formato logico online è stata una sfida, trovare persone con le giuste capacità di sviluppo per creare esattamente ciò di cui l'archivio aveva bisogno è stata un'altra sfida.

Durante il progetto sono state trascritte automaticamente oltre 3 milioni di pagine © Zoeken in transcripties

Dopo aver preso in considerazione diverse soluzioni, il team ha deciso di costruire un sistema personalizzato suddiviso in un back-end e un front-end separato da due fornitori. Il risultato è stato il sistema "Cerca nelle trascrizioni". Sebbene il progetto sia ancora in corso, la piattaforma fornisce già l'accesso a una grande quantità di documenti, rendendo molto più facile per i ricercatori e le persone interessate trovare le informazioni di cui hanno bisogno. Il team ha anche aggiunto al sistema il riconoscimento delle entità nominate, in modo da arricchire automaticamente le trascrizioni con entità nominate come persone e luoghi.

"L'ideale sarebbe avere una piattaforma che si integri perfettamente con la nostra infrastruttura IT esistente. Questo non è ancora possibile, ma siamo comunque abbastanza soddisfatti dei risultati ottenuti finora".

I vantaggi della digitalizzazione

E non è solo il team di Liesbeth a essere soddisfatto della nuova collezione digitalizzata. "Stiamo ancora raccogliendo dati precisi sulla soddisfazione degli utenti, ma la nostra impressione è che il nuovo sistema piaccia".

"Un buon esempio è stato il feedback agrodolce che abbiamo ricevuto da alcuni ricercatori accademici. A loro piaceva molto che tanti documenti fossero improvvisamente così facilmente accessibili. Ma poiché improvvisamente avevano così tante nuove fonti con cui lavorare, si sono resi conto di dover abbandonare le loro attuali conclusioni e ricominciare da capo. Credo che questo dimostri l'impatto che un progetto di digitalizzazione come questo può avere sulla ricerca accademica".

Grazie, Liesbeth, per averci parlato!

Il suggerimento di Liesbeth per il Transkribus:

"Quando ci si imbarca in un progetto come questo, bisogna assicurarsi che nel team ci sia qualcuno con un background nell'IA. È difficile confrontare tecnologie diverse se non se ne comprendono le differenze, quindi assicuratevi che il team abbia queste conoscenze prima di iniziare".

Immagine di copertina: © Anne Reitsma Fotografie

Panoramica