Storia di successo
Pubblicato: 5 mesi fa

Creazione del modello di riconoscimento del testo Lion Ⅰ svedese

Semplicità, coinvolgimento dei cittadini e trascrizione guidata dall'intelligenza artificiale sono stati i fattori chiave che hanno incuriosito Olof Karsvall e il team di Archivio nazionale svedese quando hanno scoperto Transkribus.

Olof Karsvall, responsabile della ricerca presso l'Archivio Nazionale Svedese, è stato coinvolto in diversi progetti di ricerca, tra cui il più recente è l'integrazione dell'IA, che ha rivoluzionato la ricerca di materiali d'archivio. In questo post del blog, condivide le sue intuizioni su come l'IA Modello Leone svedese Ⅰ sostiene questo viaggio di trasformazione.

Materiale d'archivio del progetto Lion Ⅰ svedese.

Una collaborazione tra archivi, ricercatori e università

Il modello di riconoscimento del testo scritto a mano (HTR) del Leone svedese Ⅰ è uno sforzo collaborativo che coinvolge istituzioni come l'Istituto di ricerca e sviluppo del Regno Unito. Archivio Nazionale di Svezia e Finlandia, Archivi della città di Stoccolma, Jämtlands läns fornskriftsällskap e ricercatori di Stoccolma e Università di Uppsala. "Poiché ci concentriamo collettivamente sulla generazione di dati di formazione per l'HTR in svedese, abbiamo riconosciuto i vantaggi della collaborazione. Di conseguenza, abbiamo unito i nostri dati di formazione per creare un modello comune", afferma Olof Karsvall. Una volta addestrato, il Leone svedese Ⅰ Il modello è in grado di trascrivere automaticamente altri documenti con grafia simile, rendendolo uno strumento prezioso per la digitalizzazione e l'analisi di manoscritti storici e materiali d'archivio.  

Il cuore di questa collaborazione è Transkribus, una piattaforma che consente agli utenti di creare e addestrare modelli per specifici stili di scrittura e periodi storici. Un momento chiave è arrivato nel 2019, quando l'Archivio Nazionale di Stoccolma si è unito a READ-COOP SCE, la cooperativa che sta dietro a Transkribus. Olof Karsvall sottolinea: "Ci hanno affascinato soprattutto la facilità d'uso e l'opportunità di coinvolgere cittadini e volontari nell'utilizzo dell'IA per la trascrizione automatica".

Con i finanziamenti esterni dell'Agenzia svedese per l'innovazione (Vinnova) e ora, più recentemente, dell'Ente nazionale svedese per il patrimonio culturale, questo fascino si è evoluto in un viaggio di trasformazione, dando vita a progetti innovativi che uniscono la citizen science all'HTR senza soluzione di continuità, il tutto reso possibile da Transkribus. In questo modo, il modello del Leone svedese Ⅰ, insieme a Transkribus, apre nuove possibilità di accesso e ricerca di documenti storici.

Materiale d'archivio del progetto Lion Ⅰ svedese e trascrizione in Transkribus.

Ampliare le possibilità di ricerca

Quando si esamina più da vicino la storia dei modelli, è sempre interessante scoprire quale fosse l'obiettivo e la motivazione alla base della loro creazione. Karsvall spiega che "incorporando testi di diverso tipo provenienti da vari periodi storici, l'obiettivo è che il modello si generalizzi efficacemente e si applichi al materiale d'archivio al di là del suo ambito di formazione originale". Per creare questo modello, è stato necessario includere una varietà di testi di diversi periodi storici. Questa diversità di dati di addestramento contribuisce a rendere il modello più efficace e applicabile a un'ampia gamma di materiali d'archivio, garantendo una migliore accuratezza e prestazioni nella trascrizione di documenti scritti a mano di epoche e stili diversi.

Il Leone svedese Ⅰ è concepito come un modello di base per i testi storici svedesi, che semplificherà l'accesso ai materiali manoscritti e supporterà la ricerca guidata dai dati. 

Il modello del Leone svedese Ⅰ per la scrittura svedese.

Formazione di un modello versatile 

Lo strumento Modello Leone svedese Ⅰ, accuratamente formato utilizzando un'ampia gamma di documenti storici, in particolare atti giudiziari e verbali del 1600, 1700 e 1800, dimostra veramente le capacità di Transkribus. Olof Karsvall afferma: "Iniziare con Transkribus è stato facile". Il potenziale del software è visibile nel processo collaborativo di trascrizione di 3,3 milioni di righe di testo da 268 volumi d'archivio. Il modello finale è stato il risultato di diversi progetti che hanno creato  dati di verità a terra utilizzando modelli specializzati e applicando correzioni manuali. Tasso di errore dei caratteri (CER) di appena 4% conferma le grandi prestazioni del modello. Ciò è particolarmente evidente nell'elaborazione del testo scorrevole e delle note marginali.

Olof Karsvall riconosce una sfida nella gestione di documenti diversi: "Poiché gestiamo un'ampia gamma di documenti, una sfida significativa è stata la segmentazione di regioni e linee". Fortunatamente, l'introduzione di nuovi modelli di layout addestrabili, il modello Modelli di campo e Modelli di tabellaIl modello di Leone svedese è stato realizzato in modo da garantire una maggiore precisione e una maggiore facilità di segmentazione e di riconoscimento delle strutture di layout. Dopo tre anni di attenta trascrizione, revisione manuale e correzione, il modello del Leone svedese Ⅰ è ora pronto e disponibile come modello pubblico!


-> Modello Leone svedese Ⅰ 

Le prossime tappe del Modello del Leone Svedese Ⅰ


La speranza è che il modello di riconoscimento del testo di Lion I svedese raggiunga nuovi utenti attraverso Transkribus e stimoli l'utilizzo di materiale d'archivio storico in svedese. Il suo sviluppo collaborativo, che coinvolge diverse istituzioni, ricercatori e volontari, è già una grande ispirazione. Karsvall sottolinea l'intenzione di estendere questa collaborazione, creando un modello più ampio che copra periodi più antichi e materiali diversi, promuovendo così la citizen science. I colleghi e la comunità archivistica hanno già mostrato un interesse crescente, che ha portato ad aumentare le richieste di collaborazione. Il team prevede di applicare il modello a diverse collezioni di grandi dimensioni per soddisfare le aspettative di una maggiore accessibilità agli archivi, dopo la pubblicazione del modello Swedish Lion Ⅰ.

Grazie a Olof Karsvall per l'intervista e per aver condiviso il viaggio del modello svedese Lion Ⅰ!

I suggerimenti di Olof Karsvall per il Transkribus:

"chiedere consiglio ad altri che hanno già intrapreso progetti simili".

"Condividete i vostri dati; tutti ne traggono vantaggio se i dati possono essere riutilizzati".

Miniature: Olof Karsvall, ©️Emre Olgun

Panoramica