Storia di successo
Pubblicato: 3 mesi fa

Come rendere accessibile una collezione completa con Transkribus. Un esempio di best practice dall'Archivio di Stato del Tirolo

Dalla digitalizzazione con la ScanTentall'uso dell'intelligenza artificiale per il riconoscimento di formulari scritti a mano fino alla pubblicazione di documenti utilizzando la tecnologia di read&search - con il progetto "Schede anagrafiche del personale militare" dell'Archivio di Stato del Tirolo, READ-COOP SCE ha rimosso tutti gli ostacoli con la piattaforma Transkribus . Ora, più di 98.000 file sono disponibili al pubblico. Essi riflettono i destini di circa 90.000 giovani soldati della regione storica del Tirolo che hanno prestato servizio militare nell'esercito austro-ungarico alla fine del XIX secolo. Questa collezione unica è di grande importanza per gli studiosi e molti storici di famiglia ed è già stata molto richiesta.

Christoph Haidacher, direttore dell'Archivio di Stato del Tirolo, commenta: "Per l'Archivio di Stato del Tirolo, la collaborazione con il Dr. Günter Mühlberger e READ-COOP SCE ha offerto l'opportunità unica di rendere accessibile online, oltre i confini della nostra sala di lettura, e quindi a tutti gli interessati, una collezione molto richiesta in tutta la regione europea del Tirolo. La disponibilità di fondi d'archivio selezionati sul web in tutto il mondo in combinazione con il riconoscimento automatico della grafia, significa aprire una strada che l'Archivio di Stato del Tirolo è felice di perseguire con i suoi partner.

Il progetto è stato realizzato in diverse fasi: A gennaio e febbraio 2020 sono state scannerizzate le schede dell'Alto Adige e del Trentino e a febbraio e marzo 2021 sono state scannerizzate le schede del Tirolo del Nord - insieme, poco più di 98.000 scannerizzazioni individuali. Ogni scansione rappresenta la prima pagina di una scheda personale.

Foglio di registrazione dell'esercito imperiale e reale.

Il file di solito consiste in diversi fogli, che sono stati rilegati con punti metallici o nastro adesivo. A causa di un carico di lavoro altrimenti molto elevato, solo la prima pagina del file è stata digitalizzata in ogni caso. Le scansioni delle pagine rimanenti possono essere ordinate per una piccola tassa con una procedura su richiesta.

Sono state utilizzate diverse ScanTent per la digitalizzazione. Di solito lavoravano allo stesso tempo da cinque a sette studenti.

Digitalizzazione con ScanTent e smartphone

Usando l'app DocScan , le pagine sono state scannerizzate e ritagliate, e immediatamente caricate nella piattaforma Transkribus. La denominazione dei file è stata fatta secondo l'etichettatura delle scatole originali. L'intera collezione ha potuto così essere completamente digitalizzata in meno di 20 giorni lavorativi.

In un ulteriore passo, è stato addestrato un modello speciale per riconoscere il layout. Qui è stato usato lo strumento P2PaLa. Poiché le schede anagrafiche del personale militare, "Grundbuchblätter" in tedesco, sono moduli complessi che sono cambiati nel corso degli anni e sono talvolta molto incoerenti, il riconoscimento della scrittura è stato deliberatamente limitato al nome, al luogo e all'anno di nascita. Questi tre campi, presenti in tutti i tipi di formulari, sono stati addestrati su diverse centinaia di esempi. I campi vengono identificati dal software in modo abbastanza affidabile, come mostra l'esempio seguente ("Name" = nome, "Ort" = luogo (di nascita), "Jahrgang" = anno di nascita).

Riconoscimento del testo e della struttura con Transkribus

Parallelamente alla creazione del modello di impaginazione, è stato addestrato un modello speciale di scrittura per riconoscere i veri nomi e cognomi, cioè la scrittura all'interno dei campi "nome" precedentemente identificati. A questo scopo, sono state trascritte manualmente le prime 10 pagine di ogni documento della collezione altoatesina e alcuni documenti nella loro interezza, come dati di addestramento. Inoltre, sono stati aggiunti i dati dei nomi di altri progetti, come quello sul Catasto Francescano, e il modello generale "Transkribus German Kurrent M2" è stato utilizzato come modello di base. Solo il campo del nome è stato riconosciuto con questo modello speciale - una caratteristica che probabilmente è ancora troppo poco conosciuta.

Riconoscimento per un campo strutturale

Transkribus permette di applicare diversi modelli ai singoli campi strutturali. I due campi rimanenti, cioè luogo e anno di nascita, sono stati riconosciuti con il modello standard "German Kurrent M2". La qualità del riconoscimento di circa 89% è soddisfacente, considerati i campi del modulo piuttosto impegnativi, i molti tipi di font e scrittori diversi e l'insieme relativamente piccolo di dati di addestramento. L'elaborazione automatizzata, che è stata effettuata direttamente nella piattaforma, ha richiesto diverse settimane, compresi i tempi di attesa dovuti ai molti lavori individuali.

L'ultima parte consisteva poi nel rendere i dati disponibili usando l'interfaccia web "read&search". Questo processo poteva essere completato in modo relativamente veloce, dato che i documenti erano già in Transkribus e ciò che rimaneva era l'impostazione del relativo sito web con le immagini di sfondo richieste, i testi descrittivi, i caratteri, i colori ecc.

Le schede anagrafiche del personale militare dell'Archivio di Stato del Tirolo sono ora accessibili online all'indirizzo: http://transkribus.eu/r/grundbuchblaetter/.

Una componente di crowd-sourcing verrà aggiunta al progetto nei prossimi mesi. Attraverso lo strumento "citizen@science", che è attualmente in fase di sviluppo, gli utenti interessati potranno offrirsi come volontari per aiutare a correggere il testo riconosciuto e a completare i dati delle forme rimanenti, arricchendo così notevolmente questa preziosa risorsa storica.

Panoramica