Un approccio collaborativo: READ-COOP e la Fondazione Europeana uniscono le forze per migliorare la piattaforma Transcribathon

Di Fiona Park

Non tutti coloro che lavorano con la storia sono storici professionisti. Dai genealogisti per hobby ai volontari dei musei locali, i non addetti ai lavori hanno sempre svolto un ruolo importante nel mantenere viva la storia. E nell'era digitale c'è un nuovo modo per coinvolgere i volontari.

Lo strumento Arricchire l'EuropaIl progetto + è un scienza dei cittadini iniziativa. Essa riunisce persone comuni per lavorare a un obiettivo scientifico o accademico comune. Nel caso di Enrich Europeana, si tratta di creare versioni digitali completamente annotate dell'Europeana Collections. Per raggiungere questo obiettivo, i volontari di tutta Europa trascrivono e arricchiscono le fonti scritte a mano utilizzando la piattaforma Transcribathon: un sito web personalizzato che consente ai volontari di trascrivere da casa utilizzando il proprio computer.

Nel 2021, EnrichEuropeana+ ha deciso di aggiornare la piattaforma Transcribathon con una nuova tecnologia e un nuovo look. In qualità di esperti di software di trascrizione, a READ-COOP è stato chiesto di partecipare al progetto e noi abbiamo accettato volentieri. Ecco cosa è successo.

Arricchire il patrimonio culturale europeo

Il progetto Europeana è stato lanciato nel 2008. L'obiettivo era quello di conservare e rendere accessibili al pubblico pezzi di patrimonio culturale, come lettere, ritratti e documenti ufficiali, provenienti da tutto il continente. Il risultato è stato il Europeana Collections: collezioni digitali di articoli raggruppati per argomento o periodo di tempo. Ad esempio, se si guarda al sito "Collezione "Edificio, è possibile trovare una foto del Edificio dell'assicurazione sulla vita di Manhattan di New York (ospitato presso la Museo nazionale svedese della scienza e della tecnologiay), nonché un articolo di giornale sulla costruzione di un nuova casa dello studente in Bulgaria (ospitato presso il Biblioteca pubblica Pencho Slaveykov a Varna). Rendendo disponibili in formato digitale manufatti come questi, tutti possono apprezzarli e imparare da essi, senza dover fare un viaggio a Stoccolma o a Varna per farlo.

L'edificio delle assicurazioni sulla vita di Manhattan a New York © Okänd

Ma il più grande vantaggio delle collezioni digitali è che sono completamente ricercabili. Se un utente cerca articoli di giornale sulle costruzioni in Bulgaria, può semplicemente digitare i termini di ricerca e trovare ciò che cerca molto più rapidamente di quanto farebbe con una collezione fisica. Il processo di ricerca è reso possibile dai metadati, ovvero informazioni aggiuntive sull'artefatto programmate nella sua versione digitale. I metadati non sono solo il titolo, la data e la descrizione che si trovano in un normale museo, ma anche molte altre entità come i nomi e i luoghi citati nel manufatto o i tag che ne riassumono il contenuto. Quando l'utente digita un termine di ricerca, la collezione cerca tra i metadati di tutti gli oggetti, trova quelli che corrispondono al termine di ricerca e mostra l'oggetto all'utente.

Una grande iniziativa di citizen science

Tuttavia, la trascrizione di artefatti digitali e il loro arricchimento con metadati richiede che un essere umano guardi o legga il materiale, assegni tag e altri metadati e li inserisca in un sistema informatico. Idealmente, la trascrizione e i metadati dovrebbero essere controllati anche da un secondo essere umano, per garantire che tutto sia stato inserito correttamente. Naturalmente questo richiede molto tempo e la maggior parte dei musei, delle biblioteche e degli archivi non ha le risorse necessarie per inserire trascrizioni e metadati.

Europeana ha quindi proposto una soluzione innovativa al problema: la citizen science. Le trascrizioni e i metadati verrebbero aggiunti ai manufatti digitali da un team di volontari, lasciando il personale del museo libero di svolgere lavori più specialistici. I volontari verrebbero istruiti su come inserire i dati utilizzando il proprio computer a casa, rendendo possibile a chiunque in tutto il mondo di contribuire alla digitalizzazione di Europeana Collections. 

Documenti della corsa "Sassonia al lavoro" © Fondazione Europeana

Una parte fondamentale del progetto è la Piattaforma Europeana Transcribathondove i volontari possono visionare i materiali, trascrivere i testi e arricchirli di metadati utilizzando il proprio computer di casa. Europeana organizza anche eventi di trascrizione noti come "run". Ogni evento ha un tema particolare, ad esempio, La cultura industriale della Sassonia o manoscritti teatrali in portoghesee un periodo di tempo specifico, di solito alcuni giorni o settimane. Durante la gara, i volontari possono trascrivere i documenti su quel tema e spesso competono tra loro per vedere chi riesce a elaborare il maggior numero di documenti nel periodo di tempo stabilito. Anche se i "vincitori" spesso non vincono nulla, se non l'onore di essere in cima alla classifica, il senso di competizione aumenta la motivazione dei volontari e rende l'evento più divertente per tutti.

Incorporare Transkribus in Transcribathon

La piattaforma originale di Transcribathon, creata nel 2016, era un puro editor di trascrizione. I volontari potevano trascrivere manualmente il testo utilizzando il proprio computer, ma non era possibile effettuare trascrizioni automatiche. Nel 2021, Europeana ha deciso di aggiornare la piattaforma con un software di riconoscimento della scrittura. In questo modo i volontari non avrebbero più dovuto effettuare trascrizioni manuali che richiedevano molto tempo, ma avrebbero potuto semplicemente correggere una trascrizione automatica. Poiché la correzione delle bozze richiede generalmente molto meno tempo, i volontari sarebbero stati in grado di elaborare un maggior numero di documenti nello stesso lasso di tempo, aiutando le collezioni online ad espandersi più rapidamente.

Il modo più semplice per creare una nuova piattaforma digitale è basarsi su qualcosa di già esistente, ed è esattamente quello che ha fatto Europeana. READ-COOP disponeva già di una piattaforma funzionante per la trascrizione e l'arricchimento dei documenti storici (Transkribus) e di un modo per consentire ad altre piattaforme di comunicare direttamente con Transkribus (l'API metagrapho). Questa sarebbe stata la base della nuova piattaforma Transcribathon.

L'API metagrapho consente ad altre piattaforme di accedere alla tecnologia Transkribus © READ-COOP

Per chi non lo sapesse, un'API è un software che funge da messaggero tra due piattaforme diverse. Un utente richiede informazioni su una piattaforma e questa invia la richiesta all'API di un'altra piattaforma. Una volta che questa seconda piattaforma ha una risposta alla richiesta, l'API la riporta alla prima piattaforma e la persona ottiene le informazioni di cui ha bisogno. Un buon esempio è rappresentato da un sito di prenotazione di voli. Un utente vuole scoprire quali voli sono disponibili tra due città diverse, quindi inserisce un aeroporto di partenza e una destinazione su un sito di prenotazione di voli. Un'API invia poi questo messaggio a una seconda piattaforma, in questo caso il sistema informatico della compagnia aerea. Questo sistema informatico trova i voli possibili e l'API rimanda queste informazioni al sito di prenotazione dei voli. L'utente può quindi vedere tutti i voli disponibili.

La nuova piattaforma Transcribathon funziona in modo simile. Quando un volontario vuole ottenere la trascrizione automatica di un testo, ne fa richiesta alla piattaforma Transcribathon. Transcribathon invia quindi la richiesta all'API metagrapho, che utilizza la tecnologia di riconoscimento della scrittura per elaborare l'immagine e generare una trascrizione automatica. Infine, una volta completata l'elaborazione, la piattaforma Transcribathon può accedere alla trascrizione e mostrarla al volontario, sempre tramite l'API metagrapho. 

Utilizzando un'API esistente in questo modo, il team di Europeana non ha dovuto costruire il proprio sistema di riconoscimento del testo da zero. Dovevano semplicemente costruire una piattaforma con cui l'API di metagrapho potesse interagire, consentendo loro di accedere alla tecnologia della piattaforma principale di Transkribus. Ciò significava che la tecnologia di riconoscimento del testo di Transkribus poteva essere integrata nella piattaforma abbastanza rapidamente, senza troppi costi di sviluppo.

Una cartolina croata della collezione Europeana Collections. © Dragutin Hirc

Un editor di trascrizione facile da usare

L'aggiornamento della tecnologia di Transcribathon ha fatto sì che l'editor di trascrizione - la parte che un volontario usa per inserire o correggere le trascrizioni - non fosse più in grado di gestire il formato di dati più ricco che riceveva dall'API di metagrapho. È stato quindi necessario costruire un nuovo editor di trascrizione per Transcribathon. Questo avrebbe permesso, tra l'altro, ai volontari di cliccare su una riga della trascrizione e di vedere la riga corrispondente nell'immagine del testo.

Anche in questo caso, si è deciso di non creare un nuovo editor da zero. Invece, READ-COOP ha preso l'editor esistente nel software Transkribus, lo ha modificato per adattarlo ai requisiti di Transcribathon e lo ha trasformato in un widget. Il widget è stato poi semplicemente inserito nella piattaforma Transcribathon, rendendo possibile agli utenti l'accesso e la modifica delle trascrizioni generate dall'API metagrapho. Come per l'API, l'utilizzo dell'editor Transkribus esistente e la sua semplice modifica hanno permesso di risparmiare tempo e costi di sviluppo.

Il nuovo aspetto dell'editor di Transcribathon © Fondazione Europeana

Il potere della collaborazione

In breve, utilizzando la tecnologia Transkribus esistente, il progetto EnrichEuropeana+ è stato in grado di aggiornare la piattaforma Transcribathon in modo molto più rapido ed efficiente di quanto sarebbe stato possibile se avessero sviluppato tutto da zero. Con l'API metagrapho e il widget dell'editor di trascrizione personalizzato, Transcribathon ha potuto prendere il meglio della tecnologia di READ-COOP e modificarla per soddisfare i requisiti di questo progetto di citizen science unico nel suo genere.

E il progetto è già stato un successo. La nuova versione della piattaforma è stata recentemente utilizzata per diverse esecuzioni, tra cui la trascrizione di documenti storici in croato nonché una versione multilingue di Documenti del XIX secoloin cui i volontari hanno elaborato oltre 1400 documenti in sole 6 settimane. Non vediamo l'ora di vedere quali saranno le future collaborazioni tra EnrichEuropeana+ e Transkribus!

Uno dei tanti documenti della corsa di Zagabria © Ivan Ulčnik

Questo progetto era un progetto di Europeana Generic Services ed è stato cofinanziato dal Connecting Europe Facility dell'Unione Europea.

CONDIVIDI QUESTO ARTICOLO

Post recenti

3 luglio 2024
News, Transkribus
Alcuni progetti Transkribus terminano con una collezione completa digitalizzata in Transkribus. Alcuni prendono la fonte digitalizzata e la usano per ...
12 giugno 2024
News, Transkribus
Quando si pensa alla minuscola carolingia (o carolina), probabilmente vengono in mente Carlo Magno e il suo vasto impero carolingio. Mentre il ...
14 maggio 2024
Uncategorized
La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo ...