Breve storia del Transkribus con Günter Mühlberger

22 febbraio 2023
Transkribus

Transkribus non è stato sviluppato da un giorno all'altro. Anzi, è stato il risultato di decenni di duro lavoro. E sebbene diverse persone abbiano contribuito allo sviluppo di Transkribus nel corso degli anni, c'è un uomo che è stato presente fin dall'inizio: Günter Mühlberger. Originariamente ricercatore di lingua e letteratura tedesca, Günter si è interessato per la prima volta alle digital humanities alla fine degli anni '90, quando Internet era ancora agli albori e l'idea che un programma informatico potesse trascrivere automaticamente migliaia di documenti scritti a mano con un semplice clic sembrava solo un sogno.

Dopo due decenni, questo stesso programma viene ora utilizzato da persone in tutto il mondo per condurre ricerche significative sui documenti storici. In qualità di presidente di READ-COOP, Günter è responsabile di garantire che Transkribus continui a svilupparsi e ad aiutare questi ricercatori nel loro lavoro. Abbiamo incontrato Günter per saperne di più sulla storia di Transkribus e per scoprire quali sono i prossimi sviluppi della piattaforma.

Günter Mühlberger ha svolto un ruolo fondamentale nello sviluppo di Transkribus.

Tutto è iniziato con una festa di Natale

La fine degli anni '90 era un'epoca molto diversa da quella attuale. Internet e la posta elettronica erano appena stati introdotti, cambiando radicalmente il funzionamento delle università e aprendo una miriade di opportunità per i ricercatori.

Uno di questi ricercatori è stato Günter Mühlberger presso il Università di Innsbruck. Lo studioso di lingua tedesca aveva già una certa esperienza nel campo in crescita delle digital humanities, ma una scoperta fatta a Natale si è rivelata la scintilla per un nuovo tipo di progetto.

"Avevamo la festa di Natale del lavoro alle 19.00 e io avevo un'ora prima in ufficio. Cercando un po' su Internet ho scoperto che l'UE aveva un programma chiamato 'Telematica per le biblioteche'", spiega Günter. "Ho pensato subito al servizio di ritagli di giornale del nostro dipartimento, che era solito ritagliare articoli interessanti su temi letterari da diversi giornali tedeschi e conservarli in un grande archivio".

La biblioteca dell'Università di Innsbruck, dove si è svolto il primo progetto OCR di Günter. © Università di Innsbruck

"Così, alla festa di Natale, ho avvicinato il responsabile dell'archivio e gli ho detto che avevo un'idea per digitalizzare questo tipo di collezione e che avremmo potuto ottenere dei fondi dall'UE. E abbiamo deciso di farlo". L'équipe ha presentato una domanda e, sebbene non sia stata concessa l'intera somma, l'UE ha concesso loro un finanziamento sufficiente per realizzare questo progetto. primo grande progetto OCR di partenza. Sono riusciti a creare un sistema in grado di digitalizzare i ritagli di giornale e di archiviarli digitalmente, anziché fisicamente. "Tutti volevano partecipare al progetto ed era chiaro che questo era l'inizio di qualcosa di più grande".

Creazione del formato ALTO

Quel qualcosa di più grande si è presentato sotto forma di un secondo progetto OCR, denominato Motore dei metadati. Nei Paesi di lingua inglese, le biblioteche utilizzavano già da tempo l'OCR per digitalizzare i libri. Ma nei Paesi di lingua tedesca, la maggior parte dei libri fino al 1942 era stampata in caratteri Fraktur e non esistevano ancora motori OCR in grado di riconoscere la Fraktur. Günter e il suo team hanno quindi deciso di risolvere questo problema con il Metadata Engine.

"Non c'era nessuna soluzione già in giro, così abbiamo invitato il Azienda ABBYY per sviluppare il primo motore OCR per Fraktur. All'epoca, i dati digitali che uscivano dal motore erano principalmente full text, ma non contenevano tutte le informazioni interne, come le coordinate delle parole. Eravamo convinti che fosse necessario un formato aperto che contenesse anche tutti questi dati, in modo da poterci lavorare in seguito".

© Utente:Berteun / Wikimedia Commons / CC-BY-SA-3.0

Il team si è riunito e ha ideato il formato Analysed Layout and Text Object (ALTO), che permetteva di memorizzare testo e layout in modo tale da servire diversi casi d'uso, come la visualizzazione di testo e immagini insieme, proprio come fa oggi Transkribus.

Per pubblicizzare il lavoro svolto nel progetto, il team ha fatto un tour delle biblioteche degli Stati Uniti. "Siamo andati ad Harvard, a Stanford, alla New York Public Library e anche alla Biblioteca del Congresso a Washington DC, dove abbiamo avuto un pubblico di quasi 450 persone".

"Non è iniziata bene. Siamo rimasti bloccati in un ingorgo e siamo arrivati alla sede con più di un'ora di ritardo. Poi il proiettore non ha funzionato e la gente ha dovuto aspettare un'altra mezz'ora. Ma nonostante tutto, tutti hanno ascoltato con attenzione ed è stato davvero bello parlare con tutti, spiegare cosa stavamo facendo. Poco dopo, la Biblioteca del Congresso ha deciso di implementare il formato ALTO nei propri sistemi, il che è stato davvero un grande risultato".

Trasformare l'OCR in HTR

Sulla scia del successo del progetto Metadata Engine, Günter ha poi partecipato come sottoprogettista a un altro grande progetto OCR, coordinato dall'Istituto di ricerca e sviluppo (OSA). Biblioteca Reale dei Paesi Bassi. Il progetto IMPACT si è concentrato sul riconoscimento di libri e giornali antichi. "Era un progetto molto grande, con 12 milioni di euro", ha spiegato Günter. "Ma è più o meno fallito completamente, perché era troppo concentrato sul tentativo di migliorare la vecchia tecnologia".

A differenza dell'attuale tecnologia HTR, la tecnologia OCR tradizionale funzionava utilizzando una serie di modelli per ogni carattere. Se al sistema OCR veniva presentata l'immagine di un nuovo carattere, confrontava la forma del carattere con tutti i diversi modelli e sceglieva quello a cui era più simile.

"Ma con i caratteri complicati, come quelli scritti a mano, questa tecnologia non funziona. I caratteri sono così diversi dai modelli che il sistema non riesce a identificarli. E questo rende molto difficile il riconoscimento dei documenti scritti a mano".

Fortunatamente, al progetto ha partecipato anche un team di IBM, che ha proposto una soluzione intrigante. "Hanno avuto l'idea di isolare singole parole e di presentare all'utente la versione digitale della parola. L'utente può poi correggere eventuali errori nella trascrizione e queste informazioni tornano al motore per migliorare il tutto. Questa è l'idea su cui si basa Transkribus e si può dire che sia stato l'inizio della piattaforma".

Transkribus è stato creato per rendere gli archivi più accessibili a tutti. © Università di Innsbruck

Una collaborazione vincente

Il team IBM non è stato l'unico a lavorare su questo tipo di tecnologia. Il Università Tecnica di Valencia stavano conducendo ricerche su nuovi sistemi di riconoscimento del testo e si sono rivolti al team di Innsbruck per una collaborazione. "Avevamo una buona reputazione presso l'UE e c'era un nuovo bando per la digitalizzazione del patrimonio culturale. Valencia ha redatto una proposta, che è stata accettata, e insieme a diversi partner, tra cui Università di LondraIl progetto TranScriptorium è stato avviato all'inizio del 2013".

TranScriptorium è stato il primo vero progetto di riconoscimento della scrittura. All'epoca, la tecnologia era molto più lenta: ci volevano circa 20 minuti per riconoscere una sola pagina. Ma la differenza più grande tra allora e oggi è che tutta la Ground Truth era generata internamente dal team. Non c'era modo per l'utente di inserire o addestrare i propri dati di verità di base.

"Mi sono reso conto fin dall'inizio che sarebbe stato molto impegnativo generare la verità a terra per l'algoritmo di apprendimento. Inoltre, avremmo avuto bisogno di uno strumento per l'utente, in modo che la verità a terra potesse essere facilmente creata e raccolta in un formato standardizzato e in un luogo centrale". Sebastian Colutto ha creato uno strumento Java per la creazione della Ground Truth che è stato poi collegato a un server centrale, dove tutte le Ground Truth potevano essere archiviate".

Questo strumento rudimentale è stato di fatto la prima interfaccia utente di Transkribus e ha posto le basi per la piattaforma a venire. "La primissima versione è stata messa online nel febbraio 2015. Nell'estate successiva l'abbiamo resa pubblica e alle persone è piaciuta. Hanno apprezzato il fatto che si potesse avere una trascrizione automatica senza però perdere il legame con l'immagine".

Creare un ambiente di ricerca virtuale

Mentre il progetto TranScriptorium era in corso, è apparso un altro interessante bando di progetto dell'UE. "Stavano fornendo finanziamenti per la creazione di ambienti di ricerca virtuali e questo era esattamente ciò che stavamo facendo. Abbiamo quindi redatto una proposta che è stata l'unica su circa 70 o 80 a ricevere il punteggio massimo di 15 punti. Questo ci ha dato la possibilità di realizzare la nostra idea sulla base di un investimento pubblico di 8,2 milioni di euro".

L'idea era quella di creare una piattaforma che permettesse agli utenti di ottenere trascrizioni automatiche di documenti scritti a mano e di addestrare modelli di intelligenza artificiale in grado di leggere tipi specifici di scrittura. In altre parole, il team voleva trasformare Transkribus in realtà.

"Avevamo promesso di rendere la piattaforma operativa fin dal primo giorno del progetto, il 1° gennaio 2016". Da quel momento in poi, la popolarità di Transkribus non ha fatto che crescere. In occasione della prima conferenza degli utenti di Transkribus nel 2017, la CITlab dell'Università di Rostock insieme al team di Azienda Planet AI ha dimostrato la nuova tecnologia di riconoscimento della linea di base, che migliorerebbe notevolmente l'analisi del layout e ha riscosso un grande successo tra i 120 partecipanti alla conferenza.

"Poco dopo, il team CITlab ha introdotto anche il nuovo motore HTR+, che era migliore di 40-50% rispetto al precedente. Prima, il tasso di errore dei caratteri era di circa 15%. Ma con gli stessi dati di addestramento e il nuovo motore, il tasso di errore era di 7-8%. E la risposta è stata travolgente. Con il nuovo e migliore tasso di errore, Transkribus è diventato improvvisamente un'opzione praticabile per la maggior parte dei ricercatori. Poi il squadra di Valencia introdotto PyLaia - un motore HTR open-source che ora è il motore principale di Transkribus.

La fondazione di READ-COOP

A questo punto era chiaro che Transkribus era qui per restare. Ma è sorta la domanda: chi sarebbe stato responsabile della piattaforma? Chi avrebbe risolto bug e problemi di manutenzione e sviluppato ulteriormente la piattaforma? All'epoca, tutto era basato sull'Università di Innsbruck. Tuttavia, poiché solo una piccola percentuale di utenti proveniva dall'Austria, era improbabile che volessero ospitarla per sempre.

Era anche importante assicurarsi che tutti i partner del progetto avessero voce in capitolo nella gestione della piattaforma che avevano lavorato duramente per creare. La soluzione è stata quella di creare una cooperativa in modo che la proprietà potesse essere condivisa tra le parti interessate. "L'idea era che potesse essere una sorta di servizio condiviso ma con un impatto commerciale, in modo da poter pagare la manutenzione e lo sviluppo della piattaforma. Tuttavia, all'epoca nessuno di noi conosceva davvero i dettagli delle cooperative".

E la sua creazione si è rivelata più difficile di quanto il team avesse immaginato. "Siamo stati praticamente la prima cooperativa europea a essere costituita in Austria, quindi c'era un sacco di burocrazia da affrontare". Poi c'era la questione dei soldi. Il team doveva raccogliere una certa somma di denaro per costituire la cooperativa e ai partner del progetto è stato chiesto di diventare "soci fondatori" per una modesta quota. "Trovare un numero sufficiente di soci fondatori non è stato troppo difficile. Quello che è stato più difficile è stato portarli tutti nella stessa stanza e nello stesso momento per firmare i documenti".

Alla fine, però, grazie a tanta pazienza, duro lavoro e conoscenze burocratiche, i tribunali austriaci hanno finalmente approvato la cooperativa. Nel luglio 2019 - oltre 20 anni dopo che Günter aveva avuto l'idea del suo progetto "telematico" - READ-COOP è diventata la custode ufficiale della piattaforma Transkribus.

20 anni di successi nella digitalizzazione

Gli ultimi due decenni sono stati un periodo entusiasmante per il riconoscimento della scrittura e i progetti di Günter Mühlberger sono stati all'avanguardia di questa tecnologia. Abbiamo chiesto a Günter di cosa è più orgoglioso in questo periodo.

"Sono orgoglioso di due cose. In primo luogo, del fatto che abbiamo un team così grande che ci lavora. In secondo luogo, che oggi così tante persone utilizzino Transkribus per le loro ricerche. Il mio ruolo in tutto questo è stato quello di avere la sensazione che questo è il momento giusto, che ci sono persone là fuori con la tecnologia giusta e che possiamo unire le competenze e creare uno strumento che aiuterà molte persone non solo nella sfera accademica e archivistica, ma anche con i loro documenti di famiglia".

"Per il futuro, spero che continueremo a sostenere le persone in questo modo. Solo una piccolissima percentuale dei documenti del mondo è digitalizzata e ci sono ancora molti documenti interessanti che aspettano di essere scoperti: Esplorarli con HTR darà un grande impulso alla ricerca storica".

Grazie, Günter, per averci parlato!

Transkribus non sarebbe nulla senza la sua comunità. Conferenza degli utenti di Transkribus 2022

CONDIVIDI QUESTO ARTICOLO

Post recenti

3 luglio 2024

News, Transkribus

Mappatura dei concerti di Beethoven e Haydn: il progetto "Vita concertistica a Vienna".

Alcuni progetti Transkribus terminano con una collezione completa digitalizzata in Transkribus. Alcuni prendono la fonte digitalizzata e la usano per ...

12 giugno 2024

News, Transkribus

Che cos'è la minuscola carolingia?

Quando si pensa alla minuscola carolingia (o carolina), probabilmente vengono in mente Carlo Magno e il suo vasto impero carolingio. Mentre il ...

14 maggio 2024

Uncategorized

Modelli di intelligenza artificiale per la lettura di testi polacchi corsivi e stampati

La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo ...

Cookie	Descrizione	Durata
politica dei cookie visualizzati	Il cookie è impostato dal plugin GDPR Cookie Consent e viene utilizzato per memorizzare se l'utente ha acconsentito o meno all'uso dei cookie. Non memorizza alcun dato personale.	1 ora
PHPSESSID	Questo cookie è nativo delle applicazioni PHP. Il cookie viene utilizzato per memorizzare e identificare l'ID di sessione unico di un utente allo scopo di gestire la sessione dell'utente sul sito web. Il cookie è un cookie di sessione e viene cancellato quando tutte le finestre del browser vengono chiuse.	1 anno

Cookie	Descrizione	Durata
VISITATORE_INFO1_LIVE	Questo cookie è impostato da Youtube. Utilizzato per tracciare le informazioni dei video di YouTube incorporati in un sito web.	5 mesi
IDE	Utilizzato da Google DoubleClick e memorizza le informazioni su come l'utente utilizza il sito web e qualsiasi altra pubblicità prima di visitare il sito. Questo viene utilizzato per presentare agli utenti gli annunci che sono rilevanti per loro in base al profilo dell'utente.	2 anni

Cookie	Descrizione	Durata
GPS	Questo cookie è impostato da Youtube e registra un ID unico per tracciare gli utenti in base alla loro posizione geografica	30 minuti
tk_or	Questo cookie è impostato dal plugin JetPack sui siti che utilizzano WooCommerce. Questo è un cookie di riferimento utilizzato per analizzare il comportamento dei referrer per Jetpack	5 anni
tk_r3d	Il cookie è installato da JetPack. Utilizzato per le metriche interne delle attività dell'utente per migliorare l'esperienza dell'utente	3 giorni
tk_lr	Questo cookie è impostato dal plugin JetPack sui siti che utilizzano WooCommerce. Questo è un cookie di riferimento utilizzato per analizzare il comportamento dei referrer per Jetpack	1 anno
{\an8}Che cosa?	Questo cookie è installato da Google Analytics. Il cookie viene utilizzato per calcolare i dati del visitatore, della sessione, del camapign e per tenere traccia dell'utilizzo del sito per il rapporto di analisi del sito. Il cookie memorizza le informazioni in modo anonimo e assegna un numero generato randoly per identificare i visitatori unici.	2 anni
_gid	Questo cookie è installato da Google Analytics. Il cookie viene utilizzato per memorizzare informazioni su come i visitatori utilizzano un sito web e aiuta a creare un rapporto analitico su come sta andando il sito web. I dati raccolti includono il numero di visitatori, la fonte da cui provengono e le pagine visitate in forma anonima.	1 giorno
matomo	Per l'analisi statistica, usiamo "Matomo" su questo sito web. Si tratta di uno strumento open source per l'analisi del web. Matomo non trasmette dati a server al di fuori del controllo di READ-COOP. Matomo viene disattivato quando si visita il nostro sito web. Solo se lei acconsente attivamente, il suo comportamento d'uso viene registrato in modo anonimo.	1 anno

Cookie	Descrizione	Durata
YSC	Questo cookie è impostato da Youtube e viene utilizzato per monitorare le visualizzazioni dei video incorporati.	1 anno
_gat	Questo cookie è installato da Google Universal Analytics per strozzare il tasso di richiesta per limitare la raccolta di dati su siti ad alto traffico.	1 minuto