Transkribus non è stato sviluppato da un giorno all'altro. Anzi, è stato il risultato di decenni di duro lavoro. E sebbene diverse persone abbiano contribuito allo sviluppo di Transkribus nel corso degli anni, c'è un uomo che è stato presente fin dall'inizio: Günter Mühlberger. Originariamente ricercatore di lingua e letteratura tedesca, Günter si è interessato per la prima volta alle digital humanities alla fine degli anni '90, quando Internet era ancora agli albori e l'idea che un programma informatico potesse trascrivere automaticamente migliaia di documenti scritti a mano con un semplice clic sembrava solo un sogno.
Dopo due decenni, questo stesso programma viene ora utilizzato da persone in tutto il mondo per condurre ricerche significative sui documenti storici. In qualità di presidente di READ-COOP, Günter è responsabile di garantire che Transkribus continui a svilupparsi e ad aiutare questi ricercatori nel loro lavoro. Abbiamo incontrato Günter per saperne di più sulla storia di Transkribus e per scoprire quali sono i prossimi sviluppi della piattaforma.
Tutto è iniziato con una festa di Natale
La fine degli anni '90 era un'epoca molto diversa da quella attuale. Internet e la posta elettronica erano appena stati introdotti, cambiando radicalmente il funzionamento delle università e aprendo una miriade di opportunità per i ricercatori.
Uno di questi ricercatori è stato Günter Mühlberger presso il Università di Innsbruck. Lo studioso di lingua tedesca aveva già una certa esperienza nel campo in crescita delle digital humanities, ma una scoperta fatta a Natale si è rivelata la scintilla per un nuovo tipo di progetto.
"Avevamo la festa di Natale del lavoro alle 19.00 e io avevo un'ora prima in ufficio. Cercando un po' su Internet ho scoperto che l'UE aveva un programma chiamato 'Telematica per le biblioteche'", spiega Günter. "Ho pensato subito al servizio di ritagli di giornale del nostro dipartimento, che era solito ritagliare articoli interessanti su temi letterari da diversi giornali tedeschi e conservarli in un grande archivio".
"Così, alla festa di Natale, ho avvicinato il responsabile dell'archivio e gli ho detto che avevo un'idea per digitalizzare questo tipo di collezione e che avremmo potuto ottenere dei fondi dall'UE. E abbiamo deciso di farlo". L'équipe ha presentato una domanda e, sebbene non sia stata concessa l'intera somma, l'UE ha concesso loro un finanziamento sufficiente per realizzare questo progetto. primo grande progetto OCR di partenza. Sono riusciti a creare un sistema in grado di digitalizzare i ritagli di giornale e di archiviarli digitalmente, anziché fisicamente. "Tutti volevano partecipare al progetto ed era chiaro che questo era l'inizio di qualcosa di più grande".
Creazione del formato ALTO
Quel qualcosa di più grande si è presentato sotto forma di un secondo progetto OCR, denominato Motore dei metadati. Nei Paesi di lingua inglese, le biblioteche utilizzavano già da tempo l'OCR per digitalizzare i libri. Ma nei Paesi di lingua tedesca, la maggior parte dei libri fino al 1942 era stampata in caratteri Fraktur e non esistevano ancora motori OCR in grado di riconoscere la Fraktur. Günter e il suo team hanno quindi deciso di risolvere questo problema con il Metadata Engine.
"Non c'era nessuna soluzione già in giro, così abbiamo invitato il Azienda ABBYY per sviluppare il primo motore OCR per Fraktur. All'epoca, i dati digitali che uscivano dal motore erano principalmente full text, ma non contenevano tutte le informazioni interne, come le coordinate delle parole. Eravamo convinti che fosse necessario un formato aperto che contenesse anche tutti questi dati, in modo da poterci lavorare in seguito".
Il team si è riunito e ha ideato il formato Analysed Layout and Text Object (ALTO), che permetteva di memorizzare testo e layout in modo tale da servire diversi casi d'uso, come la visualizzazione di testo e immagini insieme, proprio come fa oggi Transkribus.
Per pubblicizzare il lavoro svolto nel progetto, il team ha fatto un tour delle biblioteche degli Stati Uniti. "Siamo andati ad Harvard, a Stanford, alla New York Public Library e anche alla Biblioteca del Congresso a Washington DC, dove abbiamo avuto un pubblico di quasi 450 persone".
"Non è iniziata bene. Siamo rimasti bloccati in un ingorgo e siamo arrivati alla sede con più di un'ora di ritardo. Poi il proiettore non ha funzionato e la gente ha dovuto aspettare un'altra mezz'ora. Ma nonostante tutto, tutti hanno ascoltato con attenzione ed è stato davvero bello parlare con tutti, spiegare cosa stavamo facendo. Poco dopo, la Biblioteca del Congresso ha deciso di implementare il formato ALTO nei propri sistemi, il che è stato davvero un grande risultato".
Trasformare l'OCR in HTR
Sulla scia del successo del progetto Metadata Engine, Günter ha poi partecipato come sottoprogettista a un altro grande progetto OCR, coordinato dall'Istituto di ricerca e sviluppo (OSA). Biblioteca Reale dei Paesi Bassi. Il progetto IMPACT si è concentrato sul riconoscimento di libri e giornali antichi. "Era un progetto molto grande, con 12 milioni di euro", ha spiegato Günter. "Ma è più o meno fallito completamente, perché era troppo concentrato sul tentativo di migliorare la vecchia tecnologia".
A differenza dell'attuale tecnologia HTR, la tecnologia OCR tradizionale funzionava utilizzando una serie di modelli per ogni carattere. Se al sistema OCR veniva presentata l'immagine di un nuovo carattere, confrontava la forma del carattere con tutti i diversi modelli e sceglieva quello a cui era più simile.
"Ma con i caratteri complicati, come quelli scritti a mano, questa tecnologia non funziona. I caratteri sono così diversi dai modelli che il sistema non riesce a identificarli. E questo rende molto difficile il riconoscimento dei documenti scritti a mano".
Fortunatamente, al progetto ha partecipato anche un team di IBM, che ha proposto una soluzione intrigante. "Hanno avuto l'idea di isolare singole parole e di presentare all'utente la versione digitale della parola. L'utente può poi correggere eventuali errori nella trascrizione e queste informazioni tornano al motore per migliorare il tutto. Questa è l'idea su cui si basa Transkribus e si può dire che sia stato l'inizio della piattaforma".
Una collaborazione vincente
Il team IBM non è stato l'unico a lavorare su questo tipo di tecnologia. Il Università Tecnica di Valencia stavano conducendo ricerche su nuovi sistemi di riconoscimento del testo e si sono rivolti al team di Innsbruck per una collaborazione. "Avevamo una buona reputazione presso l'UE e c'era un nuovo bando per la digitalizzazione del patrimonio culturale. Valencia ha redatto una proposta, che è stata accettata, e insieme a diversi partner, tra cui Università di LondraIl progetto TranScriptorium è stato avviato all'inizio del 2013".
TranScriptorium è stato il primo vero progetto di riconoscimento della scrittura. All'epoca, la tecnologia era molto più lenta: ci volevano circa 20 minuti per riconoscere una sola pagina. Ma la differenza più grande tra allora e oggi è che tutta la Ground Truth era generata internamente dal team. Non c'era modo per l'utente di inserire o addestrare i propri dati di verità di base.
"Mi sono reso conto fin dall'inizio che sarebbe stato molto impegnativo generare la verità a terra per l'algoritmo di apprendimento. Inoltre, avremmo avuto bisogno di uno strumento per l'utente, in modo che la verità a terra potesse essere facilmente creata e raccolta in un formato standardizzato e in un luogo centrale". Sebastian Colutto ha creato uno strumento Java per la creazione della Ground Truth che è stato poi collegato a un server centrale, dove tutte le Ground Truth potevano essere archiviate".
Questo strumento rudimentale è stato di fatto la prima interfaccia utente di Transkribus e ha posto le basi per la piattaforma a venire. "La primissima versione è stata messa online nel febbraio 2015. Nell'estate successiva l'abbiamo resa pubblica e alle persone è piaciuta. Hanno apprezzato il fatto che si potesse avere una trascrizione automatica senza però perdere il legame con l'immagine".
Creare un ambiente di ricerca virtuale
Mentre il progetto TranScriptorium era in corso, è apparso un altro interessante bando di progetto dell'UE. "Stavano fornendo finanziamenti per la creazione di ambienti di ricerca virtuali e questo era esattamente ciò che stavamo facendo. Abbiamo quindi redatto una proposta che è stata l'unica su circa 70 o 80 a ricevere il punteggio massimo di 15 punti. Questo ci ha dato la possibilità di realizzare la nostra idea sulla base di un investimento pubblico di 8,2 milioni di euro".
L'idea era quella di creare una piattaforma che permettesse agli utenti di ottenere trascrizioni automatiche di documenti scritti a mano e di addestrare modelli di intelligenza artificiale in grado di leggere tipi specifici di scrittura. In altre parole, il team voleva trasformare Transkribus in realtà.
"Avevamo promesso di rendere la piattaforma operativa fin dal primo giorno del progetto, il 1° gennaio 2016". Da quel momento in poi, la popolarità di Transkribus non ha fatto che crescere. In occasione della prima conferenza degli utenti di Transkribus nel 2017, la CITlab dell'Università di Rostock insieme al team di Azienda Planet AI ha dimostrato la nuova tecnologia di riconoscimento della linea di base, che migliorerebbe notevolmente l'analisi del layout e ha riscosso un grande successo tra i 120 partecipanti alla conferenza.
"Poco dopo, il team CITlab ha introdotto anche il nuovo motore HTR+, che era migliore di 40-50% rispetto al precedente. Prima, il tasso di errore dei caratteri era di circa 15%. Ma con gli stessi dati di addestramento e il nuovo motore, il tasso di errore era di 7-8%. E la risposta è stata travolgente. Con il nuovo e migliore tasso di errore, Transkribus è diventato improvvisamente un'opzione praticabile per la maggior parte dei ricercatori. Poi il squadra di Valencia introdotto PyLaia - un motore HTR open-source che ora è il motore principale di Transkribus.
La fondazione di READ-COOP
A questo punto era chiaro che Transkribus era qui per restare. Ma è sorta la domanda: chi sarebbe stato responsabile della piattaforma? Chi avrebbe risolto bug e problemi di manutenzione e sviluppato ulteriormente la piattaforma? All'epoca, tutto era basato sull'Università di Innsbruck. Tuttavia, poiché solo una piccola percentuale di utenti proveniva dall'Austria, era improbabile che volessero ospitarla per sempre.
Era anche importante assicurarsi che tutti i partner del progetto avessero voce in capitolo nella gestione della piattaforma che avevano lavorato duramente per creare. La soluzione è stata quella di creare una cooperativa in modo che la proprietà potesse essere condivisa tra le parti interessate. "L'idea era che potesse essere una sorta di servizio condiviso ma con un impatto commerciale, in modo da poter pagare la manutenzione e lo sviluppo della piattaforma. Tuttavia, all'epoca nessuno di noi conosceva davvero i dettagli delle cooperative".
E la sua creazione si è rivelata più difficile di quanto il team avesse immaginato. "Siamo stati praticamente la prima cooperativa europea a essere costituita in Austria, quindi c'era un sacco di burocrazia da affrontare". Poi c'era la questione dei soldi. Il team doveva raccogliere una certa somma di denaro per costituire la cooperativa e ai partner del progetto è stato chiesto di diventare "soci fondatori" per una modesta quota. "Trovare un numero sufficiente di soci fondatori non è stato troppo difficile. Quello che è stato più difficile è stato portarli tutti nella stessa stanza e nello stesso momento per firmare i documenti".
Alla fine, però, grazie a tanta pazienza, duro lavoro e conoscenze burocratiche, i tribunali austriaci hanno finalmente approvato la cooperativa. Nel luglio 2019 - oltre 20 anni dopo che Günter aveva avuto l'idea del suo progetto "telematico" - READ-COOP è diventata la custode ufficiale della piattaforma Transkribus.
20 anni di successi nella digitalizzazione
Gli ultimi due decenni sono stati un periodo entusiasmante per il riconoscimento della scrittura e i progetti di Günter Mühlberger sono stati all'avanguardia di questa tecnologia. Abbiamo chiesto a Günter di cosa è più orgoglioso in questo periodo.
"Sono orgoglioso di due cose. In primo luogo, del fatto che abbiamo un team così grande che ci lavora. In secondo luogo, che oggi così tante persone utilizzino Transkribus per le loro ricerche. Il mio ruolo in tutto questo è stato quello di avere la sensazione che questo è il momento giusto, che ci sono persone là fuori con la tecnologia giusta e che possiamo unire le competenze e creare uno strumento che aiuterà molte persone non solo nella sfera accademica e archivistica, ma anche con i loro documenti di famiglia".
"Per il futuro, spero che continueremo a sostenere le persone in questo modo. Solo una piccolissima percentuale dei documenti del mondo è digitalizzata e ci sono ancora molti documenti interessanti che aspettano di essere scoperti: Esplorarli con HTR darà un grande impulso alla ricerca storica".
Grazie, Günter, per averci parlato!