Formazione di un modello multilingue in Transkribus: Jeff Rusten

29 marzo 2023
Uncategorized

La maggior parte dei modelli Transkribus è addestrata a leggere una sola lingua: dopo tutto, la maggior parte dei documenti storici è scritta in una sola lingua. Ma cosa succede se il documento contiene tre (o anche più) lingue? È possibile addestrare un modello a leggerle tutte e tre contemporaneamente?

La risposta è sì, come hanno recentemente dimostrato Jeff Rusten e il suo team della Cornell University. Il gruppo di ricerca di Rusten ha lavorato su un dizionario di tutte le parole usate dall'antico commediografo greco Aristofane. Il lessico inedito è stato messo insieme nel 1910 da Ernst Wüst, un classicista tedesco, ed è interamente scritto di suo pugno. È scritto in tre lingue diverse: greco antico, latino e il tedesco di Wüst.

Poiché attualmente non esiste alcun modello pubblico per questa combinazione linguistica, il team di Rusten ha dovuto addestrare il proprio modello multilingue partendo da zero. Abbiamo parlato con Rusten e il suo collega, Ethan Della Rocca, di come hanno addestrato il loro modello multilingue e lo hanno usato per trascrivere il lessico di Wüst.

L'intero lessico di Wüst è stato scritto a mano. © K G Saur Verlag

Il lessico di Wüst per Aristofane

Le commedie di Aristofane del V secolo a.C. sono diventate famose non solo per la loro prospettiva satirica sulla vita nell'antica Atene, ma anche per il loro stile linguistico insolito. "Il linguaggio di Aristofane è unico nel suo genere nel greco classico, poiché combina l'alta poesia e la terminologia intellettuale con i colloquialismi, i termini della vita quotidiana e persino le oscenità", ha spiegato Rusten. "Il suo corpus lessicale era apprezzato e studiato già nell'antichità".

Tuttavia, per studiare appieno la lingua di Aristofane è necessario avere accesso a un lessico completo, che descriva in dettaglio i significati, le relazioni semantiche e l'uso con esempi chiave. "Si pensava che non esistesse un lessico adeguato, ma nella biblioteca della Cornell abbiamo trovato una collezione del 1984 di immagini in microfiche del manoscritto inedito di Ernst Wüst". Per chi non lo sapesse, una microfiche è un piccolo pezzo di pellicola fotografica contenente immagini di pagine di materiale scritto. Prima della digitalizzazione, venivano utilizzate per conservare materiali, come i giornali, senza occupare troppo spazio fisico in un archivio. Negli anni '80 si è deciso di utilizzare le microfiche per garantire che i manoscritti su carta in decomposizione fossero conservati per sempre.

Uno di questi manoscritti era il lessico di Wüst per Aristofane del 1910 circa. "L'editore K G Saur decise di conservare il lessico, senza il quale avrebbe potuto andare perduto per sempre, dato che il manoscritto originale non è stato ancora ritrovato. La pubblicazione non è mai stata recensita né menzionata da alcuno studioso successivo, probabilmente perché negli anni Ottanta accedervi era troppo scoraggiante, per non parlare della lettura".

Il lessico di Wüst è stato conservato sotto forma di microfiches a partire dagli anni Ottanta. © K G Saur Verlag

Creare un lessico digitale

Naturalmente, il modo migliore per preservare veramente il lessico di Wüst è crearne una versione digitale, che permetta agli studiosi di cercare rapidamente tra le 1500 pagine del manoscritto e fornisca anche informazioni aggiuntive sulle singole voci. "Una versione digitale può collegare ogni parola con il suo significato di base, la famiglia di parole, la semantica e la distribuzione nelle opere dell'autore, oltre a un elenco completo di tutte le occorrenze, ordinate per opera e con un collegamento ipertestuale al passaggio che ne costituisce il contesto".

Il team di Rusten aveva già creato una piattaforma online, Lexeis.org, che permetteva di pubblicare versioni digitali dei lessici in questo modo. "Lo abbiamo già fatto per Tucidide e Platone, e ora per Aristofane. L'aggiunta del lessico digitalizzato di Wüst migliorerà notevolmente la piattaforma".

La piattaforma Lexeis.org mostra sia le definizioni che le occorrenze delle parole usate da Aristofane. © Lexeis.org

Scegliere una piattaforma di trascrizione

Non era la prima volta che il team utilizzava la tecnologia per cercare di accelerare il processo di trascrizione. "Avevamo già provato un pacchetto OCR per il greco moderno, ma il greco antico ha molti più accenti e altri diacritici, difficili da distinguere per le piattaforme OCR. Avevamo anche usato Tesseract per trascrivere il lessico di Platone di Ast (che è anche in greco antico, latino e tedesco), ma il successo è stato limitato".

Con il lessico di Wüst, il team si è imbattuto per caso in Transkribus. "Abbiamo scoperto la piattaforma mentre cercavamo informazioni sulla scrittura tedesca "Kurrent". Poi abbiamo partecipato a un seminario di formazione di cinque ore tenuto a Yale da Sara Mansutti, che ha dimostrato che Transkribus presentava molti vantaggi evidenti rispetto ad altri metodi".

"In primo luogo, si occupa di scrittura a mano e di stampa. Inoltre, fornisce una piattaforma informatica per l'addestramento di modelli di trascrizione per scritture e mani specifiche, basati su reti neurali. Ci è piaciuto il fatto che i metodi siano spiegati in modo chiaro e accessibile ai non specialisti, con video di seminari passati e pagine web istruttive. Infine, rende disponibili i modelli degli utenti precedenti per l'uso nelle trascrizioni e per il ri-addestramento da parte dei nuovi utenti. Ciò consente di risparmiare molto tempo nella creazione dei modelli".

Il team ha utilizzato Transkribus per creare trascrizioni automatiche per la maggior parte delle pagine. © K G Saur Verlag

Preparazione del lessico per la trascrizione

Una volta deciso di utilizzare Transkribus, la sfida successiva per il team è stata quella di creare scansioni digitali delle 1500 microfiche del lessico di Wüst. "Oggi sono disponibili lettori di scansioni digitali di microfiche di alta qualità. Con l'aiuto delle attrezzature e del personale della Cornell Library, e dopo molti tentativi ed errori, siamo riusciti a produrre immagini jpeg accettabili (sufficientemente dettagliate da poter essere ingrandite, ma comunque sotto il limite di 10 MB di Transkribus) di tutte le 1500 pagine in poco più di quattro settimane".

Armato di scansioni digitali, il team ha poi selezionato 50 pagine da trascrivere manualmente come Ground Truth. Della Rocca ha spiegato la loro strategia. "Abbiamo cercato di includere pagine con strutture diverse, che comprendessero sia voci brevi con molto spazio tra una voce e l'altra, sia voci estese con poco spazio tra le righe. Una delle considerazioni principali è stata quella di ottenere una buona copertura delle diverse lettere quando sono collocate nella posizione iniziale della riga, in quanto ciò rende molto più facile l'identificazione di ogni articolo e del rispettivo lemma".

"Abbiamo anche selezionato pagine rappresentative dei vari gradi di marginalità presenti nel testo, anche se abbiamo escluso i margini troppo deboli per essere riconosciuti - forse un giorno riusciremo a trovare il manoscritto originale!".

Come dati di addestramento è stata scelta un'ampia varietà di pagine. © K G Saur Verlag

Formazione di un modello multilingue

La trascrizione manuale delle 50 pagine selezionate fu eseguita in parte da studenti lavoratori dell'università, che avevano competenze in greco antico e latino ma non sempre in tedesco. Rusten ricorda che: "Il problema iniziale per noi americani era la scarsa familiarità con la scrittura tedesca Kurrent. Abbiamo usato la Grafia tedesca M1 per produrre una prima trascrizione delle pagine su cui stavamo lavorando. Ha fatto un buon lavoro con il tedesco, ma ha riconosciuto erroneamente come tedeschi anche il latino e il greco".

"Questo significava che dovevamo trascrivere manualmente le parti che erano state riconosciute in modo errato. Utilizzando le immagini caricate nell'area di lavoro collaborativa online di Transkribus, i nostri studenti-lavoratori dovevano individuare e trascrivere la scrittura o la lingua che conoscevano meglio per ogni pagina, iniziando dal greco, poi dal latino e infine correggendo il tedesco trascritto automaticamente. Una volta che uno studente aveva trascritto tutto quello che poteva, passava la pagina al trascrittore successivo".

"Poiché abbiamo fatto in modo che persone diverse si concentrassero su sceneggiature diverse, piuttosto che costringere tutti a cercare di fare ogni sceneggiatura, la trascrizione ha richiesto a cinque di noi solo sei settimane di lavoro a tempo pieno".

Della Rocca ha supervisionato la fase finale. "Dopo vari tentativi di ottimizzazione del modello, il nostro tasso di errore minimo sui caratteri (CER) è di 7,21%. Si tratta di una riduzione di circa 36% rispetto al CER del nostro modello iniziale, pari a 11,20%, e stiamo cercando di migliorarlo ulteriormente eseguendo ulteriori addestramenti e sperimentando diverse configurazioni. Questo ha ridotto notevolmente il nostro tempo di correzione post-trascrizione per pagina".

Jeff Rusten (secondo da destra), Ethan Della Rocca (a sinistra) e il resto del team di Lexeis.org. © Jeff Rusten

Pubblicare il lessico online

Al momento, il team sta preparando il lessico per la pubblicazione su Lexeis.org. "La trascrizione deve ancora essere etichettata in formato XML per la correzione e l'analisi e collegata al nostro testo XML di Aristofane. Poi potremo caricarla sulla piattaforma. Il lavoro è stato reso noto solo ora, ma il sostegno degli enti finanziatori è stato gratificante e non vediamo l'ora di farlo conoscere agli studiosi non appena sarà stato corretto e documentato".

Il team è molto soddisfatto di come è stato realizzato il progetto. "Avremmo solo voluto trovare Transkribus prima! D'ora in poi lo utilizzeremo per tutto il nostro lavoro di OCR, anche per la stampa. Attualmente stiamo ritrascrivendo un testo che avevamo già elaborato in precedenza, per utilizzare la greca del modello Transkribus, molto più accurata, per correggere la versione esistente".

Della Rocca ha un consiglio per altri gruppi di ricerca che vogliono addestrare un modello multilingue. "Mantenete la calma se il primo tentativo di addestramento fallisce: provate semplicemente altre configurazioni. Quando addestrate il vostro modello, sperimentate l'uso di diversi modelli di base, perché scoprirete che alcuni sono più utili di altri. Poi, una volta ottenuto un modello funzionante, continuate a perfezionarlo con altre pagine trascritte e corrette per renderlo il più preciso possibile". Non potremmo essere più d'accordo!

Ringraziamo Jeff ed Ethan per averci parlato del progetto e vi auguriamo il meglio con Lexeis.org.

Per saperne di più sul progetto, guardate l'intervento di Jeff Rusten su come hanno digitalizzato il lessico di Wüst: https://www.youtube.com/watch?v=kdNg-j7eKJk

CONDIVIDI QUESTO ARTICOLO

Post recenti

3 luglio 2024

News, Transkribus

Mappatura dei concerti di Beethoven e Haydn: il progetto "Vita concertistica a Vienna".

Alcuni progetti Transkribus terminano con una collezione completa digitalizzata in Transkribus. Alcuni prendono la fonte digitalizzata e la usano per ...

12 giugno 2024

News, Transkribus

Che cos'è la minuscola carolingia?

Quando si pensa alla minuscola carolingia (o carolina), probabilmente vengono in mente Carlo Magno e il suo vasto impero carolingio. Mentre il ...

14 maggio 2024

Uncategorized

Modelli di intelligenza artificiale per la lettura di testi polacchi corsivi e stampati

La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo ...

Cookie	Descrizione	Durata
politica dei cookie visualizzati	Il cookie è impostato dal plugin GDPR Cookie Consent e viene utilizzato per memorizzare se l'utente ha acconsentito o meno all'uso dei cookie. Non memorizza alcun dato personale.	1 ora
PHPSESSID	Questo cookie è nativo delle applicazioni PHP. Il cookie viene utilizzato per memorizzare e identificare l'ID di sessione unico di un utente allo scopo di gestire la sessione dell'utente sul sito web. Il cookie è un cookie di sessione e viene cancellato quando tutte le finestre del browser vengono chiuse.	1 anno

Cookie	Descrizione	Durata
VISITATORE_INFO1_LIVE	Questo cookie è impostato da Youtube. Utilizzato per tracciare le informazioni dei video di YouTube incorporati in un sito web.	5 mesi
IDE	Utilizzato da Google DoubleClick e memorizza le informazioni su come l'utente utilizza il sito web e qualsiasi altra pubblicità prima di visitare il sito. Questo viene utilizzato per presentare agli utenti gli annunci che sono rilevanti per loro in base al profilo dell'utente.	2 anni

Cookie	Descrizione	Durata
GPS	Questo cookie è impostato da Youtube e registra un ID unico per tracciare gli utenti in base alla loro posizione geografica	30 minuti
tk_or	Questo cookie è impostato dal plugin JetPack sui siti che utilizzano WooCommerce. Questo è un cookie di riferimento utilizzato per analizzare il comportamento dei referrer per Jetpack	5 anni
tk_r3d	Il cookie è installato da JetPack. Utilizzato per le metriche interne delle attività dell'utente per migliorare l'esperienza dell'utente	3 giorni
tk_lr	Questo cookie è impostato dal plugin JetPack sui siti che utilizzano WooCommerce. Questo è un cookie di riferimento utilizzato per analizzare il comportamento dei referrer per Jetpack	1 anno
{\an8}Che cosa?	Questo cookie è installato da Google Analytics. Il cookie viene utilizzato per calcolare i dati del visitatore, della sessione, del camapign e per tenere traccia dell'utilizzo del sito per il rapporto di analisi del sito. Il cookie memorizza le informazioni in modo anonimo e assegna un numero generato randoly per identificare i visitatori unici.	2 anni
_gid	Questo cookie è installato da Google Analytics. Il cookie viene utilizzato per memorizzare informazioni su come i visitatori utilizzano un sito web e aiuta a creare un rapporto analitico su come sta andando il sito web. I dati raccolti includono il numero di visitatori, la fonte da cui provengono e le pagine visitate in forma anonima.	1 giorno
matomo	Per l'analisi statistica, usiamo "Matomo" su questo sito web. Si tratta di uno strumento open source per l'analisi del web. Matomo non trasmette dati a server al di fuori del controllo di READ-COOP. Matomo viene disattivato quando si visita il nostro sito web. Solo se lei acconsente attivamente, il suo comportamento d'uso viene registrato in modo anonimo.	1 anno

Cookie	Descrizione	Durata
YSC	Questo cookie è impostato da Youtube e viene utilizzato per monitorare le visualizzazioni dei video incorporati.	1 anno
_gat	Questo cookie è installato da Google Universal Analytics per strozzare il tasso di richiesta per limitare la raccolta di dati su siti ad alto traffico.	1 minuto

Formazione di un modello multilingue in Transkribus: Jeff Rusten

Il lessico di Wüst per Aristofane

Creare un lessico digitale

Scegliere una piattaforma di trascrizione

Preparazione del lessico per la trascrizione

Formazione di un modello multilingue

Pubblicare il lessico online

Post recenti

Mappatura dei concerti di Beethoven e Haydn: il progetto "Vita concertistica a Vienna".

Che cos'è la minuscola carolingia?

Modelli di intelligenza artificiale per la lettura di testi polacchi corsivi e stampati

La COOP

Prodotti e servizi

Informazioni utili

Risorse utili

Community