Il futuro dell'estrazione delle informazioni - Partecipa al progetto TUC 2024! ✨ 15-16 febbraio, di persona e online. Ottieni il tuo biglietto >>

Storia di successo
Pubblicato: 12 mesi fa

Alla scoperta di un'opera perduta di Lope de Vega: Álvaro Cuéllar

Quando Álvaro Cuéllar si accinse a trascrivere una serie di opere teatrali del Secolo d'oro spagnolo, sperava di trovare qualcosa di interessante. Ma non si aspettava di scoprire un'opera completamente nuova di uno dei più famosi autori spagnoli, Félix Lope de Vega y Carpio.

Prolifico drammaturgo, romanziere e poeta, Lope de Vega è stato una figura di spicco del Secolo d'Oro spagnolo. Tra le sue opere teatrali ricordiamo il celebre L'acero di Madrid (L'acciaio di Madrid), Il perro del Hortelano (Il cane del giardiniere), e La viuda valenciana (La vedova di Valencia). La scoperta di Cuéllar e del suo collega Germán Vega aggiunge un'opera nuova a questo elenco: La francesa Laura (La francese Laura).

News del ritrovamento si è diffuso rapidamente. "L'intelligenza artificiale attribuisce a Lope de Vega un'opera anonima proveniente dalla collezione di manoscritti della Biblioteca Nazionale", ha riferito El Pais, seguito da articoli simili di Il Guardian, CNNe una miriade di altri media. Tutti volevano saperne di più su come fosse possibile fare una simile scoperta utilizzando solo la potenza dell'intelligenza artificiale.

Lope de Vega è stato uno dei più prolifici drammaturghi del Secolo d'oro spagnolo. © BNE

E stanno per scoprirlo. Abbiamo incontrato Álvaro per scoprire come il team ha digitalizzato una così vasta collezione di manoscritti e come ha ritrovato un'opera teatrale di Lope de Vega andata perduta da tempo.

L'autorialità nel Secolo d'oro spagnolo: il progetto ETSO

Vi presentiamo Álvaro Cuéllar. Nella sua posizione presso il Università di ViennaÁlvaro si occupa di letteratura del Secolo d'oro spagnolo: un periodo, quello tra la fine del XVI e il XVII secolo, noto per l'elevata attività artistica e i risultati raggiunti. Tuttavia, è anche un periodo afflitto da problemi di paternità. Ci sono molti manoscritti dell'epoca sepolti in biblioteche e archivi, che non sono ancora stati attribuiti a un particolare scrittore o poeta.

Il manoscritto faceva parte di una collezione anonima della Biblioteca Nazionale Spagnola. © BNE

Il progetto di Álvaro, ETSO - L'estometria applicata al Teatro del Siglo de Oro (Stylometry applied to the Golden Age Theater) - mira a gettare nuova luce su questi problemi di paternità. Insieme al collega Germán Vega García-Luengos dal Università di ValladolidÁlvaro analizza manoscritti teatrali del Secolo d'Oro e confronta i risultati con un corpus di opere di drammaturghi dell'epoca. "Il nostro obiettivo è quello di restituire all'autore opere perdute o erroneamente attribuite. Questo include autori canonici come Lope de Vega, ma anche gli altri 350 drammaturghi che abbiamo nel nostro database".

Per farlo, il team utilizza un metodo chiamato stilometria. La stilometria analizza i diversi aspetti del particolare stile di uno scrittore, ad esempio la frequenza con cui utilizza determinate parole o il numero di clausole che tendono ad avere le sue frasi. Una volta creato un profilo stilometrico per un autore, è possibile analizzare altri testi per vedere quanto si adattano a quel profilo e trarre conclusioni su chi ha scritto il testo. 

L'elenco dei personaggi dell'opera. © BNE

Ciò che rende diverso il progetto ETSO è che l'intero processo viene svolto in digitale. Il team crea innanzitutto versioni digitali delle stampe e dei manoscritti con Transkribus, prima di utilizzare una seconda piattaforma AI per l'analisi e il confronto stilistico. Il successo di questo metodo potrebbe costituire un precedente per progetti futuri di questo tipo.

Trascrizione dei manoscritti

Il primo passo del progetto è stato quello di trascrivere i documenti: in totale oltre 1000 stampe e 400 manoscritti. Molti di questi, tra cui il manoscritto di Lope de Vega, provenivano dalla Biblioteca nazionale spagnola a Madrid. "La Biblioteca Nazionale Spagnola ha dedicato un'enorme quantità di risorse alla digitalizzazione delle sue collezioni teatrali del Secolo d'Oro spagnolo", spiega Álvaro. "Quando ci siamo rivolti alla biblioteca, avevano già digitalizzato la maggior parte delle migliaia di pagine di cui avevamo bisogno. Il problema era che i documenti erano stati scansionati, ma non trascritti. È stato allora che abbiamo utilizzato Transkribus".

Il modello del team ha trascritto e modernizzato il testo scritto a mano. © BNE

Poiché la collezione conteneva sia testi stampati che manoscritti, è stato necessario creare due modelli separati per le trascrizioni. In realtà, però, Álvaro ha finito per crearne tre. "Il nostro primo modello era in grado di trascrivere le stampe del Secolo d'oro spagnolo con incredibile successo (1% CER). Il problema era che avevamo bisogno di questi testi con un'ortografia modernizzata. Quindi questo primo modello non era utile per noi, perché trascriveva solo l'ortografia originale dei testi".

Dopo ulteriori ricerche su Transkribus, Álvaro ha trovato una soluzione. "Mi sono reso conto che potevo addestrare Transkribus non solo a trascrivere i testi, ma anche a modernizzarli allo stesso tempo. Questo sembra problematico, ma poiché Transkribus lavora utilizzando gruppi di lettere anziché singoli caratteri, la modernizzazione ha avuto un buon successo".

"Combinando le edizioni dei testi e dei documenti, ho potuto addestrare un modello con 2 milioni di parole in grado di trascrivere e modernizzare le stampe del Secolo d'oro spagnolo (3% CER) e un modello addestrato con 3 milioni di parole in grado di trascrivere e modernizzare i manoscritti del Secolo d'oro spagnolo (9% CER)". 

Tutti e tre i modelli sono disponibili sul nostro sito web:

Stampe del Secolo d'Oro spagnolo 1.0

Stampe del Secolo d'Oro spagnolo (Modernizzazione ortografica) 1.0

Manoscritti spagnoli del Secolo d'Oro (Modernizzazione ortografica) 1.0

Analisi della stilometria

Ma la trascrizione era solo metà del lavoro. Álvaro e il suo team dovevano anche analizzare la stilometria dei 1400 documenti, per vedere se qualcuno di essi poteva essere attribuito ad autori presenti nel database dell'ETSO.

Per farlo, hanno utilizzato uno strumento digitale chiamato Stylo. "Stylo è stato sviluppato da Maciej Eder, Jan Rybicki e Mike Kestemont ed è in grado di confrontare i testi in base all'uso delle parole. Questo è estremamente utile per la nostra ricerca e si è dimostrato molto efficace. Per esempio, ha classificato correttamente 99% dei testi scritti da Lope de Vega nei nostri ultimi esperimenti di controllo".

Per i ricercatori, Stylo è in grado di analizzare le trascrizioni automatiche quasi allo stesso modo in cui analizza le versioni completamente modificate. "Abbiamo trovato straordinario che le trascrizioni automatiche ci abbiano dato all'incirca gli stessi risultati dei testi perfettamente editati. Nel caso di La francesa LauraIl rapporto con Lope de Vega è sorprendentemente forte, anche con la trascrizione automatica".

Una scoperta sorprendente

Álvaro non aveva mai pensato di scoprire un'opera di un autore così famoso. Ma il momento in cui l'ha fatto è uno di quelli che non dimenticherà mai. "Stavo esaminando un mucchio di manoscritti, come faccio ogni giorno. Poi uno di questi manoscritti, La francesa Laurasi allineò inaspettatamente con Lope de Vega in modo molto forte. Mandai un messaggio al mio collega Germán Vega e gli dissi che avevamo qualcosa di speciale, ma che dovevamo essere estremamente cauti perché si trattava di una trascrizione automatica e dovevamo prima studiare attentamente il testo".

L'opera appena scoperta si intitola "La Francesca Laura", ovvero "La francese Laura". © BNE

Lo studio del testo ha richiesto due anni di meticolosa analisi storico-filologica. "Abbiamo letto il testo molto attentamente e cercato espressioni e idee parallele tra questo testo e altre opere di Lope de Vega e degli altri 350 drammaturghi che abbiamo nel nostro database. Abbiamo anche proceduto con approssimazioni metriche, ortologia, ritmi, tematica, datazione e così via. Tutti hanno dato lo stesso risultato: una correlazione cristallina tra questa opera e il repertorio di Lope de Vega".

Certa che si trattasse effettivamente di una nuova opera di Lope de Vega, l'équipe ha finalmente condiviso le proprie scoperte con il mondo. "Non ci aspettavamo una tale ripercussione nelle cronache nazionali e internazionali. Forse la cosa più gratificante è stata che tre compagnie teatrali hanno mostrato interesse a rappresentare l'opera, il che sarebbe straordinario".

Il progetto continua...

Álvaro e il suo team hanno già ottenuto un risultato piuttosto sorprendente, ma il progetto non si ferma qui. "Dobbiamo continuare a perseguire gli obiettivi generali del progetto: raccogliere tutte le opere del teatro spagnolo del Secolo d'Oro e cercare di far luce sui problemi di paternità".

Si tenga presente, inoltre, che sono passati due anni tra la prima attribuzione da parte della tecnologia La francesa Laura Lope de Vega e i ricercatori erano abbastanza sicuri dell'attribuzione da annunciarla al mondo. "Questo significa che tra due anni vedrete quello su cui stiamo lavorando adesso, il che è anche piuttosto eccitante".

Grazie per averci parlato Álvaro, e non vediamo l'ora di vedere cosa succederà in futuro con il progetto.

Álvaro è già stato invitato a parlare del progetto in varie conferenze. © Pio Baruque Fotógrafos
Panoramica