Storia di successo
Pubblicato: 2 anni fa

Creare un corpus linguistico con Transkribus: Ewa Rodek

Le lingue si evolvono nel tempo: anche gli studenti di linguistica del primo anno potrebbero dirlo. Ma capire come si evolvono è leggermente più impegnativo.  

All' Istituto di lingua polacca – Accademia polacca delle scienzeun gruppo di ricercatori sta cercando di raccogliere informazioni sull'evoluzione della lingua polacca. I ricercatori stanno creando un corpus linguistico digitale di testi polacchi del XVII e XVIII secolo per facilitare l'analisi della lingua utilizzata in quel periodo. Poiché il corpus è stato progettato per essere interamente digitale, hanno deciso di trascrivere i testi utilizzando Transkribus.

Abbiamo parlato con la dottoressa Ewa Rodek, membro del team, per saperne di più su questo entusiasmante progetto nel campo della linguistica polacca.

Un corpus linguistico unico nel suo genere

Ewa Rodek è stata fin da sempre un'appassionata di lingue e della loro evoluzione: "Mi piace molto la storia della lingua, soprattutto la lessicografia storica e la cultura letteraria". Fortunatamente Ewa è riuscita a trasformare la sua passione in una carriera presso l'Istituto di lingua polacca dell'Accademia polacca delle scienze. Il suo team sta attualmente lavorando a un corpus digitale di testi polacchi del 17° e 18° secolo, il cosiddetto Progetto KorBa. Questo corpus, unico nel suo genere, contiene testi polacchi di molti generi e stili diversi dell'epoca barocca e illuminista. Una volta completato, conterrà oltre 25 milioni di token etichettati in base alla loro struttura e morfologia, diventando così il più grande corpus diacronico di questo tipo.

Un'impressione della varietà del materiale con cui Ewa e il suo team si confrontano

"KorBa è il primo corpus diacronico in polacco di queste dimensioni" ha detto Ewa. "La sua ricchezza lessicale lo rende importante per la comunità scientifica. Ma è importante anche per il nostro team, perché è il materiale di base per la creazione dell' eSXVII." eSXVII è l'abbreviazione di Electronic Dictionary of the 17th- and 18th-century Polish (Dizionario elettronico del 17° e 18° secolo polacco), a cui lo stesso team lavora dal 2004. "Il corpus è integrato con eSXVII in modo tale che l'utente possa facilmente passare da una voce del dizionario a una ricerca specifica nel corpus, dove può vedere quante volte la parola è stata usata e in quale contesto". In breve, questo progetto fornirà ai ricercatori molte più informazioni sull'uso storico delle singole parole di quante ne abbiano avute finora.

Scegliere Transkribus per la trascrizione

I testi storici come quelli di questo progetto non sono sempre facili da trascrivere. "Il nostro materiale non è esattamente omogeneo", spiega Ewa. "I manoscritti hanno spesso diversi caratteri tipografici e persino diverse lingue sulla stessa pagina: il polacco convive con il latino, il tedesco o il francese. Alcuni documenti presentano anche macchie o sono danneggiati". Per questo motivo, all'inizio del progetto, il team di Ewa ha scelto di trascrivere i documenti manualmente. Ma questo non ha avuto il successo desiderato. "Sono stata coinvolta nel lavoro fin dall'inizio, quindi conosco i problemi che si incontrano utilizzando trascrittori manuali, soprattutto per quanto riguarda i ritardi. La trascrizione e la correzione di documenti in caratteri gotici richiede inoltre conoscenze specialistiche, il che la rende piuttosto costosa". 

Il team aveva già escluso l'uso della tecnologia OCR - "Avevo molta esperienza con il software OCR e sapevo che non avrebbe migliorato il nostro lavoro" - ma poi Ewa ha scoperto le possibilità HTR di Transkribus. Il software non solo avrebbe reso le cose più veloci, ma il team era in grado di utilizzarlo anche se non aveva alcuna esperienza di codifica o di software. "Era particolarmente importante poter gestire il lavoro da soli e non dover chiedere aiuto ai nostri colleghi informatici. L'uso di Transkribus era anche molto più economico rispetto all'assunzione di trascrittori". 

Trascrizione dei documenti

E fortunatamente Ewa non si è pentita della sua decisione di usare Transkribus. Il team ha iniziato a creare i propri modelli di intelligenza artificiale, ottenendo tassi di errore sui caratteri piuttosto sorprendenti. "Il vantaggio principale di Transkribus è che impara molto rapidamente. Abbiamo sviluppato due modelli: uno per i testi stampati (con un CER di 0,29%), l'altro per i manoscritti (con un CER di 1,8%)", ha spiegato Ewa. E questo nonostante i diversi caratteri, le diverse lingue e condizioni dei documenti: "Transkribus ha compensato queste difficoltà e le ha gestite molto bene".

Anche il fatto che Transkribus possa essere utilizzato facilmente da un intero team è stato un vantaggio per questo grande progetto. "La possibilità di lavorare in team, di gestire modelli e raccolte di documenti è molto utile", ha detto Ewa. "L'esportazione di un file pdf da un'immagine con un livello di testo sottostante è estremamente potente. Utilizzerò sicuramente questa opzione nei miei progetti futuri".

I prossimi passi

Il team di Ewa potrebbe aver completato la trascrizione dei testi, ma il progetto KorBa non è ancora finito. "Abbiamo terminato la parte più lunga del processo, ovvero la raccolta e la trascrizione dei testi. Ora stiamo preparando il materiale di addestramento per il software di tagger e poi dobbiamo combinare i risultati della prima e della seconda fase del progetto". Sembra che il team sarà impegnato ancora per un po'!

Grazie a Ewa Rodek e al suo team del progetto KorBa per aver parlato con noi!

Il suggerimento di Ewa per Trankribus

Prima di addestrare il modello, è importante stabilire quali caratteri si vogliono mantenere e quali sono solo caratteristiche ortografiche dello scrittore, soprattutto se l'alfabeto dei documenti non è standardizzato. Ad esempio, nel nostro materiale è comparso il carattere ÿ. Dopo un po' di tempo, ci siamo resi conto che non si trattava di una legatura derivante dalla combinazione delle lettere ij, ma che veniva utilizzata in modo intercambiabile con la lettera y. Pertanto, abbiamo smesso di contrassegnare il carattere ÿ come una lettera separata e l'abbiamo trascritto semplicemente come y. Stabilendo un elenco di caratteri come questo, è possibile evitare errori nella Ground Truth e quindi creare una trascrizione più accurata.

Ewa Rodek, Istituto di lingua polacca - Accademia delle Scienze polacca
Panoramica