Creare un corpus linguistico con Transkribus: Ewa Rodek

Le lingue si evolvono nel tempo: anche gli studenti di linguistica del primo anno potrebbero dirlo. Ma capire come si evolvono è leggermente più impegnativo.

All' Istituto di lingua polacca – Accademia polacca delle scienzeun gruppo di ricercatori sta cercando di raccogliere informazioni sull'evoluzione della lingua polacca. I ricercatori stanno creando un corpus linguistico digitale di testi polacchi del XVII e XVIII secolo per facilitare l'analisi della lingua utilizzata in quel periodo. Poiché il corpus è stato progettato per essere interamente digitale, hanno deciso di trascrivere i testi utilizzando Transkribus.

Abbiamo parlato con la dottoressa Ewa Rodek, membro del team, per saperne di più su questo entusiasmante progetto nel campo della linguistica polacca.

Un corpus linguistico unico nel suo genere

Ewa Rodek è stata fin da sempre un'appassionata di lingue e della loro evoluzione: "Mi piace molto la storia della lingua, soprattutto la lessicografia storica e la cultura letteraria". Fortunatamente Ewa è riuscita a trasformare la sua passione in una carriera presso l'Istituto di lingua polacca dell'Accademia polacca delle scienze. Il suo team sta attualmente lavorando a un corpus digitale di testi polacchi del 17° e 18° secolo, il cosiddetto Progetto KorBa. Questo corpus, unico nel suo genere, contiene testi polacchi di molti generi e stili diversi dell'epoca barocca e illuminista. Una volta completato, conterrà oltre 25 milioni di token etichettati in base alla loro struttura e morfologia, diventando così il più grande corpus diacronico di questo tipo.

Un'impressione della varietà del materiale con cui Ewa e il suo team si confrontano

"KorBa è il primo corpus diacronico in polacco di queste dimensioni" ha detto Ewa. "La sua ricchezza lessicale lo rende importante per la comunità scientifica. Ma è importante anche per il nostro team, perché è il materiale di base per la creazione dell' eSXVII." eSXVII è l'abbreviazione di Electronic Dictionary of the 17th- and 18th-century Polish (Dizionario elettronico del 17° e 18° secolo polacco), a cui lo stesso team lavora dal 2004. "Il corpus è integrato con eSXVII in modo tale che l'utente possa facilmente passare da una voce del dizionario a una ricerca specifica nel corpus, dove può vedere quante volte la parola è stata usata e in quale contesto". In breve, questo progetto fornirà ai ricercatori molte più informazioni sull'uso storico delle singole parole di quante ne abbiano avute finora.

Scegliere Transkribus per la trascrizione

I testi storici come quelli di questo progetto non sono sempre facili da trascrivere. "Il nostro materiale non è esattamente omogeneo", spiega Ewa. "I manoscritti hanno spesso diversi caratteri tipografici e persino diverse lingue sulla stessa pagina: il polacco convive con il latino, il tedesco o il francese. Alcuni documenti presentano anche macchie o sono danneggiati". Per questo motivo, all'inizio del progetto, il team di Ewa ha scelto di trascrivere i documenti manualmente. Ma questo non ha avuto il successo desiderato. "Sono stata coinvolta nel lavoro fin dall'inizio, quindi conosco i problemi che si incontrano utilizzando trascrittori manuali, soprattutto per quanto riguarda i ritardi. La trascrizione e la correzione di documenti in caratteri gotici richiede inoltre conoscenze specialistiche, il che la rende piuttosto costosa".

Il team aveva già escluso l'uso della tecnologia OCR - "Avevo molta esperienza con il software OCR e sapevo che non avrebbe migliorato il nostro lavoro" - ma poi Ewa ha scoperto le possibilità HTR di Transkribus. Il software non solo avrebbe reso le cose più veloci, ma il team era in grado di utilizzarlo anche se non aveva alcuna esperienza di codifica o di software. "Era particolarmente importante poter gestire il lavoro da soli e non dover chiedere aiuto ai nostri colleghi informatici. L'uso di Transkribus era anche molto più economico rispetto all'assunzione di trascrittori".

Trascrizione dei documenti

E fortunatamente Ewa non si è pentita della sua decisione di usare Transkribus. Il team ha iniziato a creare i propri modelli di intelligenza artificiale, ottenendo tassi di errore sui caratteri piuttosto sorprendenti. "Il vantaggio principale di Transkribus è che impara molto rapidamente. Abbiamo sviluppato due modelli: uno per i testi stampati (con un CER di 0,29%), l'altro per i manoscritti (con un CER di 1,8%)", ha spiegato Ewa. E questo nonostante i diversi caratteri, le diverse lingue e condizioni dei documenti: "Transkribus ha compensato queste difficoltà e le ha gestite molto bene".

Anche il fatto che Transkribus possa essere utilizzato facilmente da un intero team è stato un vantaggio per questo grande progetto. "La possibilità di lavorare in team, di gestire modelli e raccolte di documenti è molto utile", ha detto Ewa. "L'esportazione di un file pdf da un'immagine con un livello di testo sottostante è estremamente potente. Utilizzerò sicuramente questa opzione nei miei progetti futuri".

I prossimi passi

Il team di Ewa potrebbe aver completato la trascrizione dei testi, ma il progetto KorBa non è ancora finito. "Abbiamo terminato la parte più lunga del processo, ovvero la raccolta e la trascrizione dei testi. Ora stiamo preparando il materiale di addestramento per il software di tagger e poi dobbiamo combinare i risultati della prima e della seconda fase del progetto". Sembra che il team sarà impegnato ancora per un po'!

Grazie a Ewa Rodek e al suo team del progetto KorBa per aver parlato con noi!

Il suggerimento di Ewa per Trankribus

Prima di addestrare il modello, è importante stabilire quali caratteri si vogliono mantenere e quali sono solo caratteristiche ortografiche dello scrittore, soprattutto se l'alfabeto dei documenti non è standardizzato. Ad esempio, nel nostro materiale è comparso il carattere ÿ. Dopo un po' di tempo, ci siamo resi conto che non si trattava di una legatura derivante dalla combinazione delle lettere ij, ma che veniva utilizzata in modo intercambiabile con la lettera y. Pertanto, abbiamo smesso di contrassegnare il carattere ÿ come una lettera separata e l'abbiamo trascritto semplicemente come y. Stabilendo un elenco di caratteri come questo, è possibile evitare errori nella Ground Truth e quindi creare una trascrizione più accurata.
Ewa Rodek, Istituto di lingua polacca - Accademia delle Scienze polacca

Cookie	Descrizione	Durata
politica dei cookie visualizzati	Il cookie è impostato dal plugin GDPR Cookie Consent e viene utilizzato per memorizzare se l'utente ha acconsentito o meno all'uso dei cookie. Non memorizza alcun dato personale.	1 ora
PHPSESSID	Questo cookie è nativo delle applicazioni PHP. Il cookie viene utilizzato per memorizzare e identificare l'ID di sessione unico di un utente allo scopo di gestire la sessione dell'utente sul sito web. Il cookie è un cookie di sessione e viene cancellato quando tutte le finestre del browser vengono chiuse.	1 anno

Cookie	Descrizione	Durata
VISITATORE_INFO1_LIVE	Questo cookie è impostato da Youtube. Utilizzato per tracciare le informazioni dei video di YouTube incorporati in un sito web.	5 mesi
IDE	Utilizzato da Google DoubleClick e memorizza le informazioni su come l'utente utilizza il sito web e qualsiasi altra pubblicità prima di visitare il sito. Questo viene utilizzato per presentare agli utenti gli annunci che sono rilevanti per loro in base al profilo dell'utente.	2 anni

Cookie	Descrizione	Durata
GPS	Questo cookie è impostato da Youtube e registra un ID unico per tracciare gli utenti in base alla loro posizione geografica	30 minuti
tk_or	Questo cookie è impostato dal plugin JetPack sui siti che utilizzano WooCommerce. Questo è un cookie di riferimento utilizzato per analizzare il comportamento dei referrer per Jetpack	5 anni
tk_r3d	Il cookie è installato da JetPack. Utilizzato per le metriche interne delle attività dell'utente per migliorare l'esperienza dell'utente	3 giorni
tk_lr	Questo cookie è impostato dal plugin JetPack sui siti che utilizzano WooCommerce. Questo è un cookie di riferimento utilizzato per analizzare il comportamento dei referrer per Jetpack	1 anno
{\an8}Che cosa?	Questo cookie è installato da Google Analytics. Il cookie viene utilizzato per calcolare i dati del visitatore, della sessione, del camapign e per tenere traccia dell'utilizzo del sito per il rapporto di analisi del sito. Il cookie memorizza le informazioni in modo anonimo e assegna un numero generato randoly per identificare i visitatori unici.	2 anni
_gid	Questo cookie è installato da Google Analytics. Il cookie viene utilizzato per memorizzare informazioni su come i visitatori utilizzano un sito web e aiuta a creare un rapporto analitico su come sta andando il sito web. I dati raccolti includono il numero di visitatori, la fonte da cui provengono e le pagine visitate in forma anonima.	1 giorno
matomo	Per l'analisi statistica, usiamo "Matomo" su questo sito web. Si tratta di uno strumento open source per l'analisi del web. Matomo non trasmette dati a server al di fuori del controllo di READ-COOP. Matomo viene disattivato quando si visita il nostro sito web. Solo se lei acconsente attivamente, il suo comportamento d'uso viene registrato in modo anonimo.	1 anno

Cookie	Descrizione	Durata
YSC	Questo cookie è impostato da Youtube e viene utilizzato per monitorare le visualizzazioni dei video incorporati.	1 anno
_gat	Questo cookie è installato da Google Universal Analytics per strozzare il tasso di richiesta per limitare la raccolta di dati su siti ad alto traffico.	1 minuto

Creare un corpus linguistico con Transkribus: Ewa Rodek

Un corpus linguistico unico nel suo genere

Scegliere Transkribus per la trascrizione

Trascrizione dei documenti

I prossimi passi

Il suggerimento di Ewa per Trankribus

La COOP

Prodotti e servizi

Informazioni utili

Risorse utili

Community