Padroneggiare le abbreviazioni e le sillabazioni latine - I progetti Bentham e DEEDS

1 Luglio 2021
Modelli HTR

Una collaborazione tra il Bentham Project dell'University College London e il DEEDS (Documents of Early England Data Set) Project dell'Università di Toronto utilizza Transkribus per la trascrizione di un immenso corpus di carte medievali del 12^° al 15^° secolo. Il latino scritto a mano di questo periodo è molto particolare e li ha messi di fronte a due questioni interessanti:

Transkribus potrebbe essere addestrato in modo coerente per elaborare parole latine abbreviate, che possono rappresentare fino alla metà del vocabolario dei testi giuridici medievali, e quindi sono presenti in una parte sostanziale del corpus Documents of Early England Data Set (DEEDS) dell'Università di Toronto?
Transkribus potrebbe essere reso coerente per riconoscere le parole sillabate che si estendono su più righe di testo (nella misura in cui sono sia in latino che abbreviate)?

Per trovare le risposte, il team ha prima deciso di creare il proprio dizionario di oltre un centinaio di parole latine abbreviate, sia nella loro forma abbreviata che in quella estesa. Questo è stato fatto con l'aiuto del programmatore indipendente Ismail Prada dalla Svizzera, che ha codificato abbrevSolver-master, uno script Python. La forma contratta è stata rappresentata da caratteri speciali compatibili che riflettono meglio il modo in cui appaiono nei caratteri. Queste abbreviazioni sono state anche categorizzate come prefissi, suffissi, o abbreviazioni indipendenti, che avrebbero alterato il modo in cui sarebbero state processate dall'algoritmo. Tuttavia, il metodo si è rivelato problematico, poiché è stato necessario creare diverse versioni del file Excel separato da tabulazioni, contenente le parole abbreviate e diverse varietà di caratteri speciali, nel tentativo di farlo funzionare come previsto. L'unico modo per risolvere questo problema era quello di procedere con la ricerca e la sostituzione delle parole abbreviate senza l'uso dello script, trovando e sostituendo manualmente le parole. Questo significava un processo che richiedeva molto tempo e non era fattibile a lungo termine. Con l'aiuto di Prada, tuttavia, lo script è stato corretto ed è stato sviluppato anche uno script API superiore, che è direttamente collegato a Transkribus dopo avergli dato il nome utente e la password dell'editor di collezioni e l'ID della collezione. Il nuovo script è più veloce e più semplice da usare. Dopo aver eseguito un comando di base, lo script comunica con Transkribus e usa il suo algoritmo find-and-replace su ogni sottocollezione, sostituendo ogni termine che trova dal dizionario delle abbreviazioni con il suo equivalente più breve e contrassegnandolo come abbreviato. In questa fase del progetto, sono stati creati cinque nuovi modelli HTR. Nel corso di questo progetto il WER e il CER sono entrambi diminuiti in modo molto promettente e i modelli che sono stati generati dopo la creazione del nuovo script, sono estremamente buoni. Inoltre, il team di ricerca ha utilizzato materiale dell'Università di Oxford e della Christ Church per espandere ulteriormente la ground truth ed è stato in grado di creare altri due modelli, che hanno migliorato i risultati dei test del corpus DEEDS. Sulla strada verso i nuovi modelli, alcuni ostacoli, come la scarsa qualità delle immagini e la brevità delle immagini, hanno reso lo sviluppo ancora più difficile. Tuttavia, il modello #7 è ora disponibile gratuitamente per tutti. Più di 140 000 parole sono state addestrate e il CER sul set di convalida è 0,8% Per maggiori dettagli sul progetto e sui modelli sviluppati visitate il loro sito web: https://blogs.ucl.ac.uk/transcribe-bentham/2021/04/20/ucl-university-of-toronto-transkribus-htr-and-medieval-latin-abbreviations/

CONDIVIDI QUESTO ARTICOLO

Post recenti

3 luglio 2024

News, Transkribus

Mappatura dei concerti di Beethoven e Haydn: il progetto "Vita concertistica a Vienna".

Alcuni progetti Transkribus terminano con una collezione completa digitalizzata in Transkribus. Alcuni prendono la fonte digitalizzata e la usano per ...

12 giugno 2024

News, Transkribus

Che cos'è la minuscola carolingia?

Quando si pensa alla minuscola carolingia (o carolina), probabilmente vengono in mente Carlo Magno e il suo vasto impero carolingio. Mentre il ...

14 maggio 2024

Uncategorized

Modelli di intelligenza artificiale per la lettura di testi polacchi corsivi e stampati

La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo ...

Cookie	Descrizione	Durata
politica dei cookie visualizzati	Il cookie è impostato dal plugin GDPR Cookie Consent e viene utilizzato per memorizzare se l'utente ha acconsentito o meno all'uso dei cookie. Non memorizza alcun dato personale.	1 ora
PHPSESSID	Questo cookie è nativo delle applicazioni PHP. Il cookie viene utilizzato per memorizzare e identificare l'ID di sessione unico di un utente allo scopo di gestire la sessione dell'utente sul sito web. Il cookie è un cookie di sessione e viene cancellato quando tutte le finestre del browser vengono chiuse.	1 anno

Cookie	Descrizione	Durata
VISITATORE_INFO1_LIVE	Questo cookie è impostato da Youtube. Utilizzato per tracciare le informazioni dei video di YouTube incorporati in un sito web.	5 mesi
IDE	Utilizzato da Google DoubleClick e memorizza le informazioni su come l'utente utilizza il sito web e qualsiasi altra pubblicità prima di visitare il sito. Questo viene utilizzato per presentare agli utenti gli annunci che sono rilevanti per loro in base al profilo dell'utente.	2 anni

Cookie	Descrizione	Durata
GPS	Questo cookie è impostato da Youtube e registra un ID unico per tracciare gli utenti in base alla loro posizione geografica	30 minuti
tk_or	Questo cookie è impostato dal plugin JetPack sui siti che utilizzano WooCommerce. Questo è un cookie di riferimento utilizzato per analizzare il comportamento dei referrer per Jetpack	5 anni
tk_r3d	Il cookie è installato da JetPack. Utilizzato per le metriche interne delle attività dell'utente per migliorare l'esperienza dell'utente	3 giorni
tk_lr	Questo cookie è impostato dal plugin JetPack sui siti che utilizzano WooCommerce. Questo è un cookie di riferimento utilizzato per analizzare il comportamento dei referrer per Jetpack	1 anno
{\an8}Che cosa?	Questo cookie è installato da Google Analytics. Il cookie viene utilizzato per calcolare i dati del visitatore, della sessione, del camapign e per tenere traccia dell'utilizzo del sito per il rapporto di analisi del sito. Il cookie memorizza le informazioni in modo anonimo e assegna un numero generato randoly per identificare i visitatori unici.	2 anni
_gid	Questo cookie è installato da Google Analytics. Il cookie viene utilizzato per memorizzare informazioni su come i visitatori utilizzano un sito web e aiuta a creare un rapporto analitico su come sta andando il sito web. I dati raccolti includono il numero di visitatori, la fonte da cui provengono e le pagine visitate in forma anonima.	1 giorno
matomo	Per l'analisi statistica, usiamo "Matomo" su questo sito web. Si tratta di uno strumento open source per l'analisi del web. Matomo non trasmette dati a server al di fuori del controllo di READ-COOP. Matomo viene disattivato quando si visita il nostro sito web. Solo se lei acconsente attivamente, il suo comportamento d'uso viene registrato in modo anonimo.	1 anno

Cookie	Descrizione	Durata
YSC	Questo cookie è impostato da Youtube e viene utilizzato per monitorare le visualizzazioni dei video incorporati.	1 anno
_gat	Questo cookie è installato da Google Universal Analytics per strozzare il tasso di richiesta per limitare la raccolta di dati su siti ad alto traffico.	1 minuto

Padroneggiare le abbreviazioni e le sillabazioni latine - I progetti Bentham e DEEDS

Post recenti

Mappatura dei concerti di Beethoven e Haydn: il progetto "Vita concertistica a Vienna".

Che cos'è la minuscola carolingia?

Modelli di intelligenza artificiale per la lettura di testi polacchi corsivi e stampati

La COOP

Prodotti e servizi

Informazioni utili

Risorse utili

Community