Padroneggiare le abbreviazioni e le sillabazioni latine - I progetti Bentham e DEEDS

Una collaborazione tra il Bentham Project dell'University College London e il DEEDS (Documents of Early England Data Set) Project dell'Università di Toronto utilizza Transkribus per la trascrizione di un immenso corpus di carte medievali del 12. al 15. secolo. Il latino scritto a mano di questo periodo è molto particolare e li ha messi di fronte a due questioni interessanti: 

  • Transkribus potrebbe essere addestrato in modo coerente per elaborare parole latine abbreviate, che possono rappresentare fino alla metà del vocabolario dei testi giuridici medievali, e quindi sono presenti in una parte sostanziale del corpus Documents of Early England Data Set (DEEDS) dell'Università di Toronto?
  • Transkribus potrebbe essere reso coerente per riconoscere le parole sillabate che si estendono su più righe di testo (nella misura in cui sono sia in latino che abbreviate)?

Per trovare le risposte, il team ha prima deciso di creare il proprio dizionario di oltre un centinaio di parole latine abbreviate, sia nella loro forma abbreviata che in quella estesa. Questo è stato fatto con l'aiuto del programmatore indipendente Ismail Prada dalla Svizzera, che ha codificato abbrevSolver-master, uno script Python. La forma contratta è stata rappresentata da caratteri speciali compatibili che riflettono meglio il modo in cui appaiono nei caratteri. Queste abbreviazioni sono state anche categorizzate come prefissi, suffissi, o abbreviazioni indipendenti, che avrebbero alterato il modo in cui sarebbero state processate dall'algoritmo. Tuttavia, il metodo si è rivelato problematico, poiché è stato necessario creare diverse versioni del file Excel separato da tabulazioni, contenente le parole abbreviate e diverse varietà di caratteri speciali, nel tentativo di farlo funzionare come previsto. L'unico modo per risolvere questo problema era quello di procedere con la ricerca e la sostituzione delle parole abbreviate senza l'uso dello script, trovando e sostituendo manualmente le parole. Questo significava un processo che richiedeva molto tempo e non era fattibile a lungo termine. Con l'aiuto di Prada, tuttavia, lo script è stato corretto ed è stato sviluppato anche uno script API superiore, che è direttamente collegato a Transkribus dopo avergli dato il nome utente e la password dell'editor di collezioni e l'ID della collezione. Il nuovo script è più veloce e più semplice da usare. Dopo aver eseguito un comando di base, lo script comunica con Transkribus e usa il suo algoritmo find-and-replace su ogni sottocollezione, sostituendo ogni termine che trova dal dizionario delle abbreviazioni con il suo equivalente più breve e contrassegnandolo come abbreviato. In questa fase del progetto, sono stati creati cinque nuovi modelli HTR. Nel corso di questo progetto il WER e il CER sono entrambi diminuiti in modo molto promettente e i modelli che sono stati generati dopo la creazione del nuovo script, sono estremamente buoni. Inoltre, il team di ricerca ha utilizzato materiale dell'Università di Oxford e della Christ Church per espandere ulteriormente la ground truth ed è stato in grado di creare altri due modelli, che hanno migliorato i risultati dei test del corpus DEEDS. Sulla strada verso i nuovi modelli, alcuni ostacoli, come la scarsa qualità delle immagini e la brevità delle immagini, hanno reso lo sviluppo ancora più difficile. Tuttavia, il modello #7 è ora disponibile gratuitamente per tutti. Più di 140 000 parole sono state addestrate e il CER sul set di convalida è 0,8% Per maggiori dettagli sul progetto e sui modelli sviluppati visitate il loro sito web: https://blogs.ucl.ac.uk/transcribe-bentham/2021/04/20/ucl-university-of-toronto-transkribus-htr-and-medieval-latin-abbreviations/