+ Ultima storia di successo! Riconoscimento della calligrafia medievale e del testo scritto a mano

Due partner della rete del progetto READ hanno ora addestrato con successo un nuovo modello per riconoscere la scrittura gotica! Il sito Archivio di Stato di Zurigo (partner del progetto READ) e il Università di Zurigo (LEGGI il progetto Memorandum d'intesa partner) hanno collaborato al riconoscimento automatico di una collezione di carte medievali.

Nel 1336 fu scritto un cartulario in Königsfeldenvicino alla città di Brugg (che ora fa parte della Svizzera). L'abbazia di Königsfelden era un'istituzione ben dotata e strettamente legata ai duchi d'Asburgo. In una grafia ordinata e regolare, le carte dell'istituzione furono copiate su circa 260 pagine di pergamena. Il cartulario è disponibile online tramite e-codici.

Immagine del cartulario di Königsfelden. Aarau, Staatsarchiv Aargau, AA/0428, f. 1r [http://www.e-codices.unifr.ch/en/list/one/saa/0428]
All'Università di Zurigo, c'è un progetto in corso per creare un edizione digitale accademica delle carte dell'abbazia di Königsfelden. Il cartulario è una fonte importante per le prime pratiche di scrittura ed è già stato parzialmente trascritto. Il team del progetto ha utilizzato il nostro Transkribus per produrre le loro trascrizioni e hanno usato queste trascrizioni per addestrare e testare un modello di riconoscimento del testo scritto a mano (HTR).

Il modello è stato addestrato su trascrizioni di circa 26.000 parole dalle carte. Questi documenti sono scritti in una scrittura regolare, con linee regolari e questo aiuta la tecnologia ad elaborare le pagine più facilmente. Il modello HTR è in grado di produrre automaticamente trascrizioni di documenti della collezione con un sorprendente Character Error Rate (CER) di 10%.

Transkribus è stato in grado di affrontare alcune delle complessità comuni ai documenti medievali. Grazie all'integrazione di Unicode, gli apici sulle lettere, come uͤ possono anche essere riconosciuti dall'HTR. Non aspettatevi che questo riconoscimento funzioni perfettamente, i segni sono a volte così piccoli che anche i paleografi esperti discutono il loro significato!

Inoltre, uno dei principali problemi relativi alla grafia premoderna potrebbe essere parzialmente affrontato: Le abbreviazioni sono state indicate nel processo di trascrizione usando diacritici combinatori come ' ̄ ' (U+0305 combining overline) o inserendo segni corretti da Unicode.

Schermata di Transkribus che mostra la trascrizione generata dal computer di un documento cartulario

Poiché le trascrizioni fornite come dati di addestramento erano coerenti, il riconoscimento automatico delle abbreviazioni (o piuttosto la trascrizione corretta usando segni di abbreviazione) potrebbe in alcuni casi essere raggiunto. Al fine di produrre trascrizioni facilmente leggibili o anche edizioni accademiche, questi segni possono essere cercati e sostituiti in Transkribus o in un altro editor in una fase successiva.

Per due motivi, si è deciso di non integrare i dizionari per cercare di migliorare la precisione del modello. In primo luogo, i testi medievali tendono ad essere pieni di diverse varianti. La stessa parola può comparire nello stesso testo con varie grafie diverse. In secondo luogo, nel cartulario, come in altri documenti medievali, il latino e il volgare (in questo caso il tedesco medio) sono mescolati. Nonostante la mancanza di un dizionario, il modello HTR è stato in grado di riconoscere questi documenti con un alto livello di precisione.

In futuro, speriamo di essere in grado di creare modelli generali che possono essere applicati alla scrittura regolare come quella che si trova nei libri e nelle carte medievali. Tutto ciò che serve è una grande quantità di dati di allenamento da diversi documenti medievali. Quindi, unisciti a noi e inizia ad addestrare il tuo modello HTR!

Da Tobias Hodel, Università di Zurigo.

CONDIVIDI QUESTO ARTICOLO

Post recenti

17 aprile 2024
News, Transkribus
Uno dei maggiori vantaggi di Transkribus è la possibilità di addestrare modelli personalizzati di riconoscimento del testo scritto a mano. Questa caratteristica unica ...
4 aprile 2024
News
La primavera è arrivata e così anche l'uscita di aprile 2024 di Transkribus. Ecco una rapida panoramica di tutte le ...
3 aprile 2024
News
Si può imparare molto sulla storia francese leggendo libri e guardando documentari. Questo tipo di fonti è ottimo per ...