+ Presentare il modello Noscemus-pubblico

Siamo felici di presentare uno dei nostri modelli pubblici, che è il modello "Noscemus GM v1" rilasciato da Stefan Zathammer come parte del progetto NOSCEMUS (Nova Scientia: Early Modern Scientific Literature and Latin) basato a Innsbruck. Questo modello può leggere testi impostati in caratteri basati su Antiqua dal 16°, 17° e 18° secolo, superando la maggior parte dei motori OCR standard. Sebbene sia fatto su misura per la trascrizione di testi (neo)latini, fornisce risultati convincenti anche per altre lingue come il francese, l'italiano o l'inglese. Il modello Noscemus può quindi fornire aiuto non solo ai neolatini, ma a tutti i tipi di ricerca che hanno a che fare con grandi corpora di testi del primo periodo moderno.

Il modello si basa su dati di allenamento provenienti dal Sourcebook digitale del progetto e comprende circa 1.000 pagine. Per mantenere il modello il più flessibile possibile, le standardizzazioni nel processo di trascrizione sono state tenute al minimo. Solo nei seguenti casi sono state fatte delle normalizzazioni: legature (es. aeoectff) e abbreviazioni (per esempio -que-us-tur...mm...) sono stati espansi, lungo s (ſ) è stato trascritto come normale s, I tappi piccoli sono stati trascritti come maiuscole.

Anche se il modello fornisce già buoni risultati, il progetto sta ancora affrontando alcuni problemi: ci sono alcune incongruenze rimanenti nella trascrizione delle virgolette e il tasso di errore per la trascrizione di parole o passaggi greci è ancora alto, in misura minore lo stesso vale per il Fraktur (tedesco).

Speriamo che il modello Noscemus renda la vita di trascrizione più facile per molti di voi e per tutti coloro che lavorano su diversi tipi di documenti, non dimenticate di dare un'occhiata agli altri modelli che siamo stati in grado di pubblicare di recente grazie ai nostri laboriosi utenti. Una panoramica su tutti i nostri modelli pubblici la potete trovare in questo documento: https://transkribus.eu/wiki/images/d/d6/Public_Models_in_Transkribus.pdf

CONDIVIDI QUESTO ARTICOLO

Post recenti

3 luglio 2024
News, Transkribus
Alcuni progetti Transkribus terminano con una collezione completa digitalizzata in Transkribus. Alcuni prendono la fonte digitalizzata e la usano per ...
12 giugno 2024
News, Transkribus
Quando si pensa alla minuscola carolingia (o carolina), probabilmente vengono in mente Carlo Magno e il suo vasto impero carolingio. Mentre il ...
14 maggio 2024
Uncategorized
La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo ...