+ Riconoscere testi asiatici stampati con Transkribus

6 dicembre 2018
Modelli HTR, News, Storie di successo, Transkribus

Sì, avete letto bene - il nostro Transkribus La piattaforma può effettivamente riconoscere i testi indiani stampati.

Il software OCR convenzionale di solito fatica a decifrare le complessità delle scritture dell'Asia meridionale. Due progetti hanno recentemente lavorato con testi stampati del diciannovesimo secolo in Transkribus con la speranza di ottenere risultati migliori. Usando immagini e trascrizioni da una collezione, gli utenti di Transkribus possono addestrare un modello per riconoscere il testo stampato di qualsiasi tipo.

Prima di tutto, la British Library's Due secoli di stampa indiana Il progetto sta creando una collezione digitalizzata di opere pubblicate in Asia meridionale nei secoli XVIII e XIX. Il team del progetto ha addestrato un modello di riconoscimento del testo in Transkribus con 50 pagine (contenenti 5.700 parole) di immagini digitalizzate e trascrizioni da libri bengalesi. Il modello risultante può produrre trascrizioni di pagine della collezione con un tasso di errore medio dei caratteri di 21%. Anche se questo è un tasso di errore relativamente alto, il team sta pianificando di riaddestrare il modello creando più pagine di dati di allenamento e concentrandosi sul miglioramento del riconoscimento di elementi dei caratteri bengalesi che a volte sono stati mancati dal software.

Lo strumento Naval Kishore Press era una casa editrice del diciannovesimo secolo che portava sul mercato opere su vari argomenti in hindi, urdu, arabo, persiano e sanscrito. Parte della sua produzione è detenuta dalla biblioteca del South Asia Institute (SAI) all'Università di Heidelberg. La biblioteca del South Asia Institute e la biblioteca dell'Università di Heidelberg stanno collaborando al Naval Kishore Press - digitale progetto, lavorando per produrre testo digitalizzato e leggibile dalla macchina per una selezione di testi pubblicati da questa stampa. Il team del progetto ha usato 200 pagine di immagini e trascrizioni per addestrare un modello in Transkribus a riconoscere il testo hindi e sanscrito. Questo modello può produrre trascrizioni della collezione con un Character Error Rate di circa 5%. Le immagini e le trascrizioni completamente ricercabili della collezione sono ora disponibili per consultare, scaricare e annotare sul catalogo online della biblioteca dell'Università di Heidelberg.

Leggi di più:

CONDIVIDI QUESTO ARTICOLO

Post recenti

3 luglio 2024

News, Transkribus

Mappatura dei concerti di Beethoven e Haydn: il progetto "Vita concertistica a Vienna".

Alcuni progetti Transkribus terminano con una collezione completa digitalizzata in Transkribus. Alcuni prendono la fonte digitalizzata e la usano per ...

12 giugno 2024

News, Transkribus

Che cos'è la minuscola carolingia?

Quando si pensa alla minuscola carolingia (o carolina), probabilmente vengono in mente Carlo Magno e il suo vasto impero carolingio. Mentre il ...

14 maggio 2024

Uncategorized

Modelli di intelligenza artificiale per la lettura di testi polacchi corsivi e stampati

La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo ...

Cookie	Descrizione	Durata
politica dei cookie visualizzati	Il cookie è impostato dal plugin GDPR Cookie Consent e viene utilizzato per memorizzare se l'utente ha acconsentito o meno all'uso dei cookie. Non memorizza alcun dato personale.	1 ora
PHPSESSID	Questo cookie è nativo delle applicazioni PHP. Il cookie viene utilizzato per memorizzare e identificare l'ID di sessione unico di un utente allo scopo di gestire la sessione dell'utente sul sito web. Il cookie è un cookie di sessione e viene cancellato quando tutte le finestre del browser vengono chiuse.	1 anno

Cookie	Descrizione	Durata
VISITATORE_INFO1_LIVE	Questo cookie è impostato da Youtube. Utilizzato per tracciare le informazioni dei video di YouTube incorporati in un sito web.	5 mesi
IDE	Utilizzato da Google DoubleClick e memorizza le informazioni su come l'utente utilizza il sito web e qualsiasi altra pubblicità prima di visitare il sito. Questo viene utilizzato per presentare agli utenti gli annunci che sono rilevanti per loro in base al profilo dell'utente.	2 anni

Cookie	Descrizione	Durata
GPS	Questo cookie è impostato da Youtube e registra un ID unico per tracciare gli utenti in base alla loro posizione geografica	30 minuti
tk_or	Questo cookie è impostato dal plugin JetPack sui siti che utilizzano WooCommerce. Questo è un cookie di riferimento utilizzato per analizzare il comportamento dei referrer per Jetpack	5 anni
tk_r3d	Il cookie è installato da JetPack. Utilizzato per le metriche interne delle attività dell'utente per migliorare l'esperienza dell'utente	3 giorni
tk_lr	Questo cookie è impostato dal plugin JetPack sui siti che utilizzano WooCommerce. Questo è un cookie di riferimento utilizzato per analizzare il comportamento dei referrer per Jetpack	1 anno
{\an8}Che cosa?	Questo cookie è installato da Google Analytics. Il cookie viene utilizzato per calcolare i dati del visitatore, della sessione, del camapign e per tenere traccia dell'utilizzo del sito per il rapporto di analisi del sito. Il cookie memorizza le informazioni in modo anonimo e assegna un numero generato randoly per identificare i visitatori unici.	2 anni
_gid	Questo cookie è installato da Google Analytics. Il cookie viene utilizzato per memorizzare informazioni su come i visitatori utilizzano un sito web e aiuta a creare un rapporto analitico su come sta andando il sito web. I dati raccolti includono il numero di visitatori, la fonte da cui provengono e le pagine visitate in forma anonima.	1 giorno
matomo	Per l'analisi statistica, usiamo "Matomo" su questo sito web. Si tratta di uno strumento open source per l'analisi del web. Matomo non trasmette dati a server al di fuori del controllo di READ-COOP. Matomo viene disattivato quando si visita il nostro sito web. Solo se lei acconsente attivamente, il suo comportamento d'uso viene registrato in modo anonimo.	1 anno

Cookie	Descrizione	Durata
YSC	Questo cookie è impostato da Youtube e viene utilizzato per monitorare le visualizzazioni dei video incorporati.	1 anno
_gat	Questo cookie è installato da Google Universal Analytics per strozzare il tasso di richiesta per limitare la raccolta di dati su siti ad alto traffico.	1 minuto

+ Riconoscere testi asiatici stampati con Transkribus

Post recenti

Mappatura dei concerti di Beethoven e Haydn: il progetto "Vita concertistica a Vienna".

Che cos'è la minuscola carolingia?

Modelli di intelligenza artificiale per la lettura di testi polacchi corsivi e stampati

La COOP

Prodotti e servizi

Informazioni utili

Risorse utili

Community