+ Riconoscere testi asiatici stampati con Transkribus

Sì, avete letto bene - il nostro Transkribus La piattaforma può effettivamente riconoscere i testi indiani stampati.

Il software OCR convenzionale di solito fatica a decifrare le complessità delle scritture dell'Asia meridionale. Due progetti hanno recentemente lavorato con testi stampati del diciannovesimo secolo in Transkribus con la speranza di ottenere risultati migliori. Usando immagini e trascrizioni da una collezione, gli utenti di Transkribus possono addestrare un modello per riconoscere il testo stampato di qualsiasi tipo.

Prima di tutto, la British Library's Due secoli di stampa indiana Il progetto sta creando una collezione digitalizzata di opere pubblicate in Asia meridionale nei secoli XVIII e XIX. Il team del progetto ha addestrato un modello di riconoscimento del testo in Transkribus con 50 pagine (contenenti 5.700 parole) di immagini digitalizzate e trascrizioni da libri bengalesi. Il modello risultante può produrre trascrizioni di pagine della collezione con un tasso di errore medio dei caratteri di 21%. Anche se questo è un tasso di errore relativamente alto, il team sta pianificando di riaddestrare il modello creando più pagine di dati di allenamento e concentrandosi sul miglioramento del riconoscimento di elementi dei caratteri bengalesi che a volte sono stati mancati dal software.

Lo strumento Naval Kishore Press era una casa editrice del diciannovesimo secolo che portava sul mercato opere su vari argomenti in hindi, urdu, arabo, persiano e sanscrito. Parte della sua produzione è detenuta dalla biblioteca del South Asia Institute (SAI) all'Università di Heidelberg. La biblioteca del South Asia Institute e la biblioteca dell'Università di Heidelberg stanno collaborando al Naval Kishore Press - digitale progetto, lavorando per produrre testo digitalizzato e leggibile dalla macchina per una selezione di testi pubblicati da questa stampa. Il team del progetto ha usato 200 pagine di immagini e trascrizioni per addestrare un modello in Transkribus a riconoscere il testo hindi e sanscrito. Questo modello può produrre trascrizioni della collezione con un Character Error Rate di circa 5%. Le immagini e le trascrizioni completamente ricercabili della collezione sono ora disponibili per consultare, scaricare e annotare sul catalogo online della biblioteca dell'Università di Heidelberg.

Leggi di più:

CONDIVIDI QUESTO ARTICOLO

Post recenti

19 settembre 2023
Transkribus
Siamo entusiasti di annunciare la versione di settembre 2023 dell'applicazione web di Transkribus. Dopo il successo del passaggio alla ...
30 agosto 2023
News, Transkribus
Oggi viene lanciata ufficialmente la nuova web app di Transkribus! Transkribus ha sempre lavorato per semplificare la digitazione e la trascrizione di ...
21 agosto 2023
Conferenza degli utenti Transkribus
La Transkribus User Conference 24 (15 e 16 febbraio 2024, Innsbruck) invita le parti interessate, gli utenti, gli studiosi e gli appassionati a esplorare ...