Etiopico, ebraico, devanagari, balinese e turco ottomano: 5 modelli pubblici di IA per la trascrizione di scritture non latine

Scorrendo l'elenco dei modelli di IA pubblici di Transkribus, si potrebbe pensare che la piattaforma possa essere utilizzata solo per le lingue europee in caratteri latini, come il tedesco, l'inglese o l'olandese. Ma fortunatamente per i ricercatori che lavorano con lingue più "insolite" non è così. Transkribus dispone di un'ampia gamma di modelli pubblici per molte scritture e lingue diverse, tutti utilizzabili per trascrivere automaticamente testi stampati o scritti a mano in quelle lingue.

In questo post, daremo un'occhiata a quattro modelli di intelligenza artificiale pubblici per le scritture non latine di etiopico, ebraico, devanagari, balinese e turco ottomano e vedremo come possono rendere più efficiente il lavoro con i documenti in queste scritture.

 Ahmet Sudi Bosnawi (morto nel 1595 circa), Shehr-i Hafiz, firmato Taher 'Umar, Turchia ottomana, datato 1821-2. Pubblico dominio, via Wikimedia Commons

Stampa turca ottomana

Lingua ufficiale dell'Impero Ottomano (dal XIV al XX secolo d.C.), il turco ottomano era principalmente una lingua letteraria, scritta in caratteri arabi e fortemente influenzata dall'arabo e dal persiano. Con la fine dell'Impero Ottomano nel 1928 e l'istituzione della Repubblica di Turchia, seguì una riforma linguistica in cui l'uso pubblico del turco ottomano fu sostituito da quello che oggi viene chiamato "turco moderno". Nell'ambito di questa riforma, le parole di origine persiana e araba furono sostituite con i loro equivalenti turchi e la scrittura turca ottomana fu cambiata in un alfabeto latino per la lingua turca. Poiché il turco ottomano è stato una scrittura ufficiale nell'Impero Ottomano per molti secoli, anche se oggi potrebbe essere considerato una scrittura "morta", è prezioso avere fonti leggibili e disponibili per aiutarci a comprendere il passato.

Questo modello per il turco ottomano è stato creato dal team Digital Ottoman Corpora, guidato da Süphan Kırmızıaltın, che sta lavorando alla trascrizione di testi stampati in turco ottomano in turco moderno per renderli più accessibili. I materiali utilizzati per addestrare il modello sono stati sei periodici turchi ottomani della fine del XIX e dell'inizio del XX secolo, che coprono un'ampia gamma di argomenti, e un dizionario turco ottomano.

Vai al modello

Bibbia di Re Teodoro, doppio foglio: San Giovanni. Wellcome Collection. Pubblico dominio, via Wikimedia Commons

Etiope - Scritture classiche etiopi dell'Etiopia e dell'Eritrea

Spesso conosciuto come Ge-ez, l'etiope classico era una delle lingue semitiche più importanti nella parte dell'Africa che oggi è Etiopia ed Eritrea. Questa parte del mondo ha avuto una notevole influenza culturale, politica e religiosa nel periodo tardo-antico e medievale, per cui la comprensione della lingua etiope è importante per capire le fonti primarie scritte all'epoca. Pur non essendo più una lingua viva, l'etiopico è strettamente imparentato con le lingue moderne del tigrino, dell'arabo e dell'ebraico e rimane la lingua liturgica sia della Chiesa etiope che di quella eritrea ortodossa Tewahedo.

Questo modello etiopico classico è stato sviluppato nell'ambito del progetto Progetto Beta maṣāḥǝft, che è ospitato dal Centro di studi etiopici Hiob Ludolf alla Università di Amburgo. Il progetto mira a creare un ambiente di ricerca multimediale per lo studio dei manoscritti etiopici classici e i dati di addestramento di questo modello sono stati utilizzati anche per il database del progetto. Il modello ha un CER di soli 3,8%.

Vai al modello

Manoscritto del Bhagavata Purana, 18° secolo. Centro di ricerca Bhaktivedanta, Kolkata. Pubblico dominio, via Wikimedia Commons

Devanagari misto M1A

La scrittura Devanagari, a volte erroneamente nota come "alfabeto indiano", è il sistema di scrittura utilizzato per diverse lingue indicali ariane, tra cui l'hindi, il sanscrito e il marathi. Le lettere dell'alfabeto Devanagari hanno un lungo tratto orizzontale nella parte superiore di ciascuna, che si unisce ai tratti di tutte le altre lettere del mondo. La scrittura Devanagari non solo è utilizzata quotidianamente da milioni di persone in tutto il mondo, ma è anche la scrittura utilizzata per la maggior parte dei testi sacri dell'Induismo, oltre che per molti testi del Buddismo e del Giainismo, e quindi ha anche un importante significato religioso.

Questo modello per la scrittura Devanagari è stato formato su una serie di materiali nelle lingue hindi, sanscrito, braj bhasha e awadhi. Tutti i materiali sono stati pubblicati a stampa dalla Naval Kishore Press di Lakhnau, nell'India settentrionale, tra la fine del XIX e l'inizio del XX secolo. Il modello è stato creato dal Biblioteca universitaria di Heidelberg e ha un CER di appena 2,2%.

Vai al modello

"Deuteronomio di tutte le anime" dai Rotoli del Mar Morto. Biblioteca digitale dei Rotoli del Mar Morto Leon Levy. Pubblico dominio, via Wikimedia Commons

Lingue della scrittura ebraica

Discendente dell'alfabeto aramaico, la scrittura ebraica è il sistema di scrittura non solo per la lingua semitica ebraica, ma anche per diverse altre lingue, tra cui lo yiddish e il ladino. È anche la scrittura utilizzata per la maggior parte dei testi sacri ebraici e per molte altre opere culturali, il che la rende una delle scritture non latine più studiate. È interessante notare che in origine l'alfabeto ebraico conteneva solo consonanti e i parlanti dovevano riempire da soli le vocali quando leggevano i testi ad alta voce. Tuttavia, nel corso degli anni, gli studiosi e gli scribi hanno iniziato a marcare le vocali utilizzando una serie di punti noti come niqqud.

Questo modello per le lingue a scrittura ebraica è stato creato dal progetto di digitalizzazione degli studi ebraici, istituito dal Dr. Sinai Rusinek, presso Università di Haifa e supportato dal Fondazione Rothschild Hanadiv Europa. Il modello è stato addestrato con testi in diverse lingue, tra cui l'ebraico, lo yiddish e il giudeo-arabo, rendendolo adatto a un'ampia varietà di documenti in scrittura ebraica.

Vai al modello

Scrittura su un manoscritto in foglie di palma. Tropenmuseum Collection. Pubblico dominio, via Wikimedia Commons

Manoscritti balinesi in foglie di palma del XVI secolo

La scrittura balinese è un sistema di scrittura tradizionale dell'isola di Bali, in Indonesia, utilizzato per i testi in lingua balinese, in giavanese antico e in sanscrito. L'alfabeto è composto da 47 lettere - non tutte utilizzate nella scrittura balinese - e utilizza i diacritici per indicare la pronuncia di alcune sillabe. Al giorno d'oggi, la lingua balinese è generalmente scritta in caratteri latini e sempre meno persone conoscono la scrittura balinese. Tuttavia, ha ancora un forte significato culturale ed è presente in molte tradizioni dell'isola.

Una di queste tradizioni è la creazione di manoscritti in foglie di palma, o lontar. Questi sono stati utilizzati per secoli come metodo di conservazione dei testi, dalle scritture religiose alle opere letterarie. Sviluppato dai ricercatori del NIT Trichy e l' IIIT Hyderabad in India, questo modello si basa su una serie di manoscritti a foglie di palma in scrittura balinese. Tutto il materiale didattico risale al XVI secolo e quindi è ideale per la trascrizione di manoscritti di questo periodo.

Se lavorate con i manoscritti in carta palma, potreste essere interessati alla nostra attuale collaborazione con l'associazione Fondazione Wikimediache mira a digitalizzare e trascrivere oltre 20.000 manoscritti indonesiani scritti a mano su foglie di palma. Per saperne di più sul loro sito web.

Vai al modello

Come si usa un modello pubblico di AI con Transkribus?

Le trascrizioni di Transkribus si basano su modelli AI. Ogni modello è stato addestrato a leggere un tipo specifico di testo scritto a mano o stampato in una certa lingua, e spesso anche un certo periodo o genere.

Se si desidera trascrivere un documento con Transkribus, è necessario prima caricare una scansione del documento e poi scegliere un modello. Attualmente sono disponibili 94 modelli pubblici, tutti completamente gratuiti. Transkribus prenderà le informazioni contenute nel modello e le applicherà al documento, creando una trascrizione istantanea.

Ma se non esiste un modello adatto al testo dei vostri documenti? Allora avete anche la possibilità di addestrare il vostro. Per farlo, è necessaria una serie di documenti pre-trascritti, noti collettivamente come "Ground Truth". Più Ground Truth si usa per addestrare il modello, più informazioni conterrà e più sarà accurato nella trascrizione di nuovi documenti. Per risparmiare tempo, molti utilizzano un modello pubblico come base per il loro modello personalizzato e poi lo perfezionano con ulteriore Ground Truth.

Per maggiori informazioni sui modelli e su come addestrarli, consultate il nostro sito Centro assistenza.

Caricate un documento e provate Transkribus:

CONDIVIDI QUESTO ARTICOLO

Post recenti

3 luglio 2024
News, Transkribus
Alcuni progetti Transkribus terminano con una collezione completa digitalizzata in Transkribus. Alcuni prendono la fonte digitalizzata e la usano per ...
12 giugno 2024
News, Transkribus
Quando si pensa alla minuscola carolingia (o carolina), probabilmente vengono in mente Carlo Magno e il suo vasto impero carolingio. Mentre il ...
14 maggio 2024
Uncategorized
La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo ...