5 modelli di intelligenza artificiale per la trascrizione della scrittura a mano russa antica e dei testi russi stampati

Essendo uno dei Paesi più grandi del mondo, la Russia è anche uno dei più studiati. La sua storia turbolenta e la sua influenza sulla politica mondiale ne fanno il fulcro di molti progetti di ricerca, che spesso utilizzano come fonti primarie documenti storici, come registri locali, registri di nascita o addirittura diari personali. 

In passato, decifrare la vecchia scrittura cirillica o la stampa al suo interno era una sfida lunga che richiedeva anni di formazione. Ma l'intelligenza artificiale ha cambiato le cose. Utilizzando una tecnologia di riconoscimento del testo AI come Transkribus, i ricercatori possono ora semplicemente eseguire una scansione del documento attraverso il software e ottenere una trascrizione istantanea e automatica. E come tutti sappiamo, meno tempo dobbiamo dedicare alla trascrizione, più tempo abbiamo per le parti più soddisfacenti della ricerca storica.

Se lavorate con documenti storici in russo, ecco tre modelli pubblici di intelligenza artificiale che potete utilizzare con Transkribus per ottenere trascrizioni istantanee dei vostri testi.

Grafia russa generica 2

Se si dispone di un mix di documenti di generi e periodi diversi, questo è probabilmente il modello migliore per iniziare. Basato su modelli precedenti del Archivio di Stato estone e l' Progetto INEL ad Amburgo, così come il modello dei registri civili russi (vedi sotto) e la Banca dati Prozhitocomprende un'ampia gamma di Verità Rilevanti, per lo più risalenti alla fine del XIX e all'inizio del XX secolo. 

Con un CER di 5,8%, è in grado di fornire trascrizioni abbastanza accurate per un'ampia varietà di documenti ed è un ottimo punto di partenza per addestrare il proprio modello. 

Vai al modello

Registri civili russi 

Questo interessante modello è stato creato dal Fondazione L'Dor V'Dorche conserva i documenti storici ebraici di tutto il mondo. Hanno preso come verità di base i documenti civili scritti a mano del Congresso di Polonia, Ucraina e Russia dal 1914 al 1968, creando un modello con un CER di 7,3%.

Il modello funziona particolarmente bene con i documenti scritti a mano del Congresso polacco.

Vai al modello

Grafia russa inizio XX secolo

Questo modello è ideale per l'utilizzo di documenti cirillici preformati. È stato addestrato su manoscritti bilingue Evenki/Russo dall'etnografo e linguista russo Konstantin M. Rychkov, che ha raccolto varie informazioni culturali dalla cultura Evenki e le ha tradotte in russo. 

La verità di fondo è costituita da 581 pagine dell'archivio Rychkov risalenti al periodo 1911-1913 e ha un CER di 4,4%. Il modello è stato creato anche dal Progetto INEL presso l'Università di Amburgo.

Vai al modello

Stampa russa del XVIII secolo (Tipografia di V. Okorokov)

Creato al Università Europea di San PietroburgoQuesto modello si basava su una serie di documenti scientifici pubblicati dalla tipografia di V. Okorokov dell'Università Statale di Mosca. I documenti erano tutti stampati in russo, con alcuni termini scientifici riportati in caratteri latini.

Il CER sul set di validazione è di appena 0,6% e il modello mostra buoni risultati su testi stampati di altre case editrici dell'epoca. 

Vai al modello

Stampa russa del XVIII secolo

Questo modello di stampa più recente si basa sulle Ground Truths di una più ampia varietà di case editrici operanti nel XVIII secolo, tra cui quelle dell'Accademia delle Scienze di San Pietroburgo e dell'Università Imperiale di Mosca. È stato sviluppato come parte di un progetto studentesco presso Università HSE

Con un CER di 2,4%, fornisce buoni risultati su testi in lingua russa, ma non riconosce altre lingue che possono comparire nel testo.

Vai al modello

Come si utilizza un modello pubblico di IA?

Le trascrizioni di Transkribus si basano su modelli AI. Ogni modello è stato addestrato a leggere un tipo specifico di testo scritto a mano o stampato in una certa lingua, e spesso anche un certo periodo o genere. 

Se si desidera trascrivere un documento con Transkribus, è necessario prima caricare una scansione del documento e poi scegliere un modello. Attualmente sono disponibili 94 modelli pubblici, tutti completamente gratuiti. Transkribus prenderà le informazioni contenute nel modello e le applicherà al documento, creando una trascrizione istantanea.

Ma se non esiste un modello adatto al testo dei vostri documenti? Allora avete anche la possibilità di addestrare il vostro. Per farlo, è necessario disporre di una serie di documenti pre-trascritti, noti come "Ground Truths". Più verità di base si usano per addestrare il modello, più informazioni conterrà e più sarà accurato nella trascrizione di nuovi documenti. Per risparmiare tempo, molti utilizzano un modello pubblico come base per il loro modello personalizzato e poi lo perfezionano con ulteriori verità di base.
Per maggiori informazioni sui modelli e su come addestrarli, consultate il nostro sito Guide pratiche.

CONDIVIDI QUESTO ARTICOLO

Post recenti

3 luglio 2024
News, Transkribus
Alcuni progetti Transkribus terminano con una collezione completa digitalizzata in Transkribus. Alcuni prendono la fonte digitalizzata e la usano per ...
12 giugno 2024
News, Transkribus
Quando si pensa alla minuscola carolingia (o carolina), probabilmente vengono in mente Carlo Magno e il suo vasto impero carolingio. Mentre il ...
14 maggio 2024
Uncategorized
La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo ...