Storia di successo
Pubblicato: 10 mesi fa

Dalla scrittura al digitale - Trasformare la ricerca sui testi turchi ottomani con Suphan Kirmizialtin

Lavorare con documenti storici scritti in turco ottomano è stato a lungo un compito difficile. Non solo è considerata una scrittura "morta" oggi, ma dall'accessibilità alla leggibilità, ci sono sicuramente delle sfide per chi cerca di fare ricerca sui testi in turco ottomano. Tuttavia, il team dei Digital Ottoman Corpora ha affrontato queste sfide trascrivendo, digitalizzando e analizzando le collezioni di stampe turche ottomane per rendere le fonti turche ottomane più accessibili alla ricerca. Abbiamo parlato con Suphan Kirmizialtin, che ci ha raccontato del progetto Digital Ottoman Corpora e di come hanno pubblicato il primo modello di riconoscimento testuale della stampa turca ottomana.

Il progetto dei corpora digitali ottomani

Suphan Kirmizialtin, storico specializzato nell'Impero Ottomano e nella ricerca sull'intersezione tra genere e modernizzazione in Medio Oriente, guida il team di Digital Ottoman Corpora in questo progetto. Negli ultimi anni, il lavoro di Kirmizialtin si è spostato su progetti di crowdsourcing digitale nel settore dei beni culturali, nonché sul riconoscimento dei testi e sull'analisi testuale degli archivi storici. Questo ci porta al progetto odierno dei Corpora digitali ottomaniin cui si parla di conservazione e comprensione della storia ottomana attraverso la tecnologia.

L'accesso alle fonti storiche è fondamentale per una comprensione più approfondita del passato. La questione dell'accessibilità diventa piuttosto complessa con gli archivi in turco ottomano, a causa della sostituzione di questa lingua con una versione latinizzata e turchizzata alla fine degli anni Venti. Oggi il turco ottomano, considerato ormai una scrittura "morta", è accessibile solo agli specialisti, a meno che i documenti non vengano trascritti in "turco moderno". Tenendo conto di ciò, i Digital Ottoman Corpora si sono posti i seguenti obiettivi per il loro progetto:

  1. Migliorare l'accessibilità degli archivi storici della Turchia ottomana ai ricercatori e al pubblico.
  2. Contribuire a creare un'infrastruttura di ricerca digitale per il turco ottomano.
Logo ufficiale di Digital Ottoman Corpora. © Digital Ottoman Corpora

La trasformazione di documenti storici scritti a mano o stampati in formato trascritto e digitale consente ai ricercatori di cercare, analizzare ed estrarre facilmente informazioni preziose da grandi volumi di testi storici. "Nel complesso, posso dire che il progetto Digital Ottoman Corpora fa parte di uno sforzo più ampio volto a utilizzare metodi computazionali per diffondere e analizzare i testi storici. Rendendo queste importanti risorse più ampiamente disponibili, speriamo di contribuire a una più profonda comprensione del passato e della sua rilevanza per la società contemporanea", spiega Suphan Kirmizialtin. Se combinati con l'analisi testuale, i testi trascritti e digitalizzati possono rivelare modelli, tendenze e discussioni che migliorano la nostra comprensione degli eventi storici, delle dinamiche sociali e dei fenomeni culturali.

Le sfide della scrittura turca ottomana

Per i ricercatori e gli studiosi alla ricerca di informazioni preziose all'interno di documenti storici, il turco ottomano, una lingua letteraria scritta in caratteri arabi e profondamente influenzata dall'arabo e dal persiano, è intrigante ma intricato. Nel 1928 è stato sostituito dal "turco moderno", trasformando la scrittura mista, il vocabolario e le strutture grammaticali in una scrittura latina. Questa transizione ha anche sostituito le parole di prestito persiane e arabe con equivalenti turche, modificando la direzionalità del testo e i sistemi di scrittura.

I documenti originali in turco ottomano erano scritti e letti da destra a sinistra, ma le trascrizioni in turco moderno seguono un formato da sinistra a destra. Al di là della direzionalità, il cambio di sistema di scrittura rappresenta una sfida significativa per gli storici che trascrivono il turco ottomano. Rispetto al turco moderno, il sistema di scrittura del turco ottomano è complesso; la pronuncia delle parole non è esplicitamente indicata, ma solo implicita.

Periodici turchi ottomani della fine del XIX e dell'inizio del XX secolo. © Corpora ottomani digitali

Poiché il processo di trascrizione si basa maggiormente su decisioni istruite su come risolvere questo puzzle linguistico, Kirmizialtin descrive la trascrizione del turco ottomano come una forma d'arte più che un esercizio accademico. Di fronte a tutte queste sfide che la lingua e quindi i documenti storici presentano, i Digital Ottoman Corpora si sono proposti di trasformare la ricerca sui testi in turco ottomano e di rendere questo tipo di materiali più accessibili e disponibili a un pubblico più vasto.

Sbloccare gli archivi storici della Turchia ottomana

Senza accesso digitale, senza un catalogo o una struttura dei documenti, la ricerca di informazioni preziose all'interno di archivi e documenti diventa quasi un compito di Sisifo. Avendo trascorso la maggior parte del tempo della ricerca a esaminare manualmente ogni documento per identificare il materiale di ricerca rilevante per la sua tesi di laurea, Suphan Kirmizialtin conosceva bene quanto possa essere dispendioso in termini di tempo e inefficienza l'analisi e la trascrizione dei documenti storici.

Layout riconosciuto dei periodici turchi ottomani. © Corpora ottomani digitali

Curioso di vedere come questo processo possa essere reso più efficiente in termini di tempo, Kirmizialtin ha iniziato a cercare opzioni per migliorare questo aspetto. Scoprendo Transkribus, Kirmizialtin si è reso conto che non solo ha il potenziale di far risparmiare tempo ai singoli ricercatori, ma offre anche la capacità di soddisfare molteplici esigenze, trasformando potenzialmente il modo in cui la ricerca viene condotta negli studi ottomani. "Il turco ottomano non è stato rappresentato in modo significativo nelle scienze umane digitali testuali, soprattutto a causa della mancanza di corpora leggibili dalla macchina in questa lingua. [...] ci proponiamo di produrre raccolte di testi storici in turco ottomano ricercabili e computabili, che possano poi essere studiate con strumenti di analisi testuale e di visualizzazione dei dati".

Preparazione del materiale

Dopo aver considerato le sfide, il team del Digital Ottoman Corpora ha iniziato a preparare il lavoro insieme al software di riconoscimento testuale AI di Transkribus, al fine di creare un testo leggibile dalla macchina e accessibile. Con l'obiettivo di addestrare e pubblicare un modello di riconoscimento del testo con Transkribus, il team spera di "aumentare la consapevolezza dell'HTR nella comunità ottomana e incoraggiare più studiosi a partecipare al progetto di creazione di corpora digitali per il turco ottomano".

Il primo passo è stato quello di selezionare e preparare il materiale testuale per il processo di trascrizione. Il materiale scelto per addestrare il modello di riconoscimento automatico del testo consisteva in sei periodici turchi ottomani della fine del XIX e dell'inizio del XX secolo e in un dizionario turco ottomano. Questi periodici trattavano argomenti che spaziavano dalla politica alla letteratura e alla cultura, fornendo "preziosi spunti di riflessione sulla storia sociale e intellettuale del tardo Impero Ottomano".

Come già accennato, una sfida importante è rappresentata dalla transizione dalla scrittura araba utilizzata nel turco ottomano alla scrittura latina utilizzata nel turco moderno, oltre che dalla differenza di direzionalità (da destra a sinistra e da sinistra a destra). Per superare questo problema, il team ha definito uno schema di trascrizione standardizzato, tenendo conto sia dei requisiti del motore di trascrizione di Transkribus sia della leggibilità umana.

Trascrizione dei documenti

Dopo aver scelto il metodo di trascrizione più adatto al progetto, il passo successivo è stato quello di creare i dati di addestramento. La creazione dei dati di addestramento prevede la fornitura di un gran numero di pagine trascritte correttamente come verità a terrache viene utilizzato per addestrare un modello di riconoscimento automatico del testo in grado di riconoscere la scrittura. In questo caso, la generazione dei dati di addestramento è avvenuta con un approccio misto, che ha incluso la trascrizione manuale e il riutilizzo di testi latinizzati esistenti attraverso la normalizzazione dell'ortografia, la correzione degli errori e la standardizzazione degli schemi di trascrizione.

Trascrizione di periodici turchi ottomani con Transkribus. © Corpora ottomani digitali

 Un ulteriore ostacolo, unico per questo progetto, è stato il contrasto di orientamento del testo tra il turco ottomano e il turco moderno. Per questo progetto di trasformazione di riviste in turco ottomano in testo trascritto e digitale in turco moderno con scrittura latina, il software di trascrizione doveva supportare l'allineamento delle immagini da destra a sinistra con la trascrizione da sinistra a destra. Inizialmente, Transkribus non supportava l'allineamento delle immagini da destra a sinistra con la trascrizione da sinistra a destra. Tuttavia, Suphan Kirmizialtin è riuscito a sviluppare una soluzione per invertire la direzione del testo trascritto in turco moderno. Lavorando a stretto contatto con il team di sviluppo di Transkribus, è stata aggiunta un'altra funzione a Transkribus che ha ridotto drasticamente il tempo e lo sforzo necessari per addestrare un modello di riconoscimento del testo per il turco ottomano.

"Anche se non siamo arrivati alla soluzione definitiva di tutte queste complessità del turco ottomano, credo che l'adozione di uno schema di trascrizione compatibile con l'algoritmo e la sua applicazione coerente nella creazione della verità di base siano la chiave per il successo della formazione HTR in Transkribus". 

L'impegno di Suphan Kirmizialtin e del team dei Digital Ottoman Corpora ha portato al primo modello di riconoscimento testuale per il turco ottomano con un CER sul set di validazione di 7,21%.

Provate il modello qui: Stampa turca ottomana 

Dai periodici turchi ottomani al primo modello pubblico di stampa turca ottomana

Sebbene il progetto Digital Ottoman Corpora abbia dovuto affrontare un certo scetticismo riguardo al lavoro con la trascrizione automatica, nonché sfide dovute alla natura della lingua con cui stava lavorando, il team è riuscito a pubblicare il primo modello di riconoscimento automatico del testo per la stampa turca ottomana. La collaborazione con Transkribus ha inoltre dimostrato il potenziale del software di HTR nel rendere accessibili a un pubblico più vasto i testi in turco ottomano e il patrimonio culturale ottomano. Con il successo di questo progetto, il team dei Digital Ottoman Corpora spera di avviare una conversazione all'interno della comunità su questioni importanti come la creazione di linee guida coerenti per la conversione dei testi turchi ottomani dalla scrittura araba originale a quella latina, compatibili con gli algoritmi e i sistemi automatici. 

Con questo progetto innovativo, Suphan Kirmizialtin e il team dei Digital Ottoman Corpora sono all'avanguardia nell'affascinante campo della trascrizione automatica di testi stampati in turco ottomano. Stanno ridefinendo l'approccio all'accesso, all'analisi e all'interazione con i testi turchi ottomani, aprendo la strada a nuove scoperte e a una più profonda comprensione di questo ricco patrimonio culturale.

Grazie per averci parlato Suphan, seguiremo lo sviluppo del progetto con grande interesse! Per saperne di più sul progetto, visitate il sito ufficiale Sito web dei Corpora ottomani digitali. 

Suggerimenti per il Transkribus di Suphan Kirmizialtin:

"Creare una documentazione dettagliata e metadati per il processo di formazione HTR. Ho letto da qualche parte che 'i metadati sono un biglietto d'amore per il futuro' e sono completamente d'accordo!".

"Avvaletevi dell'esperienza e della saggezza della fantastica comunità di utenti di Transkribus".

Panoramica