A partire da luglio 2023, Transkribus è orgoglioso di essere un motore di riconoscimento del testo su Wikisource, che è una biblioteca digitale online di testi e documenti storici di pubblico dominio e con licenza libera, e una progetto gemello di Wikipedia.
Preservare e condividere la conoscenza storica è più importante che mai, ma il compito di trascrivere e rendere accessibili i manoscritti storici non è privo di sfide, ed è per questo che organizzazioni innovative uniscono le forze per raggiungere un obiettivo comune.
La Fondazione Wikimedia - l'organizzazione no-profit che gestisce Wikipedia, Wikisource e altri progetti Wikimedia di conoscenza libera - e Transkribus hanno recentemente avviato un'entusiasmante collaborazione che è iniziata con il Wikisources ama i manoscritti che si ispira alla digitalizzazione e alla trascrizione di manoscritti storici balinesi. In questo articolo spiegheremo come è nata questa partnership e vedremo come Transkribus può essere utile alla comunità Wikisource. Inoltre, vi mostreremo come utilizzare Transkribus all'interno della piattaforma Wikisource per un processo di trascrizione senza soluzione di continuità.
Wikisource ama i manoscritti" e Transkribus
La piattaforma Wikisource dispone di una vasta collezione di documenti storici, comprese fonti stampate e manoscritte. Il modo in cui le persone possono contribuire a rendere accessibili tutte queste fonti è quello di trascriverle manualmente o di utilizzare l'applicazione Riconoscimento ottico dei caratteri (OCR) Wikimedia per trascrivere le pagine.
Il progetto "Wikisource Loves Manuscripts" è stato lanciato in occasione della 24a Giornata internazionale della lingua madre con l'obiettivo iniziale di digitalizzare e trascrivere 20.000 pagine di manoscritti indonesiani e renderli disponibili sui progetti Wikimedia. Tuttavia, quando si è trattato di trascrivere i manoscritti balinesi, le integrazioni OCR di Wikisource non supportavano specificamente i testi scritti a mano. Transkribus si è rivelato un'ottima soluzione, soprattutto grazie alle sue funzionalità di riconoscimento del testo scritto a mano (HTR), che ora consentono alla comunità globale di volontari di Wikimedia di creare e migliorare i modelli di riconoscimento del testo sulla base dei testi scritti a mano di loro scelta.
La Wikimedia Foundation ha contattato Transkribus in merito alla possibilità di lavorare insieme. Poiché sia la Wikimedia Foundation che Transkribus condividono la missione di preservare e rendere accessibile il patrimonio culturale alle generazioni future, noi di Transkribus siamo stati felici di collaborare e sostenere pienamente il progetto "Wikisource Loves Manuscripts".
Trascrizione di manoscritti in foglie di palma balinesi
Sistema di scrittura tradizionale di Bali, in Indonesia, la scrittura balinese è composta da 47 lettere ed è stata utilizzata per testi balinesi, giavanesi e sanscriti. Sebbene oggi il balinese sia per lo più scritto in latino e meno persone abbiano familiarità con la scrittura balinese, essa rimane culturalmente significativa in quanto utilizzata in tradizioni come la creazione di manoscritti in foglie di palma noti come lontar, che conservano testi religiosi e letterari per secoli.
Transkribus si differenzia dall'OCR standard perché utilizza la tecnologia HTR per scansionare intere righe di testo in una sola volta, il che lo rende particolarmente adatto a decifrare i complessi manoscritti balinesi. Mentre l'OCR standard funziona bene con i materiali stampati e le lingue più diffuse, ha difficoltà con le lingue più piccole e le grafie uniche. Il vantaggio principale di Transkribus è invece la capacità di addestrare modelli per qualsiasi scrittura e lingua, anche quelle meno comuni. Ciò rende Transkribus una soluzione ideale per la conservazione e la trascrizione di documenti storici provenienti da contesti linguistici diversi. L'integrazione dell'avanzata tecnologia AI di Transkribus in Wikisource la mette a disposizione dei volontari che lavorano per garantire una trascrizione efficiente e accurata dei manoscritti storici, supportando più lingue e scritture. Grazie a questo approccio specializzato, Transkribus ha potuto supportare con successo la trascrizione di manoscritti in foglie di palma balinesi.
Formazione di un modello Transkribus insieme all'IIIT di Hyderabad
Il viaggio per rendere accessibili i manoscritti balinesi è iniziato con un progetto di crowdsourcing "Wikisource Loves Manuscripts" per la loro trascrizione. Transkribus si è quindi offerto di addestrare un modello di riconoscimento del testo personalizzato specifico per i manoscritti balinesi e ha fornito oltre 60.000 crediti Transkribus gratuiti per sostenere il progetto. In seguito, la comunità di Wikisource ha migliorato ulteriormente il modello e lo ha reso pubblico. Con un modello di riconoscimento del testo Transkribus addestrato a riconoscere gli stili di scrittura e le scritture linguistiche, il risultato sarebbe un motore Transkribus integrato in grado di trasformare automaticamente le pagine manoscritte scansionate in testo digitale, che i volontari di Wikimedia rivedono e migliorano.
Per avviare il processo di formazione un P2PaLA (Page to Page Layout Analysis) è servito come punto di partenza per rilevare le regioni di testo dei manoscritti palmari. Da qui, è stato addestrato un modello di base con 50 pagine di Ground Truth, ovvero 50 pagine di testo trascritto in modo accurato e verificato. Su questa base, è stato sviluppato un modello di riconoscimento del testo che si è rivelato sufficientemente efficace per trascrivere i manoscritti balinesi. Insieme, la comunità Wikimedia balinese, il team di Wikisource, il team dell'associazione Istituto internazionale di tecnologia dell'informazione Hyderabad guidati dal dottor Ravi Kiran e da Transkribus hanno apportato miglioramenti alla Modello balinese. Poiché c'è sempre spazio per i miglioramenti, il lavoro su questo modello è ancora in corso. Inoltre, è in fase di sviluppo anche un nuovo modello giavanese.
Come ultimo passo, Transkribus ha fornito istruzioni all'équipe della Wikimedia Foundation Culture & Heritage e all'équipe dell'IIIT di Hyderabad che lavora al progetto su come addestrare i propri modelli, consentendo loro di gestire autonomamente le trascrizioni future.
Come usare Transkribus in Wikisource
La Fondazione Wikimedia è riuscita a ha integrato la tecnologia di riconoscimento del testo di Transkribus nella Wikisource piattaforma. Ora gli utenti hanno la possibilità di selezionare il sistema HTR/OCR che desiderano utilizzare per la trascrizione dei documenti storici. Questa integrazione consente la trasmissione diretta delle immagini ai server Transkribus, restituendo una trascrizione accurata e semplificando ulteriormente il processo.
Transkribus è attualmente disponibile su 27 versioni linguistiche diverse di Wikisource e prima della trascrizione è necessario caricare i documenti scansionati su WIkimedia Commons. Quindi è possibile iniziare a trascrivere i documenti utilizzando Transkribus come motore di riconoscimento del testo facendo clic sul menu a discesa "Trascrivi testo" in alto a sinistra dell'editor di testo. Per ulteriori chiarimenti, date un'occhiata a questo documento Pagina informativa di Wikisource.
Uno sforzo di collaborazione
In prospettiva, la collaborazione tra la Wikimedia Foundation e Transkribus apre nuove possibilità, poiché questa integrazione aiuta a ottimizzare il processo di digitalizzazione, rendendo i contenuti storici più accessibili alla comunità globale dei volontari Wikimedia. Con la trascrizione dei manoscritti balinesi, questa collaborazione può essere vista come un esempio di successo di conservazione e condivisione del patrimonio culturale nell'era digitale.
Il successo di questi manoscritti ha fatto nascere l'idea di espandere l'iniziativa ad altri manoscritti all'interno e all'esterno del Sud-est asiatico, preservando il ricco patrimonio culturale della regione e rendendolo disponibile a un pubblico globale.
Immagine in miniatura: Wikisource ama i manoscritti logo verticale. Via Wikimedia Commons / CC BY-SA 4.0