Modelli di intelligenza artificiale per la lettura di testi polacchi corsivi e stampati

La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo la lingua è spesso difficile da capire, ma anche la calligrafia può, a volte, essere quasi impossibile da leggere. Il fatto che l'alfabeto polacco è cambiato molto negli ultimi secoli rende la questione particolarmente complicata.

Tuttavia, oggi l'intelligenza artificiale può aiutare. L'utilizzo di piattaforme di riconoscimento del testo scritto a mano (HTR) potenziate dall'intelligenza artificiale come TranskribusTranskribus consente di trascrivere automaticamente documenti scritti a mano e stampati in una frazione del tempo necessario per trascriverli manualmente. In questo post, daremo un'occhiata più da vicino a come trascrivere documenti storici con l'intelligenza artificiale e ai modelli che Transkribus offre per i documenti in polacco.

Le lettere sono una delle tante fonti preziose che possono essere trascritte con l'IA. © Jerzy Krzewicki via Wikimedia Commons

I vantaggi della digitalizzazione dei documenti

C'è qualcosa di speciale nel leggere documenti storici nella loro forma originale. L'odore della pergamena, l'attenzione nel girare le pagine e la sensazione che si prova leggendo parole scritte centinaia di anni prima sono semplicemente magici.

Anche se una versione digitale non potrà mai competere in questi termini, la creazione di versioni digitali di documenti storici presenta molti vantaggi:

  • In questo modo è possibile per tutti leggerli. Non tutti hanno la capacità di leggere la calligrafia polacca del XVI secolo, né il tempo per impararla. Una versione digitale permette a tutti di comprendere il contenuto del documento senza dover ricorrere all'aiuto della calligrafia polacca.
  • Le versioni digitali possono essere facilmente condivise online. Invece di recarsi di persona all'archivio o al museo per visionare i documenti, le persone interessate possono semplicemente consultarli online, comodamente dal proprio ufficio o dal salotto. Questo rende le risorse in lingua polacca più accessibili a un maggior numero di persone, favorendo la collaborazione e incoraggiando nuove prospettive sugli eventi storici.
  • Ma soprattutto, la digitalizzazione dei documenti facilita l'estrazione delle informazioni. Supponiamo di avere una raccolta di documenti di nascita e di voler trovare tutti i documenti di un determinato anno. Con i documenti cartacei, dovreste cercare manualmente tra tutte le pagine, scansionandole per quell'anno. Con i documenti digitali, è sufficiente digitare l'anno nella barra di ricerca per trovare rapidamente tutti i documenti pertinenti. Si tratta di un modo di lavorare più intelligente ed efficiente, che consente di risparmiare tempo, fatica e denaro.

La digitalizzazione di documenti come questo diario li rende accessibili a tutti. © Diario di Janina Turek via Transkribus

Come trascrivere automaticamente i documenti con l'intelligenza artificiale

Prima dell'IA, la trascrizione dei documenti storici era un processo che richiedeva molto tempo. Occorreva una persona che conoscesse la lingua e la scrittura corsiva e che fosse disposta a trascorrere mesi o anni a trascrivere manualmente i documenti.

Piattaforme di intelligenza artificiale come Transkribus hanno rivoluzionato questo processo. Ora basta caricare un'immagine del documento, selezionare un modello (vedi sotto) e la piattaforma vi fornirà una versione digitale del testo del documento. È quindi possibile modificare questa trascrizione, se necessario, scaricarla, condividerla o addirittura pubblicarla online con il proprio sito web. Sito Transkribus.

Sebbene Transkribus sia stato sviluppato per i documenti in grafia corsiva storica, può essere utilizzato anche con testi stampati e offre diversi vantaggi rispetto all'OCR convenzionale sistemi.

Transkribus è un'alternativa efficace ai sistemi OCR tradizionali. © ZG ZPwN via Wikimedia Commons

Modelli di intelligenza artificiale per la trascrizione di documenti polacchi

Come già detto, quando si trascrive con Transkribus, è necessario selezionare un "modello". Questo è un po' come un manuale, che indica alla piattaforma come trascrivere un certo tipo di documento.

Ogni modello è addestrato a leggere documenti scritti a mano o stampati in una determinata lingua e in un determinato periodo storico. Possono essere finemente sintonizzati sulla calligrafia di una singola persona o coprire un'ampia gamma di stili di calligrafia di tutta la storia.

Transkribus consente di addestrare i propri modelli di intelligenza artificiale, su misura per i vostri documenti specifici. Tuttavia, se siete alle prime armi con la piattaforma, vi consigliamo di utilizzare un modello pubblico addestrato dalla comunità di Transkribus. In questo modo si dovrebbe ottenere una trascrizione abbastanza accurata, senza dover preparare dati di addestramento o testare un modello.

Il modello Text Titan I è in grado di leggere documenti che contengono sia testi scritti a mano che stampati. © Governo della Polonia via Wikimedia Commons

Esistono due modelli pubblici per i documenti in lingua polacca:

Modello generale polacco

Questo modello universale è stato addestrato su un'ampia varietà di documenti polacchi scritti a mano, sia storici che moderni, il che lo rende un buon modello di riferimento per documenti polacchi scritti a mano di diverso tipo.

Per saperne di più qui.

Testo Titan I

Il Text Titan I è uno dei nostri nuovi "Super Modelli" con trasformatore. Questi modelli avanzati sono maestri del multitasking e sono in grado di trascrivere documenti scritti a mano e stampati in molte lingue e scritture diverse, tutti allo stesso tempo. È quindi ideale per collezioni diversificate, magari con documenti in polacco e in altre lingue, e di epoche diverse.

Il Text Titan I è disponibile solo per gli utenti che hanno un Piano per studiosi, squadre o organizzazioni. Per saperne di più sul modello qui.

Prova subito Transkribus

Volete provare Transkribus in prima persona? Basta caricare un documento polacco nella nostra versione demo qui sotto e lasciare che la piattaforma crei una trascrizione automatica per voi.

La miniatura comprende: Grafia di Daukantas, 1857-1859. © Simonas Daukantas via Wikimedia Commons

CONDIVIDI QUESTO ARTICOLO

Post recenti

3 luglio 2024
News, Transkribus
Alcuni progetti Transkribus terminano con una collezione completa digitalizzata in Transkribus. Alcuni prendono la fonte digitalizzata e la usano per ...
12 giugno 2024
News, Transkribus
Quando si pensa alla minuscola carolingia (o carolina), probabilmente vengono in mente Carlo Magno e il suo vasto impero carolingio. Mentre il ...
14 maggio 2024
Uncategorized
La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo ...