Come leggere la scrittura francese con l'intelligenza artificiale

Si può imparare molto sulla storia francese leggendo libri e guardando documentari. Questo tipo di fonti è ottimo per avere una visione d'insieme di un argomento. Ma sono le fonti primarie, come i registri di nascita, i manoscritti medievali o le lettere personali, ad andare veramente al cuore di un argomento, fornendoci una prospettiva non filtrata della storia e permettendoci di trarre le nostre conclusioni sugli eventi che hanno avuto luogo.

Tuttavia, documenti scritti a mano come questi non sono sempre facili da leggere. La scrittura antica può essere notoriamente difficile da decifrare in qualsiasi lingua, e il francese non fa eccezione. Inoltre, nel corso della storia sono stati utilizzati diversi tipi di scrittura e stili di scrittura per la lingua francese, dalla scrittura carolingia medievale alla scrittura corsiva dei giorni nostri. Questo significa che non dovete solo capire la lingua, ma anche la scrittura.

Le fonti primarie, come le lettere, sono fondamentali per svelare il passato. Immagine generata da AI

In passato, per leggere tali documenti erano necessarie competenze e conoscenze approfondite. Oggi, fortunatamente, la tecnologia di riconoscimento del testo scritto a mano basata sull'intelligenza artificiale consente di leggere e trascrivere documenti scritti a mano in francese e in molte altre lingue, senza essere esperti di calligrafia storica francese. In questo post analizzeremo cosa rende la scrittura corsiva francese così difficile da leggere e mostreremo come piattaforme di intelligenza artificiale quali Transkribus possono essere utilizzati per superare queste sfide.

Breve storia della scrittura francese

Uno dei principali ostacoli alla comprensione della calligrafia francese antica è il numero di scritture utilizzate dagli scribi francesi nel corso della storia. La scrittura francese del XV secolo è molto diversa da quella odierna. I vostri documenti potrebbero essere scritti in diverse grafie, ad esempio:

Scrittura carolingia

Durante il periodo medievale, la scrittura in Francia è stata fortemente influenzata dalla scrittura carolingia, sviluppata sotto il dominio di Carlo Magno. Questa scrittura era caratterizzata da lettere chiare e leggibili con qualche ornamento.

Scrittura italica

Durante il Rinascimento, la scrittura francese subì cambiamenti influenzati dal movimento umanista. Gli studiosi umanisti sostenevano un ritorno alle forme classiche, che portò allo sviluppo di nuovi stili come la scrittura italica, con i suoi tratti inclinati e fluenti.

Un tipico esempio di calligrafia francese del XIX secolo. Immagine tratta da "Bulliot, Bibracte et moi", via Transkribus

Mano del segretario

Nel XVII secolo si diffuse la mano del segretario francese, uno stile di scrittura utilizzato per i documenti ufficiali e la corrispondenza. Questa scrittura era caratterizzata da leggibilità e formalità e si è evoluta in varie forme nel corso dei secoli con lo sviluppo di nuovi strumenti di scrittura.

Scrittura corsiva / "Écriture cursive"

Nel XIX secolo e all'inizio del XX secolo, i francesi svilupparono un tipo di scrittura corsiva specificamente per scopi educativi. Questa scrittura, nota come "écriture cursive", enfatizzava la fluidità e la connessione tra le lettere. Divenne la scrittura standard insegnata nelle scuole francesi e oggi è il tipo di scrittura francese più comune.

Leggere documenti scritti a mano in francese senza tecnologia

Prima dello sviluppo di tecnologie assistive come il riconoscimento del testo scritto a mano, leggere documenti scritti a mano in qualsiasi lingua era una sfida. Come spiegato nell'introduzione, non solo bisognava conoscere la lingua, ma anche la scrittura del documento.

Naturalmente, è possibile imparare a leggere diverse scritture. Si dovrebbe iniziare con poco, imparando l'aspetto di alcune lettere nella scrittura. Da lì si può iniziare a decifrare intere parole, in particolare parole comuni o attese, come "Cordialement" in una lettera o "Date de naissance" in un registro di nascita.

I registri pubblici sono una miniera di informazioni storiche. Immagine tratta da Batz-sur-Mer Registre d'état civil, via Wikimedia Commons

Il passo finale consisteva nel decifrare intere frasi e, successivamente, l'intero contenuto del documento. Per questo era importante avere una buona conoscenza del francese: se si capiscono 90% delle parole di una frase, le altre 10% possono spesso essere indovinate in base al contesto.

Come il riconoscimento del testo scritto a mano facilita la lettura dei documenti

Da qualche decennio le macchine sono in grado di leggere il testo stampato, grazie alla tecnologia di riconoscimento ottico dei caratteri (OCR). Tuttavia, a causa degli infiniti tipi di grafia possibiliQuesti sistemi OCR erano poco utili con il testo scritto a mano.

Circa 10 anni fa, un gruppo di ricercatori, archivisti e storici si è riunito per sviluppare una nuova tecnologia di riconoscimento della scrittura, che potesse essere utilizzata per la digitalizzazione e la trascrizione di documenti scritti a mano. La possibilità di trascrivere automaticamente grandi quantità di testo consente ai ricercatori di estrarre i dati dalle fonti molto più rapidamente rispetto alla trascrizione manuale, rendendo la ricerca più efficiente.

Il risultato di questo progetto è stata una tecnologia chiamata riconoscimento del testo scritto a mano, o HTR. Le piattaforme HTR, come Transkribus, utilizzano l'intelligenza artificiale, l'apprendimento automatico e l'apprendimento di testi. reti neurali per imparare letteralmente a leggere testi scritti a mano, proprio come farebbe un essere umano.

Come addestrare un modello di intelligenza artificiale in Transkribus

La piattaforma lo fa utilizzando modelli di intelligenza artificiale. Ogni modello è un po' come un manuale, che indica a Transkribus come leggere un certo tipo di scrittura. Ad esempio, se si volesse trascrivere una raccolta di testi scritti a mano in francese del XIX secolo, si dovrebbero caricare le immagini di tutte le pagine e poi dire alla piattaforma di trascriverle utilizzando il modello di scrittura artificiale. Modello di calligrafia francese del XIX secolo. Transkribus utilizzerebbe le conoscenze contenute in quel modello per leggere il testo nelle immagini e creare una trascrizione digitale.

Transkribus utilizza l'intelligenza artificiale per trascrivere automaticamente il testo scritto a mano. Immagine da "Bulliot, Bibracte et moi", via Transkribus

Ma la vera particolarità di Transkribus è che consente di creare il proprio modello di riconoscimento della scrittura e di addestrare la piattaforma a leggere la scrittura specifica dei documenti. Per fare ciò, è necessario caricare una certa quantità di "Verità del suolo" dati di formazione - documenti che sono stati pre-trascritti con una precisione del 100%. La piattaforma utilizza le informazioni contenute in questi dati per creare un nuovo "manuale", o modello, che può essere utilizzato per trascrivere il resto dei documenti. Anche se la creazione di un modello personalizzato da zero può richiedere un po' di tempo, a lungo termine è quasi sempre più veloce della trascrizione manuale di tutti i documenti.

Per saperne di più sull'addestramento dei modelli di intelligenza artificiale, consultate il nostro sito Centro assistenza.

Quanto è preciso il riconoscimento della scrittura?

La precisione è ancora una delle sfide del riconoscimento della scrittura. La scrittura umana è estremamente complessa da comprendere per le macchine e non esiste ancora un sistema in grado di trascrivere i documenti senza commettere errori.

Ma alcuni modelli ci si avvicinano. A ogni modello viene assegnato un "tasso di errore dei caratteri" o CER. Questo indica la percentuale di caratteri di un testo che probabilmente verrà trascritta in modo errato. Se il modello ha un CER di 100%, trascriverà tutti i caratteri in modo errato. Se invece ha un CER di 0%, produrrà una trascrizione perfetta e priva di errori.

Come regola generale, i modelli con un CER di 10% o inferiore produrranno normalmente una trascrizione di qualità sufficiente per l'analisi o per ulteriori ricerche, con una minima necessità di post-editing.

I CER degli ultimi modelli Transkribus sono riportati nella colonna finale. Immagine via Transkribus

Quali modelli di intelligenza artificiale sono disponibili per la scrittura francese?

Su Transkribus sono presenti diversi modelli AI "pubblici" per la scrittura francese, disponibili per tutti gli utenti.

Modello generale francese

Adatto a un'ampia gamma di documenti, questo modello universale è stato addestrato su diverse mani di varie epoche ed è in grado di leggere sia la scrittura storica che quella moderna. Ha un CER di 7,8%.

È possibile provare il modello in questa pagina.

Scrittura francese del 19° secolo

Conosciuto ufficialmente come "BBM Bulliot French C19th handwritten 2021", questo modello è stato addestrato nell'ambito del progetto di citizen science "Bulliot, Bibracte et moi". Il suo dataset è composto da circa 147 000 parole e ha un CER di 8,2%. Questo modello è utile per altri documenti scritti a mano in francese dello stesso periodo.

È possibile provare il modello in questa pagina.

Il testo Titan I

Questo modello AI con trasformatore è il nostro modello di riferimento per il materiale scritto a mano e stampato in diverse lingue, compreso il francese. È quindi ideale per collezioni con molti tipi di materiale e scritture diverse.

È possibile provare il modello accedendo al proprio account su app.transkribus.org.

Scritture medievali M2.4

Questo modello di grandi dimensioni è stato addestrato su un'ampia varietà di dati del periodo medievale e può essere utilizzato non solo per i testi francesi, ma anche per quelli olandesi, tedeschi, latini e fiamminghi. Ha un CER di 7,1%.

È possibile provare il modello in questa pagina.

La calligrafia francese è trascritta secondo il modello "French Handwriting 19th century". Immagine da "Bulliot, Bibracte et moi", via Transkribus

Come posso provare Transkribus?

Volete scoprire se Transkribus può funzionare con i vostri documenti?

  • Vai a app.transkribus.org e creare un account.
  • Caricate le immagini dei vostri documenti.
  • Selezionare un modello pubblico, come quelli descritti sopra.
  • Lasciate che Transkribus crei una trascrizione automatica.

In alternativa, è possibile provare Transkribus in questo momento utilizzando Transkribus AI.

Miniatura creata con AI

CONDIVIDI QUESTO ARTICOLO

Post recenti

3 luglio 2024
News, Transkribus
Alcuni progetti Transkribus terminano con una collezione completa digitalizzata in Transkribus. Alcuni prendono la fonte digitalizzata e la usano per ...
12 giugno 2024
News, Transkribus
Quando si pensa alla minuscola carolingia (o carolina), probabilmente vengono in mente Carlo Magno e il suo vasto impero carolingio. Mentre il ...
14 maggio 2024
Uncategorized
La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo ...