La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo la lingua è spesso difficile da capire, ma anche la calligrafia può, a volte, essere quasi impossibile da leggere. Il fatto che l'alfabeto polacco è cambiato molto negli ultimi secoli rende la questione particolarmente complicata.
Tuttavia, oggi l'intelligenza artificiale può aiutare. L'utilizzo di piattaforme di riconoscimento del testo scritto a mano (HTR) potenziate dall'intelligenza artificiale come TranskribusTranskribus consente di trascrivere automaticamente documenti scritti a mano e stampati in una frazione del tempo necessario per trascriverli manualmente. In questo post, daremo un'occhiata più da vicino a come trascrivere documenti storici con l'intelligenza artificiale e ai modelli che Transkribus offre per i documenti in polacco.
I vantaggi della digitalizzazione dei documenti
C'è qualcosa di speciale nel leggere documenti storici nella loro forma originale. L'odore della pergamena, l'attenzione nel girare le pagine e la sensazione che si prova leggendo parole scritte centinaia di anni prima sono semplicemente magici.
Anche se una versione digitale non potrà mai competere in questi termini, la creazione di versioni digitali di documenti storici presenta molti vantaggi:
- In questo modo è possibile per tutti leggerli. Non tutti hanno la capacità di leggere la calligrafia polacca del XVI secolo, né il tempo per impararla. Una versione digitale permette a tutti di comprendere il contenuto del documento senza dover ricorrere all'aiuto della calligrafia polacca.
- Le versioni digitali possono essere facilmente condivise online. Invece di recarsi di persona all'archivio o al museo per visionare i documenti, le persone interessate possono semplicemente consultarli online, comodamente dal proprio ufficio o dal salotto. Questo rende le risorse in lingua polacca più accessibili a un maggior numero di persone, favorendo la collaborazione e incoraggiando nuove prospettive sugli eventi storici.
- Ma soprattutto, la digitalizzazione dei documenti facilita l'estrazione delle informazioni. Supponiamo di avere una raccolta di documenti di nascita e di voler trovare tutti i documenti di un determinato anno. Con i documenti cartacei, dovreste cercare manualmente tra tutte le pagine, scansionandole per quell'anno. Con i documenti digitali, è sufficiente digitare l'anno nella barra di ricerca per trovare rapidamente tutti i documenti pertinenti. Si tratta di un modo di lavorare più intelligente ed efficiente, che consente di risparmiare tempo, fatica e denaro.
Come trascrivere automaticamente i documenti con l'intelligenza artificiale
Prima dell'IA, la trascrizione dei documenti storici era un processo che richiedeva molto tempo. Occorreva una persona che conoscesse la lingua e la scrittura corsiva e che fosse disposta a trascorrere mesi o anni a trascrivere manualmente i documenti.
Piattaforme di intelligenza artificiale come Transkribus hanno rivoluzionato questo processo. Ora basta caricare un'immagine del documento, selezionare un modello (vedi sotto) e la piattaforma vi fornirà una versione digitale del testo del documento. È quindi possibile modificare questa trascrizione, se necessario, scaricarla, condividerla o addirittura pubblicarla online con il proprio sito web. Sito Transkribus.
Sebbene Transkribus sia stato sviluppato per i documenti in grafia corsiva storica, può essere utilizzato anche con testi stampati e offre diversi vantaggi rispetto all'OCR convenzionale sistemi.
Modelli di intelligenza artificiale per la trascrizione di documenti polacchi
Come già detto, quando si trascrive con Transkribus, è necessario selezionare un "modello". Questo è un po' come un manuale, che indica alla piattaforma come trascrivere un certo tipo di documento.
Ogni modello è addestrato a leggere documenti scritti a mano o stampati in una determinata lingua e in un determinato periodo storico. Possono essere finemente sintonizzati sulla calligrafia di una singola persona o coprire un'ampia gamma di stili di calligrafia di tutta la storia.
Transkribus consente di addestrare i propri modelli di intelligenza artificiale, su misura per i vostri documenti specifici. Tuttavia, se siete alle prime armi con la piattaforma, vi consigliamo di utilizzare un modello pubblico addestrato dalla comunità di Transkribus. In questo modo si dovrebbe ottenere una trascrizione abbastanza accurata, senza dover preparare dati di addestramento o testare un modello.
Esistono due modelli pubblici per i documenti in lingua polacca:
Modello generale polacco
Questo modello universale è stato addestrato su un'ampia varietà di documenti polacchi scritti a mano, sia storici che moderni, il che lo rende un buon modello di riferimento per documenti polacchi scritti a mano di diverso tipo.
Per saperne di più qui.
Testo Titan I
Il Text Titan I è uno dei nostri nuovi "Super Modelli" con trasformatore. Questi modelli avanzati sono maestri del multitasking e sono in grado di trascrivere documenti scritti a mano e stampati in molte lingue e scritture diverse, tutti allo stesso tempo. È quindi ideale per collezioni diversificate, magari con documenti in polacco e in altre lingue, e di epoche diverse.
Il Text Titan I è disponibile solo per gli utenti che hanno un Piano per studiosi, squadre o organizzazioni. Per saperne di più sul modello qui.
Prova subito Transkribus
Volete provare Transkribus in prima persona? Basta caricare un documento polacco nella nostra versione demo qui sotto e lasciare che la piattaforma crei una trascrizione automatica per voi.
La miniatura comprende: Grafia di Daukantas, 1857-1859. © Simonas Daukantas via Wikimedia Commons