3 Modelli AI per la trascrizione di testi tedeschi in Fraktur, Kurrent e Sütterlin

Se lavorate regolarmente con documenti storici tedeschi, probabilmente conoscete bene tre tipi di scrittura tedesca: Fraktur, Kurrent e Sütterlin. Queste scritture sono state utilizzate dal XVI secolo fino alla Seconda guerra mondiale, coprendo diversi secoli di storia della Germania e dell'Europa centrale. Tuttavia, al giorno d'oggi sono quasi impossibili da leggere per un occhio inesperto, rendendo la trascrizione di questo tipo di documenti un processo lungo e dispendioso.

Fortunatamente, la tecnologia può ora accelerare le cose. Piattaforme come Transkribus utilizzano modelli di intelligenza artificiale per riconoscere Fraktur, Kurrent, Sütterlin e altre scritture e creare automaticamente una versione digitale del testo. Queste versioni digitali possono essere facilmente ricercate alla ricerca di determinate parole o frasi e condivise con i colleghi e il pubblico in generale.

Se siete nuovi nell'uso di Transkribus per leggere documenti storici in tedesco, questo post vi introdurrà a queste tre scritture chiave e vi mostrerà tre modelli di IA ideali per trascriverle.

Che cos'è la Fraktur?

Il carattere Fraktur è stato ampiamente utilizzato nella stampa tedesca dall'inizio del XVI secolo fino alla sua messa fuori legge da parte del partito nazista nel 1941. Una forma di carattere a lettere nere, le lettere del Fraktur sono angolari, piuttosto che curve, e per questo motivo è spesso conosciuto in tedesco come "Schrift gebrochene", o "scrittura spezzata". I caratteri Fraktur contengono spesso anche legature, la maggior parte delle quali affonda le proprie radici nella scrittura corsiva tedesca.

In cosa si differenzia da Kurrent?

In contrasto con la Fraktur, la "Kurrentschrift", come è noto in tedesco, è un tipo di scrittura manuale. Anch'essa è stata sviluppata all'inizio del XVI secolo ed è stata utilizzata fino all'inizio del XX secolo, quando è stata sostituita dalla nuova scrittura Sütterlin (vedi sotto). Fino ad allora, era la scrittura standard insegnata nelle scuole di tutta la Germania.

E cos'è Sütterlin?

Come già accennato, la scrittura Sütterlin era un altro tipo di scrittura tedesca e fu il successore della scrittura Kurrent. All'inizio del XX secolo, il Ministero prussiano della Scienza, dell'Arte e della Cultura decise che era giunto il momento di aggiornare la Kurrent con una scrittura più facile da leggere. Nel 1911 incaricarono il disegnatore Ludwig Sütterlin di creare una scrittura di questo tipo, cosa che egli fece volentieri. La scrittura Sütterlin fu introdotta per la prima volta nelle scuole di Berlino nel 1914 e si diffuse presto fino a diventare la scrittura a mano dominante in tutta la Germania. Per ulteriori informazioni, consultare il sito Pagina Wikipedia di Ludwig Sütterlin.

3 modelli AI per la lettura di Fraktur, Kurrent e Sütterlin

Transkribus Grafia tedesca M1

Se c'è un modello utile per i documenti scritti in Kurrent e/o Sütterlin, è questo. Addestrato con ben 3.610.922 parole provenienti da una gamma molto varia di manoscritti, Transkribus German Handwriting M1 è in grado di trascrivere quasi tutti i documenti scritti a mano con relativa precisione e senza bisogno di ulteriore addestramento. Oltre ai documenti di Kurrent e Sütterlin, i dati di addestramento comprendevano anche alcuni documenti in lingua tedesca scritti in caratteri latini, il che lo rende ideale per i manoscritti contenenti più tipi di scrittura. Per un modello così diversificato, ha un basso CER di soli 4,7%.

Vai al modello

Fraktur tedesca dei secoli XIX-XX

Questo modello di intelligenza artificiale si concentra su un particolare tipo di testo Fraktur: i documenti scritti nel XIX e XX secolo. Sviluppato dal Biblioteca nazionale austriaca e l' 1TP16Occhio progetto, il modello si basa su 442.121 parole provenienti da un'ampia varietà di giornali e pubblicazioni storiche. Ha anche un CER di appena 1%, superando la maggior parte dei motori OCR standard con questo tipo di documenti. Si noti tuttavia che il modello è stato addestrato esclusivamente su documenti in lingua tedesca, il che lo rende meno adatto, ad esempio, alla Fraktur svedese o finlandese.

Vai al modello

Corrente tedesca dei secoli XVII-XVIII

Questo modello di Transkribus Kurrent è quello che a volte chiamiamo "supermodello": si basa su 1.840.000 parole provenienti da un insieme eterogeneo di documenti, tra cui i verbali del consiglio del governo della Pomerania di Stralsund, i voti del perito dell'Alta Corte di Wismar e varie raccolte di lettere private. È stato sviluppato dal Università di Greifswald, ha un CER di 5,5% ed è adatto alla trascrizione di tutti i tipi di documenti correnti del XVII e XVIII secolo.

Vai al modello

Come si usa un modello pubblico di AI con Transkribus?

Le trascrizioni di Transkribus si basano su modelli AI. Ogni modello è stato addestrato a leggere un tipo specifico di testo scritto a mano o stampato in una certa lingua, e spesso anche un certo periodo o genere.

Se si desidera trascrivere un documento con Transkribus, è necessario prima caricare una scansione del documento e poi scegliere un modello. Attualmente sono disponibili 94 modelli pubblici, tutti completamente gratuiti. Transkribus prenderà le informazioni contenute nel modello e le applicherà al documento, creando una trascrizione istantanea.

Ma se non esiste un modello adatto al testo dei vostri documenti? Allora avete anche la possibilità di addestrare il vostro. Per farlo, è necessario disporre di una serie di documenti pre-trascritti, noti collettivamente come "Ground Truth". Più dati di verità di base si utilizzano per addestrare il modello, più informazioni conterrà e più sarà accurato nella trascrizione di nuovi documenti. Per risparmiare tempo, molte persone utilizzano un modello pubblico come base per il loro modello personalizzato e poi lo perfezionano con ulteriore Ground Truth.

Per maggiori informazioni sui modelli e su come addestrarli, consultate il nostro sito Guide pratiche.

Caricate un documento e provate Transkribus:

CONDIVIDI QUESTO ARTICOLO

Post recenti

3 luglio 2024
News, Transkribus
Alcuni progetti Transkribus terminano con una collezione completa digitalizzata in Transkribus. Alcuni prendono la fonte digitalizzata e la usano per ...
12 giugno 2024
News, Transkribus
Quando si pensa alla minuscola carolingia (o carolina), probabilmente vengono in mente Carlo Magno e il suo vasto impero carolingio. Mentre il ...
14 maggio 2024
Uncategorized
La comprensione dei documenti storici è fondamentale per capire la storia. Ma capire i documenti storici in polacco può essere una sfida. Non solo ...