Storia di successo
Pubblicato: 4 mesi fa

Come navigare nella trascrizione dei documenti dei premi olandesi

Avete mai spedito una lettera che non è mai arrivata? Dal 1652 al 1815 la marina britannica e i corsari sequestrarono ogni tipo di documento dalle navi nemiche, registri di bordo, liste di carico e persino lettere private. Centinaia di anni dopo, la Istituto Huygens nei Paesi Bassi ha dato il via al Documenti del premio olandese progetto di digitalizzazione e analisi di questi documenti storici e di trascrizione degli stessi con l'aiuto di Transkribus

Marijcke Schillings, storico, ricercatore e coordinatore del Dutch Prize Papers ci ha raccontato di più sul progetto, dal suo inizio nel 2016, sui suoi documenti e su come il software Transkribus è stato coinvolto per creare un modello di riconoscimento testuale AI. 

Il progetto olandese Prize Papers

Che cosa sono i documenti del premio?

Dai diari di bordo, alle liste di carico, ai registri delle piantagioni, agli interrogatori dell'equipaggio e alle lettere, i documenti che compongono la Documenti del premio olandese sono tutt'altro che banali. Questi documenti sono conservati presso L'Archivio Nazionale a Kew (Londra).

Marijcke Schillings spiega che "i Prize Papers sono documenti sequestrati dalla marina britannica e dai corsari alle navi nemiche nel periodo 1652-1815". In qualità di potente attore sui mari, la Marina britannica, insieme alle navi di proprietà e gestione privata, si impegnava nella guerra navale per interrompere il commercio nemico.

"Questa collezione contiene anche circa 38.000 lettere commerciali e private olandesi", spiega Schillings.1. Grazie alla grande varietà di documenti, i documenti del Premio offrono quindi la possibilità di "diversi tipi di ricerca internazionale" e approfondimenti su "tutti gli strati sociali della società".

C:\downloads\Blog_5_Transkribus_transcriptie.PNG
PrizePapers Collection, cartella 1800-1810_25/HCA32-1210-0033, frammento di una trascrizione GT. Piattaforma Transkribus

Che cos'è il progetto Dutch Prize Papers?

In quanto istituto nazionale per la ricerca sulla storia e la cultura dei Paesi Bassi, il Istituto Huygens (HI) si dedica alla ricerca innovativa e collaborativa su fonti storiche e testi letterari. L'obiettivo del progetto Dutch Prize Paper era, in primo luogo, quello di avere un'ampia selezione di documenti digitalizzati (olandesi) disponibili per la ricerca e, in secondo luogo, "rendere i testi stampati e manoscritti più ricercabili e leggibili". 

Alla fine del 2015, l'Istituto Huygens ha ricevuto una sostanziosa sovvenzione che ha permesso di realizzare il primo passo.

Nel giugno 2019, 72.000 scansioni o 140.000 pagine di documenti prevalentemente olandesi dal XVII all'inizio del XIX secolo e i relativi metadati sono stati resi disponibili online sul sito Documenti del premio olandese sito web. Per migliorare l'accesso ai documenti digitalizzati, l'Istituto Huygens ha quindi creato un ambiente di ricerca virtuale (VRE).

Per la seconda fase, Marijcke Schillings e i suoi colleghi del progetto DPP si sono rivolti al software di riconoscimento del testo di Transkribus. Poiché diversi progetti dell'Istituto Huygens "avevano già fatto esperienza con la piattaforma HTR di facile utilizzo e avevano ottenuto buoni risultati", il team ha deciso di avviare un progetto pilota, con l'obiettivo primario di esplorare il riconoscimento automatico del testo.

C:\downloads\Blog_4_Transkribus_LA.PNG

PrizePapers Collection, cartella 1800-1810_24/HCA32-1210-0016b, analisi della disposizione dei frammenti. Piattaforma Transkribus

Creare un modello di intelligenza artificiale con Transkribus

Per questo progetto pilota sono state selezionate 100 scansioni di documenti risalenti a secoli diversi e scritti in varie lingue. addestrare un modello di riconoscimento del testo personalizzato.

Verità di terra del layout 

Dopo aver scelto il materiale, il team ha iniziato a lavorare alla creazione di Ground Truth pagine del layout, in particolare la regioni di testo e l' linee di base delle pagine storiche. Schillings spiega che le linee di base sono state prima posizionate automaticamente e poi controllate manualmente, poiché le linee di testo tendevano a essere disintegrate o storte.

Usando l'app P2PaLA Le pagine di Ground Truth sono state utilizzate per addestrare tre modelli di riconoscimento delle strutture. Tuttavia, quando questi modelli sono stati testati, i risultati non sono stati così accurati come si sperava, indicando la necessità di ulteriore materiale di addestramento. Riconoscendo le sfide poste dal P2PaLA strumento di analisi del layout, Transkribus ha poi introdotto modelli di layout addestrabili, come il Modelli di campo e Modelli di tabella. Questi modelli di layout addestrabili richiedono meno dati di addestramento e sono più precisi.

Testo Verità del suolo

Il passo successivo è stato quello di creare Ground Truth pagine di testo trascritto per addestrare il modello di riconoscimento del testo. Le pagine di Ground Truth sono state generate utilizzando modelli esistenti e poi controllate e corrette manualmente. Sulla base di 100 pagine di Ground Truth, il team DPP ha creato due modelli di riconoscimento del testo personalizzati. "Abbiamo deciso di creare un modello che comprendesse un modello di base (cioè un modello di riconoscimento del testo). IJsberg) prima e una seconda, ad esclusione di un modello base".

C:\downloads\NL-HaNA_2.22.24_HCA30-342_0253b-fragment.jpg
PrizePapers Collection, cartella 1700-1799_11_r2-2/HCA30-342-0253b, fattura. Piattaforma Transkribus

Confronto tra i risultati del modello:
DPP= ede gescheept in het Schip de Gesina Mana, Comyn Cannelis

DPP2= Dene gescheept en her Schip de Gesena Aana, Comin Corneeir

Manual=ende gescheept in het schip De Gesina Maria, Captyn Cornelis

Come il team si aspettava, il primo modello, incluso il modello base IJsbergha prodotto i risultati migliori, come dimostra il confronto dei risultati del riconoscimento del testo.

Lavorare con la piattaforma Transkribus 

"L'esperienza con gli strumenti di Transkribus è stata molto buona", riassume Marijcke Schillings. Creando due modelli multilingue, il team ha esplorato il potenziale del riconoscimento del testo scritto a mano (HTR), che era l'obiettivo principale del progetto pilota. Questo sforzo ha portato a un rapporto di valutazione positivo che ha mostrato un miglioramento significativo della leggibilità.

 A causa di problemi nell'accuratezza dell'analisi del layout, nel giugno 2023 è stato applicato ai documenti del progetto Dutch Prize Papers uno strumento diverso, chiamato "Loghi", che ha migliorato notevolmente la leggibilità e la ricercabilità dei documenti. 

Ascoltando il feedback dei nostri utenti, Transkribus offre ora un modo migliorato e più efficiente di riconoscere i tracciati: i modelli di tracciati ferroviari. I modelli addestrabili Modelli di campo e Modelli di tabella sono progettati per produrre risultati accurati anche con layout complessi come quelli dei giornali, delle schede o dei fogli di calcolo. 

C:\downloads\Blog_3_DPP_Vrachtbewijs.PNG
Sito web Documenti del premio olandese, HCA30-1056-0072b, polizza di carico

Creare opportunità per ulteriori ricerche

Marijcke Schillings conclude che con questo progetto il team del DDP è stato in grado di consentire "alle persone interessate, ovunque, di visualizzare una piccola selezione di documenti", composta da oltre 100.000 immagini, leggibili e disponibili in formato digitale.

Il prossimo passo del progetto DPP sarà quello di rendere accessibile un tipo specifico di documento, le polizze di carico. Le polizze di carico non venivano solitamente conservate dopo la spedizione delle merci via mare, chiarisce Schillings. Tuttavia, esse ricompaiono nei carichi sequestrati dai corsari britannici.2

Noi di Transkribus siamo lieti di aver preso parte a questo progetto pilota e auguriamo al team del progetto DPP di continuare ad avere successo nella loro ricerca sulle polizze di carico.

Grazie a Marijcke Schillings per averci dedicato il suo tempo!

1 R. van Gelder, Zeepost. Nooit bezorgde brieven uit de 17de en 18de eeuw (Amsterdam/Antwerpen 2008) 20-21.

2 "Flessen op papier", A.P. v[an] V[liet], in: Acquistati e riparati. Lettere e schemi in lingua olandese in un archivio in lingua inglese. Giornale delle lettere a vela V. Onder redactie van E. van der Doe, P. Moree, D.J. Tang, met medewerking van P. de Bode (Zutphen 2013) 196-197.

Thumnail: Sito web del logo Documenti del premio olandese

Panoramica