Il modello HTR "NIOD_WarLet_1935-1950" è stato addestrato sulla corrispondenza scritta a mano in olandese, risalente al periodo 1935-1950.
Il set di addestramento è costituito da 1087 trascrizioni "Ground Truth" di scansioni ad alta risoluzione.
Tutti i documenti inclusi fanno parte della collezione archivistica nota come "247 Correspondentie" conservata dall'Istituto NIOD per gli studi sulla guerra, l'olocausto e il genocidio di Amsterdam.
Il set di addestramento contiene la corrispondenza personale di un'ampia varietà di scrittori (ad esempio, bambini, soldati, ebrei nascosti).
Questo modello è stato creato nell'ambito del progetto "First-Hand Accounts of War: War letters (1935-1950) from NIOD digitised", che si è svolto dal 2020 al 2023.
Tutti i documenti utilizzati per la formazione e la validazione sono stati scansionati e trascritti nell'ambito di questo progetto.
Questo progetto è stato finanziato dal Fondo Mondriaan, dal Ministero olandese della Salute, del Benessere e dello Sport e dall'Istituto NIOD per gli Studi sulla Guerra, l'Olocausto e il Genocidio di Amsterdam.
Il set di formazione "Ground Truth" è stato creato dai membri del progetto Annelies van Nispen, Carlijn Keijzer e Milan van Lange. La trascrizione e la correzione delle trascrizioni di "Ground Truth" sono state effettuate, sotto la supervisione di Muriël Bouman, dai cittadini scienziati Hillebrand Verkroost, Bart Cohen, Evelien Bachrach, Marjo Janssens e Cocky Sietses.
L'insieme di validazione contiene un campione di 17 trascrizioni "Ground Truth" di vari autori e sottocollezioni.
Il modello è stato addestrato utilizzando il motore HTR di PyLaia; sono state addestrate 250 epoche con un tasso di apprendimento di 0,0003.
Il modello HTR "IJsberg_PyLaia" (id: 38769) è stato utilizzato come modello di base.