Il modello "Svedese del XVII secolo (Savo, Finlandia orientale)" è addestrato a leggere lo stile di scrittura gotico, noto anche come stile di scrittura "tedesco". È stato concepito per la scrittura svedese del XVII secolo e fa parte del progetto di dottorato di Ville-Pekka Kääriäinen presso l'Università di Helsinki.
Il progetto si è concentrato sull'Alta Savonia del XVII secolo (Ylä-Savo, parrocchia di Iisalmi/Idensalmi, Finlandia orientale). Di conseguenza, la capacità del modello di interpretare i nomi propri (nomi di persona e di luogo) potrebbe essere in qualche modo limitata a causa dell'ambito geografico distinto dei dati di addestramento.
Il modello include dati di addestramento provenienti da varie collezioni di documenti conservati negli archivi nazionali di Finlandia e Svezia:
- Registri del tribunale distrettuale (fi: kihlakunnanoikeus, swe: häradsrätten) relativi alla parrocchia di Iisalmi dal 1639 al 1699 (giurisdizioni di Savolax 1639-1650, Kajana friherreskap 1651-1680, Lilla Savolax 1681-1699)
- Menzioni dei residenti della parrocchia di Iisalmi nei registri dei lagmansrätt (fi: laamanninoikeus) dal 1643 al 1699 (distretto legale di Karjala, Karelska lagsagan)
- Lettere inviate al conte Per Brahe da funzionari locali, ecclesiastici e cittadini (Skokolstersamlingen, Rydboholmssamlingen)
- Le lamentele della gente comune (fi: rahvaanvalitukset, swe: allmogens besvär) dalla giurisdizione di Lilla-Savolax (fi: Pien-Savo)
La qualità dell'immagine dei dati di addestramento varia. Il modello è stato sviluppato prima che l'Archivio Nazionale Finlandese intraprendesse un nuovo ciclo di digitalizzazione degli atti giudiziari, rendendo necessario il lavoro con copie di microfilm di bassa qualità. D'altra parte, il materiale dell'Archivio nazionale svedese varia tra digitalizzazione autofotografata e di alta qualità e digitalizzazione di bassa qualità da microfilm.
La struttura del modello si attiene strettamente al materiale di partenza. Le unità monetarie, le unità di misura e altre abbreviazioni sono state affrontate con la loro logica intrinseca, pur senza ampliarle.
Ad esempio, le unità monetarie comuni come il marco e il tallero (daler) sono rappresentate dai simboli m/m:r o D/D:r, a seconda del contesto.
Il modello è stato creato grazie a un notevole sforzo e impegno personale.
Spero che si riveli utile per altri. Sono aperto alla collaborazione per sviluppare ulteriormente questo modello. Non esitate a contattarmi all'indirizzo: v.kaariainen@gmail.com.
GT:
Pagine: 1353 (training set) + 147 (validation set) = 1500 pagine
Parole: 472.655 (training set) + 51.613 (validation set) = 524.268 parole