Die Nationalarchiv von Finnland hat es sich zur Aufgabe gemacht, den Zugang zu Dokumenten des finnischen Kulturerbes zu fördern. Die Technologie zur Erkennung von handgeschriebenem Text (HTR) ist nun Teil ihrer Mission.
Das finnische Nationalarchiv hat Millionen von Dokumenten digitalisiert, von denen die meisten handschriftlich verfasst sind. In einem ersten Schritt wurden nun 500 dieser digitalisierten Seiten hochgeladen und in das Transkribus Plattform. Diese Dokumente reichen vom sechzehnten bis zum neunzehnten Jahrhundert und umfassen Nachlassinventare des finnischen Adels, Gerichtsbücher und Grundsteuerregister. Diese 500 Seiten stellen Trainingsdaten dar und werden eine wichtige Rolle dabei spielen, die HTR-Engines in die Lage zu versetzen, die schwedische Handschrift zu erkennen (die zu dieser Zeit in offiziellen Dokumenten in Finnland verwendet wurde).
Manuskriptseite aus den Akten des Appellationsgerichts in Turku, 1828-1829 (Bild mit freundlicher Genehmigung von Digitales Archiv, Nationalarchiv Finnland)
Die READ-Forscher werden diese Seiten nutzen, um ein HTR-Modell zu generieren, das auf andere Dokumente des finnischen Nationalarchivs angewendet werden kann. Dieses Modell wird es ermöglichen, Bilder von historischen Manuskripten automatisch zu transkribieren und zu durchsuchen und so einen leichteren Zugang zu den Aufzeichnungen der finnischen Geschichte zu gewährleisten.
500 Seiten sind erst der Anfang! Das finnische Nationalarchiv wird im Laufe des READ-Projekts weiterhin Trainingsdaten beisteuern, die dazu beitragen werden, die Genauigkeit der HTR-Technologie zu verbessern.