Es ist an der Zeit, über einige bemerkenswerte neue Ergebnisse mit der Handwritten Text Recognition (HTR)-Technologie zu hören - dieses Mal von der Institut für Sprache und Folklore in Schweden.
Das Institut besitzt eine Sammlung von mehr als 30.000 Seiten volkskundlicher Aufzeichnungen, die von dem schwedischen Volkskundler Carl-Martin Bergstrand zwischen den 1920er und 1960er Jahren verfasst wurden. Dr. Fredrik Skott, ein außerordentlicher Professor und Forschungsarchivar am Institut, hat dabei geholfen, ein HTR-Modell zu trainieren, um diese Dokumente automatisch zu transkribieren.
Dr. Skott nutzte unsere Transkribus Plattform, um etwa 20.000 Wörter von Seiten zu transkribieren, die von Bergstrand in den frühen 1930er Jahren geschrieben wurden. Ein paar Beispielseiten sind unten zu sehen, die Bergstrands Aufzeichnungen eines Interviews mit August Svensson (geb. 1842) enthalten, in dem Svensson über Wassergeister und Trolle sprach.
Transkripte und Bilder dieser Dokumente wurden verarbeitet von CITlab HTR - eine Form der HTR-Technologie, die Neuronale Netze zur Erkennung der Handschrift verwendet. Das resultierende HTR-Modell kann automatisch Transkripte der von Bergstrand geschriebenen Seiten mit einer durchschnittlichen Zeichenfehlerrate (CER) von 7,0% erstellen. Wenn ein Wörterbuch in den Erkennungsprozess integriert wird, kann die CER sogar bei 5,5% liegen.
Dr. Skott ist begeistert von den Möglichkeiten: 'Früher dachte ich immer, dass zukünftige Generationen Schwierigkeiten haben würden, die Folklore-Sammlungen zu lesen. Jetzt weiß ich, dass es ihnen leichter fallen wird, den Text zu lesen, als es der heutigen Generation fällt. Kurzum, die Ergebnisse unserer Tests mit Transkribus sind erstaunlich. Nach der manuellen Transkription von nur 150 Seiten liest unser HTR-Modell die volkskundlichen Aufzeichnungen jetzt besser als viele unserer Besucher".
Das Institut für Sprache und Folklore arbeitet nun mit diesen Transkriptionen, um eine digitale Karte der Mythen und Legenden zu erstellen, die sie im Herbst 2017 veröffentlichen wollen.