Erfolgsgeschichte
Veröffentlicht: Vor 5 Monaten

Verbesserte Texterkennung für finnische historische News-Papiere mit Transkribus

Die Nationalbibliothek von Finnland hat fast zwei Millionen historische Zeitungsseiten mit dem automatischen Texterkennungsworkflow Transkribus in Zusammenarbeit mit READ-COOP neu verarbeitet. Die stark verbesserten Erkennungsergebnisse überzeugten die Bibliothek von einem Workflow, der im Projekt NewsEye zu seinem heutigen Stand entwickelt wurde. Federführend bei dieser Entwicklung war die Universität Innsbruck. Texterkennung im Allgemeinen und hochpräzise Erkennung im Besonderen ist von immenser Bedeutung für die Qualität und Nutzbarkeit digitalisierter historischer Quellen.

Das Material in diesem Wiederaufbereitungskooperationsprojekt mit READ-COOP umfasste knapp zwei Millionen Seiten finnischer Zeitungen aus den Jahren 1771 bis 1914. Die Sprachen des Materials sind Finnisch und Schwedisch, entsprechend den Sprachen, die in Finnland während dieses Zeitraums verwendet wurden. Nun wurden alle in Finnland erschienenen Zeitungen von der ersten Zeitung aus dem Jahr 1771 bis zu den Zeitungstiteln aus dem Jahr 1914 sowie eine Auswahl von Zeitungen aus den Jahren 1915 bis 1918 neu aufbereitet.

Die neu aufbereiteten Zeitungen werden ab Sommer 2021 schrittweise die älteren Versionen mit schlechteren Ergebnissen der optischen Zeichenerkennung im Publikations- und Präsentationssystem der Finnischen Nationalbibliothek ersetzen. Die Bibliothek wird eine Informationskampagne bezüglich der Qualitätsverbesserungen starten. Wir streben auch an, mehr Zeitungen ab 1914 zu verarbeiten, aber diese Entscheidung wird später folgen.

Die Verbesserung der Texterkennungsergebnisse war beträchtlich und wir berechnen derzeit die genauen Zahlen. Diese werden veröffentlicht auf https://digi.nationallibrary.fi .

Die Arbeit in dieser Kooperation wurde durch den Europäischen Fonds für regionale Entwicklung / Leverage der EU für die Förderperiode 2014-2020 finanziert.

Übersicht