Bereits im April haben wir um Hilfe gebeten bei der Generierung eines neuen Datensatzes, der zur Verbesserung der automatisierten Layout-Analyse historischer Dokumente in Tabellenform verwendet werden könnte. Wir haben gefragt, und Sie haben geantwortet!
Dank der Einsendungen aus unserem Netzwerk haben die READ-Forscher am Computer Vision Labor an der Technischen Universität Wien, Naver Labs Europa und das Diözesanarchiv Passau haben eine beachtliche Sammlung von Bildern historischer Dokumente zusammengestellt, die Tabellen enthalten.
Wir haben jetzt insgesamt rund 1.500 Bilder von 25 Mitwirkenden aus der ganzen Welt. Die gelieferten Quellen zeigen eine große Vielfalt an Tabellen, von handgezeichneten Buchhaltungsbüchern bis zu Börsenlisten und Zugfahrplänen, von Protokollbüchern bis zu Häftlingslisten, einfachen Tabellendrucken in Büchern, Produktionszählungen und viele, viele mehr.
Die READ-Forscher bereiten den Datensatz als Grundlage für einen Informatik-Forschungswettbewerb Anfang 2019 vor (weitere Details folgen bald!). Mit dieser Sammlung sollen verschiedene Ansätze zur automatischen Erkennung von Tabellen evaluiert werden.
Es gibt noch viel zu lernen darüber, was eine Tabelle ausmacht. Die Arbeit mit diesen heterogenen Daten sollte uns helfen, über die Spezifika hinauszugehen und einige allgemeine Richtlinien und Techniken für die Verarbeitung dieser Art von Seiten zu entwickeln.
Wir sind unserem Netzwerk sehr dankbar für die Bereitstellung einer solchen Vielfalt an tabellarischen Daten und freuen uns auf den nächsten Fortschrittsbericht!