Xerox Forschungszentrum Europa ist einer der READ-Forschungspartner und verantwortlich für Document Understanding. Document Understanding ist ein entscheidender Teil des Prozesses, Computer zu trainieren, historische Dokumente zu erkennen, da Hervé Déjean aus dem Xerox-Team erklärt in dieser Blog.
Document Understanding beinhaltet die Analyse des Layouts eines Dokuments, um für den Menschen verständliche Informationen über dessen Inhalt zu extrahieren. Hervés Blog gibt einen nützlichen Überblick über das Konzept und bietet spezifische Details darüber, wie diese Methode auf historische Dokumente angewendet werden kann.
Hervé beschreibt, wie er Sequential Pattern Mining-Techniken auf Hochzeitsregistern aus dem achtzehnten Jahrhundert verwendet hat, die von Diözesanarchiv Passau, ein weiterer Partner im READ-Projekt. Document Understanding trägt dazu bei, dass wir Informationen aus einem Dokument in eine sinnvolle Reihenfolge bringen können - in diesem Fall, um sicherzustellen, dass der richtige Bräutigam mit der richtigen Braut am richtigen Tag zusammengebracht wird!