Centro di ricerca Xerox Europa è uno dei partner di ricerca di READ, con la responsabilità della comprensione dei documenti. La comprensione dei documenti è una parte cruciale del processo di addestramento dei computer a riconoscere i documenti storici, come Hervé Déjean dal team Xerox spiega in questo blog.
La comprensione dei documenti comporta l'analisi del layout di un documento al fine di estrarre informazioni comprensibili all'uomo sul suo contenuto. Il blog di Hervé presenta un'utile panoramica del concetto e offre dettagli specifici su come questo metodo può essere applicato ai documenti storici.
Hervé descrive come ha usato le tecniche di Sequential Pattern Mining sui registri di matrimonio del XVIII secolo forniti da Archivio diocesano di Passau, un altro partner del progetto READ. La comprensione dei documenti aiuta a garantire che possiamo raggruppare le informazioni da un documento in una sequenza significativa - in questo caso, assicurando che lo sposo giusto sia abbinato alla sposa giusta nel giorno giusto!