In aprile abbiamo ha fatto appello all'aiuto nel generare un nuovo set di dati che potrebbe essere utilizzato per migliorare l'analisi automatica del layout di documenti storici disposti in tabelle. Noi lo abbiamo chiesto e voi avete risposto!
Grazie ai contributi della nostra rete, i ricercatori di READ al Laboratorio di visione artificiale all'Università Tecnica di Vienna, Naver Labs Europe e l' Archivio diocesano di Passau hanno compilato una notevole collezione di immagini di documenti storici contenenti tabelle.
Ora abbiamo un totale di circa 1.500 immagini da 25 collaboratori in tutto il mondo. Le fonti consegnate mostrano una grande varietà di tabelle, dai libri contabili disegnati a mano alle liste di borsa e agli orari dei treni, dai registri alle liste dei prigionieri, semplici stampe tabellari in libri, censimenti della produzione e molto, molto altro.
I ricercatori di READ stanno preparando il set di dati come base per una competizione di ricerca informatica all'inizio del 2019 (maggiori dettagli in arrivo!). Questa raccolta sarà utilizzata per valutare diversi approcci al riconoscimento automatico delle tabelle.
C'è ancora molto da imparare su ciò che costituisce una tabella. Lavorare con questi dati eterogenei dovrebbe aiutarci a superare le specificità e a trovare alcune linee guida e tecniche generiche per elaborare questo tipo di pagine.
Siamo molto grati alla nostra rete per aver fornito una tale varietà di dati tabellari e non vediamo l'ora di condividere il nostro prossimo rapporto sui progressi!