Die Mustererkennung und menschliche Sprachtechnologie Forschungsgruppe an der Universitat Politècnica de València (einer der READ-Projektpartner) haben veröffentlicht ein Artikel, der ihre Arbeit bei der Verarbeitung botanischer Dokumente aus dem siebzehnten Jahrhundert untersucht in der neuesten Ausgabe von Digital Scholarship in den Geisteswissenschaften.
Der Artikel erklärt, wie das Team Techniken der Layoutanalyse, Textzeilenerkennung und automatischen Transkription auf ein handgeschriebenes Buch des spanischen Botanikers Bernardo de Cienfuegos anwandte.
Das 1000-seitige Werk ist nun vollständig transkribiert und durchsuchbar. Neben diesem beeindruckenden Ergebnis weist der Artikel auch darauf hin, dass das Experiment nützliches Feedback zur Interaktion zwischen menschlichen Transkribierern und automatischer Texterkennungstechnologie generiert hat.
- Alejandro H Toselli, Luis A Leiva, Isabel Bordes-Cabrera, Celio Hernández-Tornero, Vicent Bosch, Enrique Vidal, 'Transcribing a 17th-century botanical manuscript: Longitudinal evaluation of document layout detection and interactive transcription', Digital Scholarship in den Geisteswissenschaften, 33, 1, April 2018, 173-202 https://doi.org/10.1093/llc/fqw064