Dieses Texterkennungsmodell basiert auf den Zeitungen des späten neunzehnten Jahrhunderts An Gaodhaleine zweisprachige (irische und englische) Publikation, die von dem irischen Emigranten Micheál Ó Lócháin in Brooklyn herausgegeben wurde. Dieses einsprachige Modell ist von Seiten abgeleitet, die ausschließlich oder hauptsächlich in irischer Sprache (Gaeilge) gedruckt wurden. Es wurde im Rahmen des Projekts "Building a Digitally Enhanced Edition of the Brooklyn-Published Irish-Language Newspaper An Gaodhal, 1881-1904" entwickelt, einer gemeinsamen Initiative der New York University und der University of Galway.
Der irischsprachige Text in dieser Zeitung ist fast ausschließlich in Cló Gaelach, einer damals üblichen nichtromanischen Schrift, geschrieben. Alle für das Modell verwendeten Seiten wurden von einem Spezialisten für die historischen Formen der irischen Sprache korrigiert, und die digitalen Bilder wurden über die digitalen Bibliotheksbestände der James Hardiman Library an der Universität Galway bereitgestellt. Das Modell bewahrt wichtige Merkmale der Form des Cló Gaelach: Insbesondere werden Unicode-Zeichen verwendet, die das Punctum zur Kennzeichnung der im Originaltext vorhandenen Längung von Konsonanten beibehalten.
Das Projekt wurde mit finanzieller Unterstützung der Robert D. L. Gardiner Foundation, des Irish Institute of New York, des Glucksman Ireland House und der Universität von Galway durchgeführt. Eine vollständige Reihe von OCR-Ergebnissen dieses Modells und weitere Projektinformationen finden Sie unter HIER.