Storia di successo
Pubblicato: 3 anni fa

David Brown racconta Transkribus e il progetto Beyond 2022

Il mio primo incontro con Transkribus è stato spinto dall'invidia. Nel 2014 ho aiutato a redigere una proposta Horizon 2020 senza successo al Trinity College di Dublino per un bando che è stato vinto dal consorzio READ. Successivamente sono stato coinvolto in un importante progetto di trascrizione per la Irish Manuscripts Commission e ho partecipato alla conferenza degli utenti di READ nel 2018 a Innsbruck per stabilire (1) se Transkribus funzionasse e (2) aspettandoci che non funzionasse, come fosse possibile che la proposta originale di READ fosse migliore della nostra.
Transkribus, naturalmente, funzionava molto bene ed è ora una componente chiave di una serie di strumenti software che stiamo usando per realizzare Beyond 2022, il tesoro virtuale dei documenti dell'Irlanda. Il 30 giugno 1922, allo scoppio della guerra civile irlandese che seguì l'indipendenza dal Regno Unito, il Public Record Office of Ireland fu completamente distrutto. Nel centenario di questa catastrofe culturale, il 30 giugno 2022, il progetto Beyond 2022, finanziato dal governo d'Irlanda e con sede al Trinity College di Dublino, svelerà una ricostruzione virtuale di questo edificio e surrogati digitali di molti dei suoi contenuti. Le copie sono trascrizioni ufficiali o accademiche provenienti da oltre 50 biblioteche e archivi di tutto il mondo. Anche se alcune di queste copie sono stampate, la maggior parte sono manoscritte e vanno dalle trascrizioni contemporanee del XIII secolo alle copie ufficiali fatte nel corso del XIX secolo. Il materiale è principalmente in inglese o in latino.

Il modello di Beyond 2022 in lingua inglese, trascrizione di una pagina delle Deposizioni del 1641


Abbiamo iniziato producendo modelli HTR su misura per grandi serie specifiche di trascrizioni, principalmente calendari inediti di materiale antico prodotto dagli Irish Record Commissioners, 1810-1830. Poiché questi sono scritti in rame con standard molto elevati, i risultati di Transkribus sono eccellenti. I nostri passi successivi furono di produrre modelli su misura per le scritture più corsive usate dagli antiquari vittoriani. Questi appassionati a volte producevano 10.000 pagine di trascrizioni, interamente per conto loro e per le loro ricerche. Abbiamo la fortuna di aver trovato diverse collezioni di queste trascrizioni fatte per ricerche private in biblioteche lontane come Chicago. Gli alti funzionari che gestivano l'Irlanda per conto della corona britannica normalmente facevano copie dei documenti ufficiali prodotti durante il loro mandato e lasciavano le copie in Irlanda quando si trasferivano, portando con se gli originali. Questi consistono anche in grandi collezioni di circa 10.000 pagine, di solito il lavoro di uno o due funzionari che lavorano con cura, e quindi anche ideali per un approccio Transkribus. Abbiamo recentemente raggruppato i nostri modelli specifici per le varie scritture in un unico modello di base che produce risultati eccellenti dalla maggior parte dei documenti ufficiali in inglese del 1600-1900. Questo modello sarà reso pubblicamente disponibile a tutti gli utenti di Transkribus il 20 giugno 2021, per il 99° anniversario della distruzione del Public Record office of Ireland.
Il flusso di lavoro di Beyond 2022 consiste nel ricevere immagini digitali di testi storici stampati e manoscritti dai nostri partner archivistici, "ricucendo" questi documenti ai loro equivalenti distrutti e rimettendoli sugli scaffali virtuali del PROI. Abbiamo prodotto un modello dettagliato in 3D dell'edificio e recuperato la disposizione degli scaffali per le 140.000 cartelle, scatole, volumi rilegati e rotoli di pergamena contenuti in essi. Possiamo, quindi, collocare l'originale nel punto esatto dell'edificio in cui è stato distrutto. Con Transkribus, possiamo produrre un testo ricercabile di alta qualità che viene poi analizzato dal nostro sistema di elaborazione del linguaggio naturale che a sua volta produce triple entità che sono la base per un grafico di conoscenza della storia irlandese. Questo passo finale non è possibile senza l'intervento di Transkribus che produce milioni di parole di testo di alta qualità.
La biblioteca del Trinity College si è unita a READ COOP per conto dell'università quando READ è passato da un progetto di ricerca finanziato dal ERC a uno finanziato in modo indipendente. Beyond 2022 è uno dei diversi progetti con base al Trinity College che utilizza i servizi della COOP, e molti altri sono in arrivo.
Per saperne di più su Beyond 2022 vedi il nostro sito web: https://beyond2022.ie/

Panoramica