Transkribus alla Bibliotheca Hertziana - Istituto Max Planck per la storia dell'arte

Le pubblicazioni digitali sono l'ultima novità al DH Lab della Bibliotheca Hertziana - Max Planck Institute for Art History di Roma (https://www.biblhertz.it), e l'obiettivo è quello di pubblicare online i contenuti Open Access dell'Istituto.

Poiché molte fonti di storia dell'arte sono libri antichi, e la biblioteca del nostro istituto ha dedicato molte risorse alla scansione della nostra collezione di libri "Rara" (http://dlib.biblhertz.it), è diventato naturale immaginare un modo per accedervi non solo come immagini digitalizzate, ma anche come contenuto trascritto. Questo permetterà agli autori di citarli direttamente, ma anche di migliorare i riferimenti incrociati, il controllo dei contenuti e l'accessibilità per le persone che si affidano a strumenti TTS.

I libri più antichi presentano diverse sfide all'OCR standard, la tecnologia normalmente usata per riconoscere il testo nei libri. Non solo alcuni caratteri e legature sono difficili da addestrare (basti pensare alla leggera differenza tra la lettera "f" e la s allungata "ſ", o l'uso della "u" come "v" nelle lettere basse, e della "V" come "U" nelle lettere maiuscole), ma ci sono anche abbreviazioni e simboli con un significato speciale. Infatti, soprattutto nel quindicesimo e sedicesimo secolo, la maggior parte dei libri conteneva le esatte abbreviazioni scribali che erano comuni nei manoscritti.

Questo significa che affrontare la trascrizione un carattere alla volta, come fa l'OCR, creerebbe semplicemente un enorme tasso di errore e nessun modo di cercare parole abbreviate. Al contrario, anche se l'HTR è destinato alla scrittura a mano, può essere addestrato perfettamente per adattarsi al contesto, ed espandere le abbreviazioni o distinguere tra lettere che sembrano o sono identiche.

Per questo motivo, abbiamo collaborato con READ-COOP e pianificato un riconoscimento neurale completo del testo delle nostre digitalizzazioni esistenti. L'obiettivo è quello di creare nuovi modelli che saranno in grado non solo di trascrivere tutto il contenuto, ma anche di riconoscere la struttura principale di un libro: estrarre la lista delle immagini, distinguere tra testo principale e commenti, e molto altro. Le trascrizioni saranno disponibili nel visualizzatore IIIF, ma anche in una piattaforma online di Read&Search insieme ai libri digitalizzati dell'Istituto di Storia dell'Arte di Firenze e del Max-Planck-Institut für Wissenschaftsgeschichte di Berlino, possono essere ricercati e analizzati attraverso l'apprendimento automatico per il data mining.

Un altro progetto che si basa su Transkribus è un'edizione digitale di manoscritti, dove accanto alla trascrizione manuale del contenuto, è necessario il tagging delle informazioni. Grazie alla facile gestione dei tag disponibile nell' Expert Client, il team può lavorare insieme e modificare il testo, inserire informazioni semantiche e identificare entità nominate rilevanti come persone, luoghi, date o opere d'arte che sono menzionate nel testo. Grazie all'esportazione diretta TEI o alla conversione XSLT, l'edizione digitale può essere creata quasi senza ulteriore post-elaborazione.

Prima di iniziare questo progetto, già usavo Transkribus per le mie ricerche, e ora incoraggio i ricercatori della Hertziana a usarlo il più possibile quando l'accesso ai contenuti è importante, o quando si lavora su un'edizione digitale.

Cookie	Descrizione	Durata
politica dei cookie visualizzati	Il cookie è impostato dal plugin GDPR Cookie Consent e viene utilizzato per memorizzare se l'utente ha acconsentito o meno all'uso dei cookie. Non memorizza alcun dato personale.	1 ora
PHPSESSID	Questo cookie è nativo delle applicazioni PHP. Il cookie viene utilizzato per memorizzare e identificare l'ID di sessione unico di un utente allo scopo di gestire la sessione dell'utente sul sito web. Il cookie è un cookie di sessione e viene cancellato quando tutte le finestre del browser vengono chiuse.	1 anno

Cookie	Descrizione	Durata
VISITATORE_INFO1_LIVE	Questo cookie è impostato da Youtube. Utilizzato per tracciare le informazioni dei video di YouTube incorporati in un sito web.	5 mesi
IDE	Utilizzato da Google DoubleClick e memorizza le informazioni su come l'utente utilizza il sito web e qualsiasi altra pubblicità prima di visitare il sito. Questo viene utilizzato per presentare agli utenti gli annunci che sono rilevanti per loro in base al profilo dell'utente.	2 anni

Cookie	Descrizione	Durata
GPS	Questo cookie è impostato da Youtube e registra un ID unico per tracciare gli utenti in base alla loro posizione geografica	30 minuti
tk_or	Questo cookie è impostato dal plugin JetPack sui siti che utilizzano WooCommerce. Questo è un cookie di riferimento utilizzato per analizzare il comportamento dei referrer per Jetpack	5 anni
tk_r3d	Il cookie è installato da JetPack. Utilizzato per le metriche interne delle attività dell'utente per migliorare l'esperienza dell'utente	3 giorni
tk_lr	Questo cookie è impostato dal plugin JetPack sui siti che utilizzano WooCommerce. Questo è un cookie di riferimento utilizzato per analizzare il comportamento dei referrer per Jetpack	1 anno
{\an8}Che cosa?	Questo cookie è installato da Google Analytics. Il cookie viene utilizzato per calcolare i dati del visitatore, della sessione, del camapign e per tenere traccia dell'utilizzo del sito per il rapporto di analisi del sito. Il cookie memorizza le informazioni in modo anonimo e assegna un numero generato randoly per identificare i visitatori unici.	2 anni
_gid	Questo cookie è installato da Google Analytics. Il cookie viene utilizzato per memorizzare informazioni su come i visitatori utilizzano un sito web e aiuta a creare un rapporto analitico su come sta andando il sito web. I dati raccolti includono il numero di visitatori, la fonte da cui provengono e le pagine visitate in forma anonima.	1 giorno
matomo	Per l'analisi statistica, usiamo "Matomo" su questo sito web. Si tratta di uno strumento open source per l'analisi del web. Matomo non trasmette dati a server al di fuori del controllo di READ-COOP. Matomo viene disattivato quando si visita il nostro sito web. Solo se lei acconsente attivamente, il suo comportamento d'uso viene registrato in modo anonimo.	1 anno

Cookie	Descrizione	Durata
YSC	Questo cookie è impostato da Youtube e viene utilizzato per monitorare le visualizzazioni dei video incorporati.	1 anno
_gat	Questo cookie è installato da Google Universal Analytics per strozzare il tasso di richiesta per limitare la raccolta di dati su siti ad alto traffico.	1 minuto

Transkribus alla Bibliotheca Hertziana - Max Planck Institute for Art History

La COOP

Prodotti e servizi

Informazioni utili

Risorse utili

Community