Il Bentham Project ha sperimentato il riconoscimento del testo scritto a mano (HTR) dei manoscritti di Bentham negli ultimi cinque anni, prima come partner del progetto tranScriptorium e ora come parte di LEGGI .
Leggete i loro progressi con HTR e il nostro Transkribus piattaforma in post di blog da Giugno 2017 e Febbraio 2018.
Keyword Spotting
I risultati sono stati finora impressionanti, specialmente considerando l'immensa difficoltà della scrittura di Bentham. Ma la trascrizione automatica non è ancora a un punto tale da essere sufficientemente accurata da poter essere usata dai ricercatori del Progetto Bentham come base per l'editing accademico.
Tuttavia, lo stato attuale della tecnologia è abbastanza forte per la ricerca di parole chiave! E grazie a una collaborazione con il Centro di ricerca PRHLT all'Universitat Politècnica de València (un altro partner del progetto READ), ci sono alcuni nuovi risultati entusiasmanti da segnalare. Ora è possibile cercare oltre 90.000 immagini digitali delle collezioni centrali dei manoscritti di Benthamche si tengono a Speciale Collections University College London e La Biblioteca Britannica.
- Iniziare la ricerca!
- Linee guida per la ricerca
- Registra le tue ricerche sul foglio di Google del Progetto Bentham
Appello per i volontari!
Una Foglio di Google è stato preparato con alcuni termini di ricerca suggeriti in 5 diverse schede del foglio di calcolo (neologismi di Bentham, concetti, persone, luoghi e altro). Il Progetto Bentham fa appello alle persone affinché registrino le loro ricerche online, usando i termini di ricerca suggeriti e anche alcuni nuovi. Alcuni dei risultati saranno condivisi al prossimo Conferenza degli utenti Transkribus in novembre.
Sfondo
Il team PRHLT ha elaborato i documenti di Bentham con tecnologie all'avanguardia di HTR e di indicizzazione probabilistica delle parole. Questa forma sofisticata di ricerca è spesso chiamata Keyword Spotting. È più potente di una ricerca full-text convenzionale perché usa modelli statistici addestrati per il riconoscimento del testo per cercare attraverso valori di probabilità assegnati a sequenze di caratteri (parole), considerando la maggior parte delle possibili letture di ogni parola su una pagina.
Il risultato è che questa vasta collezione di carte di Bentham può essere ricercata in modo efficiente, comprese quelle carte che non sono ancora state trascritte! I tassi di precisione sono impressionanti. Gli spot suggeriscono una precisione di circa 84-94% (6-16% Character Error Rate) rispetto alle trascrizioni manuali dei manoscritti di Bentham. Più precisamente, i test di laboratorio mostrano che la precisione media di ricerca delle parole va da 79% a 94%. Ciò significa che, su 100 risultati medi di ricerca, solo 6 possono non essere effettivamente le parole cercate. La precisione delle parole individuate dipende dalla difficoltà della scrittura di Bentham - anche se è possibile trovare risultati utili nella scarabocchiatura di Bentham! Ci potrebbero essere fino a 25 milioni di parole in attesa di essere trovate.
Casi d'uso
Questo fantastico sito sarà inestimabile per chiunque sia interessato alla filosofia di Bentham. Aiuterà i ricercatori del Bentham Project a trovare riferimenti precedentemente sconosciuti in pagine che non sono ancora state trascritte. Permetterà ai ricercatori di indagare rapidamente sui concetti e sui corrispondenti di Bentham. Dovrebbe anche aiutare i trascrittori volontari nel Trascrivere Bentham iniziativa per trovare materiale interessante da trascrivere.
Questa interfaccia è un prototipo in versione beta. In futuro, ci sono piani per aumentare la potenza di questo strumento di ricerca collegandolo ad altre risorse digitali, permettendo agli utenti di cercare rapidamente i manoscritti al Deposito della biblioteca UCL, il Database delle carte di Bentham e l' Trascrivere Bentham Tanscription Desk e collegando queste immagini a ricchi metadati esistenti.
I feedback su questa nuova funzionalità di ricerca sono benvenuti all'indirizzo: transcribe.bentham@ucl.ac.uk
La simile tecnologia Keyword Spotting (basata sulla ricerca del CITlab team dell'Università di Rostock, un altro dei LEGGI i partner del progetto) è attualmente disponibile per tutti gli utenti della piattaforma Transkribus. Scopri di più su come iniziare con Keyword Spotting.