+ Ricerca nei manoscritti di Jeremy Bentham con Keyword Spotting

Il Bentham Project ha sperimentato il riconoscimento del testo scritto a mano (HTR) dei manoscritti di Bentham negli ultimi cinque anni, prima come partner del progetto tranScriptorium e ora come parte di LEGGI .

Leggete i loro progressi con HTR e il nostro Transkribus piattaforma in post di blog da Giugno 2017Febbraio 2018.

Keyword Spotting

I risultati sono stati finora impressionanti, specialmente considerando l'immensa difficoltà della scrittura di Bentham. Ma la trascrizione automatica non è ancora a un punto tale da essere sufficientemente accurata da poter essere usata dai ricercatori del Progetto Bentham come base per l'editing accademico.

Tuttavia, lo stato attuale della tecnologia è abbastanza forte per la ricerca di parole chiave! E grazie a una collaborazione con il Centro di ricerca PRHLT all'Universitat Politècnica de València (un altro partner del progetto READ), ci sono alcuni nuovi risultati entusiasmanti da segnalare. Ora è possibile cercare oltre 90.000 immagini digitali delle collezioni centrali dei manoscritti di Benthamche si tengono a Speciale Collections University College London e La Biblioteca Britannica.

Una ricerca Keyword Spotting per la parola 'piacere

Appello per i volontari!

Una Foglio di Google è stato preparato con alcuni termini di ricerca suggeriti in 5 diverse schede del foglio di calcolo (neologismi di Bentham, concetti, persone, luoghi e altro). Il Progetto Bentham fa appello alle persone affinché registrino le loro ricerche online, usando i termini di ricerca suggeriti e anche alcuni nuovi. Alcuni dei risultati saranno condivisi al prossimo Conferenza degli utenti Transkribus in novembre.

Sfondo

Il team PRHLT ha elaborato i documenti di Bentham con tecnologie all'avanguardia di HTR e di indicizzazione probabilistica delle parole. Questa forma sofisticata di ricerca è spesso chiamata Keyword Spotting. È più potente di una ricerca full-text convenzionale perché usa modelli statistici addestrati per il riconoscimento del testo per cercare attraverso valori di probabilità assegnati a sequenze di caratteri (parole), considerando la maggior parte delle possibili letture di ogni parola su una pagina.

Il risultato è che questa vasta collezione di carte di Bentham può essere ricercata in modo efficiente, comprese quelle carte che non sono ancora state trascritte! I tassi di precisione sono impressionanti. Gli spot suggeriscono una precisione di circa 84-94% (6-16% Character Error Rate) rispetto alle trascrizioni manuali dei manoscritti di Bentham. Più precisamente, i test di laboratorio mostrano che la precisione media di ricerca delle parole va da 79% a 94%. Ciò significa che, su 100 risultati medi di ricerca, solo 6 possono non essere effettivamente le parole cercate. La precisione delle parole individuate dipende dalla difficoltà della scrittura di Bentham - anche se è possibile trovare risultati utili nella scarabocchiatura di Bentham! Ci potrebbero essere fino a 25 milioni di parole in attesa di essere trovate.

Una ricerca della parola "felicità" scopre la frase più famosa di Bentham, scritta di suo pugno.

Casi d'uso

Questo fantastico sito sarà inestimabile per chiunque sia interessato alla filosofia di Bentham. Aiuterà i ricercatori del Bentham Project a trovare riferimenti precedentemente sconosciuti in pagine che non sono ancora state trascritte. Permetterà ai ricercatori di indagare rapidamente sui concetti e sui corrispondenti di Bentham. Dovrebbe anche aiutare i trascrittori volontari nel Trascrivere Bentham iniziativa per trovare materiale interessante da trascrivere.

Questa interfaccia è un prototipo in versione beta. In futuro, ci sono piani per aumentare la potenza di questo strumento di ricerca collegandolo ad altre risorse digitali, permettendo agli utenti di cercare rapidamente i manoscritti al Deposito della biblioteca UCL, il Database delle carte di Bentham e l' Trascrivere Bentham Tanscription Desk e collegando queste immagini a ricchi metadati esistenti.

I feedback su questa nuova funzionalità di ricerca sono benvenuti all'indirizzo: transcribe.bentham@ucl.ac.uk

La simile tecnologia Keyword Spotting (basata sulla ricerca del CITlab team dell'Università di Rostock, un altro dei LEGGI i partner del progetto) è attualmente disponibile per tutti gli utenti della piattaforma Transkribus.  Scopri di più su come iniziare con Keyword Spotting.

CONDIVIDI QUESTO ARTICOLO

Post recenti

25 aprile 2024
News, Transkribus
A gennaio abbiamo annunciato i nostri nuovi piani di abbonamento: Individuale, Studente e Organizzazione. Ciascun piano è adattato a un particolare ...
17 aprile 2024
News, Transkribus
Uno dei maggiori vantaggi di Transkribus è la possibilità di addestrare modelli personalizzati di riconoscimento del testo scritto a mano. Questa caratteristica unica ...
4 aprile 2024
News
La primavera è arrivata e così anche l'uscita di aprile 2024 di Transkribus. Ecco una rapida panoramica di tutte le ...