Come ricercare i documenti con la funzione Smart Search

Come ricercare i documenti con la funzione Smart Search

Strumenti Transkribus
Transkribus Lite
Ultimo aggiornamento 11 mesi fa
Informazioni su Transkribus

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Sommario

Sommario

Introduzione

Smart Search consente di eseguire un tipo di ricerca più avanzato e potente sui documenti riconosciuti utilizzando un modello di HTR PyLaia . Questa funzione consente di ricercare con maggiore precisione le trascrizioni generate automaticamente, senza doverle correggere manualmente. Può rivelarsi molto utile per gli atti e i registri, ma non solo per questi.

Mentre la ricerca standard si basa sulla trascrizione così come appare nell'editor di testo, la ricerca intelligente prende in considerazione diverse alternative per ogni parola riconosciuta nella trascrizione automatica. Le alternative non appaiono nell'editor di testo, ma sono state memorizzate in aggiunta alla trascrizione. Utilizzando Smart Search, è possibile trovare parole anche se sono state trascritte in modo errato dal modello HTR. In questo modo, Smart Search può produrre risultati preziosi anche con trascrizioni automatiche con un alto tasso di errore (CER fino a 30%).

Smart Search in Transkribus Lite

Preparazione: Riconoscimento del testo

Per utilizzare la funzione Smart Search è necessario innanzitutto attivarla al momento del riconoscimento del testo, in modo che tutte le possibili alternative delle parole vengano memorizzate e possano essere consultate ogni volta che si avvia una ricerca. 

Seleziona le pagine o il documento da far riconoscere automaticamente e clicca sul pulsante "Riconoscimento del testo" nel menu "Azioni" a sinistra. Seleziona quindi il modello PyLaia più adatto ai documenti. Solo se si è scelto un modello PyLaia, apparirà la casella di controllo per la ricerca intelligente "Smart Search" sopra il pulsante verde "Avvia riconoscimento" (Fig. 1). 
Spunta la casella di controllo per attivare la ricerca intelligente, cioè per salvare non solo la corrispondenza migliore ma anche le altre alternative di cui il modello HTR è meno sicuro per quanto riguarda la loro correttezza. Per impostazione predefinita, 100 è il numero massimo di varianti prese in considerazione e memorizzate.

Figura 1. Casella di controllo Smart Search per la ricerca intelligente in Transkribus Lite

Poiché la generazione dei dati di Smart Search durante il riconoscimento del testo è un'attività di calcolo intensa e richiede uno spazio di archiviazione aggiuntivo (10 volte superiore al normale), viene applicato un supplemento del 50% dei crediti. Ciò significa che invece di consumare 1 credito per pagina, come avviene di solito con i modelli di HTR PyLaia, si consumeranno 1,5 crediti per pagina.
Prima di avviare il riconoscimento del testo, è quindi necessario valutare se la funzione Smart Search è utile per i propri documenti, a seconda di come si intende utilizzare le trascrizioni HTR. Se si desidera applicare la funzione Smart Search in una fase successiva, è necessario svolgere il riconoscimento del testo su tutte le pagine, il che comporta un consumo di crediti maggiore rispetto all'utilizzo della ricerca intelligente.

Una volta terminato il riconoscimento del testo, potete cercare le vostre pagine utilizzando la barra di ricerca in alto a destra di Transkribus Lite. In questa fase, non è necessario selezionare alcuna opzione: è sufficiente digitare il termine e avviare la ricerca. La ricerca viene effettuata automaticamente sia tra le parole che compaiono nell'editor di testo sia tra tutte le alternative salvate.  

Facendo clic sul risultato, viene caricata la pagina in cui è stato trovato. Quando il termine è stato trovato tra le varianti, appare correttamente nell'elenco dei risultati della ricerca (Fig. 2). Tuttavia, quando si apre la pagina corrispondente, si nota che la trascrizione contiene una parola diversa, cioè quella che il modello ha valutato come migliore durante il riconoscimento. Osservando la parola evidenziata nell'immagine, si vedrà se la variante trovata da Smart Search è la trascrizione corretta (molto probabile) o se si tratta di una supposizione errata (Fig. 3).

Figura 2. Risultati della ricerca in Transkribus Lite
Figura 3. Risultato corretto trovato grazie alla ricerca intelligente

Ricerca fuzzy e Smart Search possono sembrare simili, ma in realtà le tecniche alla base sono diverse e quindi anche i risultati. La ricerca fuzzy consente di trovare parole approssimativamente corrispondenti, oltre alle corrispondenze esatte: è utile in caso di errori e variazioni ortografiche. Tuttavia, la Fuzzy Search esamina solo le parole della trascrizione e recupera i risultati che differiscono solo di una o due lettere dal termine cercato. Al contrario, Smart Search effettua la ricerca sia tra le parole trascritte sia tra le numerose varianti meno sicure, che possono differire notevolmente dalla parola accettata come migliore corrispondenza. 

Per esempio, supponiamo di cercare il nome "Tommaso" in una trascrizione generata da un modello HTR di PyLaia con un CER 20%. Fuzzy Search restituisce due risultati: individua correttamente il nome anche quando il modello HTR lo trascrive come "Sommaso" (una lettera errata) e "Sommato" (due lettere errate). La Smart Search, invece, esamina sia le migliori corrispondenze che le loro alternative e trova una nuova occorrenza di "Tommaso", che nella trascrizione appare come "Dominato". La Fuzzy Search non riesce a trovare questo risultato perché "Dominato" è troppo diverso da "Tommaso"; la Smart Search, invece, riesce a trovarlo perché "Tommaso" è una delle varianti meno sicure riconosciute dal modello HTR e memorizzate al momento del riconoscimento del testo.

È anche possibile selezionare sia la funzione Smart Search che la ricerca fuzzy per combinarle ed eseguire una ricerca fuzzy all'interno delle varianti.