Come cercare i documenti con la funzione Keyword Spotting

Come cercare i documenti con la funzione Keyword Spotting

Strumenti Transkribus
Transkribus Expert Client
Ultimo aggiornamento 2 anni fa
Informazioni su Transkribus

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Transkribus è una soluzione completa per la digitalizzazione, il riconoscimento del testo tramite IA, la trascrizione e la ricerca di documenti storici. Scopri di più su Transkribus qui

Sommario

Sommario

Questa guida spiega come usare la funzione Keyword Spotting di Transkibus. Il Keyword Spotting è un nuovo e potente strumento di ricerca che ti aiuterà a cercare parole distinte nella tua collezione di documenti.

Introduzione

  • Keyword Spotting (KWS) con Transkribus ti permette di cercare parole distinte nei tuoi documenti.
  • Il vantaggio principale: non c'è bisogno di trascrivere i documenti prima di cercarli. Basta eseguire un modello di riconoscimento del testo scritto a mano (HTR) per produrre una trascrizione e poi cercare immediatamente nei tuoi documenti. Anche se la trascrizione generata automaticamente contiene errori, il KWS troverà in modo affidabile parole, frasi e anche parti di parole ed espressioni regolari nei tuoi documenti.
  • Il programma mostrerà su quali pagine è stata trovata la tua parola chiave. Inoltre, ti darà una cifra tra 0 e 1 per valutare la fiducia dei risultati.
  • Nota: Dietro al KWS si nasconde un compito di calcolo impegnativo. Viene definito come "job" in Transkribus: puoi iniziare la ricerca ed eseguire altri compiti mentre aspetti i risultati. Tutti i risultati sono memorizzati in Transkribus e possono essere (ri)aperti ed esaminati in qualsiasi momento. Siamo convinti che lavorare con i risultati delle ricerche di KWS diventerà in futuro un compito abituale per molti storici e filologi.

Preparazione - riconoscere il testo

  • Prima di iniziare con il KWS, è necessario applicare un modello HTR ai documenti e produrre una prima trascrizione.
  • In primo luogo, carica i tuoi documenti su Transkribus.
  • in secondo luogo, segmenta i tuoi documenti in regioni di testo, linee e linee di base.
  • Per ulteriori informazioni su come caricare e segmentare, si prega di consultare Come trascrivere documenti con Transkribus - Introduzione.
  • Dopodiché, dovrai eseguire l'HTR sui tuoi documenti.
  • Per accedere al tuo modello, clicca sulla scheda "Tools" e vai alla sezione "Text Recognition".
  • Fai clic su "Run", quindi su "Select HTR model". Scegli il tuo modello HTR dall'elenco sul lato sinistro dello schermo e clicca su OK.
  • Nota: Il KWS funziona meglio quando si usa un modello HTR specifico che è stato addestrato sui tuoi documenti. Ma possono essere generati anche risultati utilizzabili con modelli generali. Se non hai un tuo modello HTR, puoi sperimentare con modelli pubblici disponibili in Transkribus. Transkribus attualmente fornisce accesso a modelli pubblici addestrati sulla scrittura inglese e tedesca del diciottesimo e diciannovesimo secolo. Saranno presto disponibili altri modelli pubblici.
  • Clicca "Run" per avviare il processo di riconoscimento del testo.

Figura 1 Esegui modello

  • Puoi controllare l'avanzamento del riconoscimento facendo clic sul pulsante "Jobs" nella scheda "Server".

Figura 2 Fai clic su "Jobs" per controllare il progresso di HTR.

Figura 3 Finestra "Jobs on server"

  • Una volta terminato il riconoscimento, la trascrizione automatica apparirà nel campo dell'editor di testo.

Figura 4 La trascrizione automatica appare nel campo dell'editor di testo.

Funzione Keyword Spotting

Dove trovarla

  • Puoi aprire la funzione Keyword Spotting cliccando il pulsante binocolo o la lente d'ingrandimento nel menu principale.

Figura 5 Come aprire Keyword Spotting

  • Nella finestra di ricerca, fai clic sulla scheda "KWS

Figura 6 Scheda "KWS"

Ultimi e precedenti risultati di ricerca

  • Le tue precedenti e attuali richieste Keyword Spotting appariranno in fondo alla scheda "KWS".

Figura 7 Risultati di ricerca attuali e passati

Utilizzando Keyword Spotting

  • Per utilizzare la funzione Keyword Spotting basta digitare la parola che si desidera cercare nella casella "Keyword 1" e premere il pulsante "Search".

Figura 8 Ricerca di una parola chiave

  • Apparirà una finestra di conferma. Clicca su "Yes" per avviare la ricerca tramite Keyword Spotting

Figura 9 Finestra di conferma

  • Le richieste di Keyword Spotting richiedono almeno alcuni secondi per essere completate.
  • Quando nella colonna "Durata" della scheda "KWS" appare "N/A", significa che il programma è ancora in fase di ricerca.
  • Una volta che il processo è finito, il valore "Duration" cambierà in base alla durata per completare la ricerca.

Figura 10 Keyword Spotting in corso

  • Fai doppio clic sulla data e sul valore numerico nella colonna "Created" per accedere ai risultati della tua ricerca

Figura 11 Risultati Keyword Spotting

  • La finestra "Keyword Spotting Results" vi mostrerà una lista di luoghi dove appare quella parola chiave, con le seguenti informazioni:
    • Il livello di fiducia dei singoli risultati (tra 0 e 1).
    • Il numero della pagina del documento in cui è stata trovata la parola.
    • La trascrizione automatica in cui la parola è incorporata.
    • Un estratto dell'immagine della pagina. Quando passi il cursore su questa immagine, appare un'anteprima più grande nella parte inferiore della finestra.
    • Fai doppio clic sull'immagine nella colonna "Preview" per andare direttamente alla pagina dove appare la tua parola chiave.

Figura 12 Informazioni sui risultati del tuo Keyword Spotting

Cercare due parole chiave allo stesso tempo

  • È anche possibile cercare due parole chiave allo stesso tempo. Basta aggiungere altre parole chiave negli spazi corrispondenti nella scheda "KWS".

Figura 13 Ricerca di più parole chiave allo stesso tempo

  • I risultati per ogni parola chiave saranno visualizzati in schede separate.

Figura 14 Risultati della ricerca per parole chiave multiple

Più opzioni di ricerca

Figura 15 Opzioni di ricerca

Corrispondenze parziali

  • Se scegli questa opzione, il programma cercherà tutte le parole che contengono il testo che hai inserito nel campo di ricerca. Ad esempio, se cerchi "ity", il programma restituirà risultati come "conventionality", "proportionality", "indefensibility"ecc.

Case Sensitivity

  • Con questa funzione il sistema terrà conto delle maiuscole e delle minuscole. Ad esempio, se si cerca "Kingdom" i risultati in cui questa parola è scritta con una K maiuscola avranno un livello di fiducia (confidence) più alto.

Expert Syntax

  • Invece che cercare delle parole, puoi cercare delle espressioni regolari.
  • Alcuni esempi di ricerche per espressioni regolari sono:
    • data: .*(?[0-3][0-9].[0-1][0-9].[0-9]{4}).* corrisponde a qualsiasi riga contenente una data della forma TT.MM.JJJJ
    • abbreviazioni: .*(?Dr.|Doctor).* corrisponde a qualsiasi riga contenente Doctor e la sua abbreviazione Dr.
    • incertezze: .*(?(k|c|che|chh)rist?).* corrisponde a qualsiasi riga contenente le grafie dell'alto tedesco antico per la parola Cristo: per esempio kris, krist, crist, cherist, chhrist
  • In contrasto con l'uso standard delle espressioni regolari, i modelli di ricerca devono corrispondere all'intera linea, ad esempio .*[0-9]{4,6} corrispondono solo alle linee che terminano con un numero di almeno 4 cifre. Per permettere caratteri arbitrari dopo le 4 cifre, si deve aggiungere .* alla fine: .*[0-9]{4,6}.*
    Allo stesso modo, [0-9]{4,6}.* corrisponde solo alle linee che iniziano con 4 cifre.
  • Funzioni standard delle espressioni regolari che sono supportate dal KWS in Transkribus:. qualsiasi carattere+ una o più ripetizioni del letterale precedente* zero o più ripetizioni del letterale precedente[] classe di caratteri, per esempio [0-9] qualsiasi cifra tra 0 e 9; [aeiou]
    qualsiasi vocale; [A-Z] qualsiasi lettera maiuscola

     

    ? il letterale precedente è opzionale

    {X} ripete il precedente letterale X volte

    {X,Y} ripete il precedente letterale tra X e Y volte

    | o operazione, per esempio a|b significa o a o b

    () le parentesi sono usate per raggruppare l'espressione regolare: (a|b)c
    corrisponde a ac o bc mentre a|bc corrisponde a a o bc

    escape-operator: per abbinare ad es. un + o un . bisogna usare
    + o .

Soglia di fiducia

  • È anche possibile regolare la soglia di fiducia della tua richiesta di Keyword Spotting. Nota: questa funzione non è ancora attivata ma sarà presto disponibile.
  • La soglia di fiducia è un numero tra 0 e 1.
  • Se la soglia di fiducia è 0,5 o superiore, questo significa che il programma con grande probabilità sarà in grado di trovare le parole chiave che corrispondono alla vostra richiesta di ricerca.
  • Se la soglia di fiducia è 0,1 o inferiore, questo significa che il programma troverà più risultati possibili per la tua parola chiave, ma sarà meno sicuro di queste corrispondenze. Appariranno molti "falsi allarmi" nei tuoi risultati di ricerca e sta a te controllare la loro accuratezza.

Figura 16 Confidence Threshold (Soglia di fiducia)

Outlook

Il team di Transkribus sta attualmente lavorando per aggiornare lo strumento di KWS. Una versione futura permetterà agli utenti di convalidare i risultati delle loro ricerche e di esportare i risultati della ricerca come dati tabulari.

Crediti

Vorremmo ringraziare i molti utenti che con il loro feedback hanno contribuito a migliorare il software Transkribus.