Il futuro dell'estrazione delle informazioni - Partecipa al progetto TUC 2024! ✨ 15-16 febbraio, di persona e online. Ottieni il tuo biglietto >>

×

SOLR Keyword Spotting | API

Questa ricerca è possibile solo se l'HTR è stato post-processato (tipicamente da UPVLC, contattare info@readcoop.eu per domande)


La ricerca di parole chiave attraverso l'indice SOLR può essere fatta tramite una richiesta GET a

https://transkribus.eu/TrpServer/rest/keyword

con i seguenti parametri:

  • query stringa - la parola chiave da cercare
  • start int (predefinito: 0) - primo risultato
  • rows int (predefinito: 10) - numero di risultati successivi da recuperare
    • Al fine di elaborare grandi quantità di risultati, SOLR permette di definire un determinato risultato e mostrare solo i successivi risultati N da lì in poi. Questo può essere usato per sfogliare i risultati in base alla pagina (ad esempio, la prima pagina inizia a 0 e mostra 10 risultati, la pagina successiva inizia a 11 e mostra i successivi 10 ecc.)
  • probL float - limite inferiore per la probabilità della parola chiave (di solito tra 0,0 e 1,0)
  • probL float - limite superiore per la probabilità della parola chiave (di solito 1.0)
    • Ogni parola chiave è memorizzata con un valore di probabilità. È possibile limitare le ricerche ai risultati al di sopra o al di sotto di una certa probabilità. (Nota: attualmente, le probabilità delle parole chiave sono memorizzate direttamente come fornite. Per trasformare queste probabilità in vere probabilità di rilevanza, è necessaria una funzione di calibrazione nell'interfaccia utente).
  • filter stringa - permette di specificare certi campi e valori per filtrare i risultati della ricerca (può prendere più valori come in ...&filter=cId:1895&filter=id:4243_221_*...)
    • i campi da filtrare sono
    • id: (stringa) id dell'elemento dell'indice, composto dall'id del documento, dal numero di pagina e da un numero corrente per la parola nella pagina, separati da trattini bassi -> ad esempio 4432_15_10 sarebbe la parola 10 a pagina 15 del documento 4432. Impostando una stringa di filtro a 4432_15_* si limiterebbe la ricerca a questo documento e pagina; *_20_* limiterebbe la ricerca alla pagina 20 di qualsiasi documento.
    • title: (stringa) titolo del documento
    • cId: (int) id della collezione
    • auth: (stringa) nome dell'autore
  • fuzzy: int - accetta tutti i valori interi, ma SOLR attualmente supporta solo valori tra 0 e 2
    • SOLR permette di includere risultati che differiscono per un certo numero di caratteri.
  • sorting stringa - permette di ordinare per certi campi. (di solito "rp desc" per mostrare i risultati con probabilità decrescente)

Esempio:

Ricerca della parola chiave "london" nella collezione 1234 con qualsiasi probabilità, visualizzando i primi 100 risultati ordinati per probabilità decrescente.

https://transkribus.eu/TrpServerTesting/rest/search/keyword?query=london&start=0&rows=100&probL=0.0&probH=1.0&filter=cId:1234&fuzzy=0&sorting=rp+desc