Questa ricerca è possibile solo se l'HTR è stato post-processato (tipicamente da UPVLC, contattare info@readcoop.eu per domande)
La ricerca di parole chiave attraverso l'indice SOLR può essere fatta tramite una richiesta GET a
https://transkribus.eu/TrpServer/rest/keyword
con i seguenti parametri:
query
stringa - la parola chiave da cercarestart
int (predefinito: 0) - primo risultatorows
int (predefinito: 10) - numero di risultati successivi da recuperare- Al fine di elaborare grandi quantità di risultati, SOLR permette di definire un determinato risultato e mostrare solo i successivi risultati N da lì in poi. Questo può essere usato per sfogliare i risultati in base alla pagina (ad esempio, la prima pagina inizia a 0 e mostra 10 risultati, la pagina successiva inizia a 11 e mostra i successivi 10 ecc.)
probL
float - limite inferiore per la probabilità della parola chiave (di solito tra 0,0 e 1,0)probL
float - limite superiore per la probabilità della parola chiave (di solito 1.0)- Ogni parola chiave è memorizzata con un valore di probabilità. È possibile limitare le ricerche ai risultati al di sopra o al di sotto di una certa probabilità. (Nota: attualmente, le probabilità delle parole chiave sono memorizzate direttamente come fornite. Per trasformare queste probabilità in vere probabilità di rilevanza, è necessaria una funzione di calibrazione nell'interfaccia utente).
filter
stringa - permette di specificare certi campi e valori per filtrare i risultati della ricerca (può prendere più valori come in ...&filter=cId:1895&filter=id:4243_221_*...)- i campi da filtrare sono
id
: (stringa) id dell'elemento dell'indice, composto dall'id del documento, dal numero di pagina e da un numero corrente per la parola nella pagina, separati da trattini bassi -> ad esempio 4432_15_10 sarebbe la parola 10 a pagina 15 del documento 4432. Impostando una stringa di filtro a 4432_15_* si limiterebbe la ricerca a questo documento e pagina; *_20_* limiterebbe la ricerca alla pagina 20 di qualsiasi documento.title
: (stringa) titolo del documentocId
: (int) id della collezioneauth
: (stringa) nome dell'autore
fuzzy
: int - accetta tutti i valori interi, ma SOLR attualmente supporta solo valori tra 0 e 2- SOLR permette di includere risultati che differiscono per un certo numero di caratteri.
sorting
stringa - permette di ordinare per certi campi. (di solito "rp desc" per mostrare i risultati con probabilità decrescente)
Esempio:
Ricerca della parola chiave "london" nella collezione 1234 con qualsiasi probabilità, visualizzando i primi 100 risultati ordinati per probabilità decrescente.
https://transkribus.eu/TrpServerTesting/rest/search/keyword?query=london&start=0&rows=100&probL=0.0&probH=1.0&filter=cId:1234&fuzzy=0&sorting=rp+desc