Die Zukunft der Informationsextraktion - Nehmen Sie teil an TUC 2024! 15. und 16. Februar, persönlich und online. Holen Sie sich Ihr Ticket >>

×

SOLR Keyword Spotting | API

Diese Suche ist nur möglich, wenn der HTR nachbearbeitet wurde (typischerweise durch UPVLC, Kontakt info@readcoop.eu für Fragen)


Die Suche nach Schlüsselwörtern über den SOLR-Index kann über eine GET-Anfrage an

https://transkribus.eu/TrpServer/rest/keyword

mit den folgenden Parametern:

  • query string - das Schlüsselwort, nach dem gesucht werden soll
  • start int (Standard: 0) - erstes Ergebnis
  • rows int (Standard: 10) - Anzahl der zu holenden aufeinanderfolgenden Ergebnisse
    • Um große Mengen von Treffern zu verarbeiten, erlaubt SOLR, bei einem bestimmten Treffer zu definieren und nur die nächsten N Treffer von dort an anzuzeigen. Dies kann verwendet werden, um Ergebnisse seitenweise zu durchsuchen (z. B. die erste Seite beginnt bei 0 und zeigt 10 Ergebnisse, die nächste Seite beginnt bei 11 und zeigt die nächsten 10 usw.)
  • probL Float - untere Grenze für die Schlüsselwortwahrscheinlichkeit (normalerweise zwischen 0,0 und 1,0)
  • probL float - oberer Grenzwert für die Schlüsselwortwahrscheinlichkeit (normalerweise 1,0)
    • Jedes Stichwort wird mit einem Wahrscheinlichkeitswert gespeichert. Es ist möglich, die Suche auf Ergebnisse über oder unter einer bestimmten Wahrscheinlichkeit zu beschränken. (Hinweis: Zurzeit werden die Schlagwortwahrscheinlichkeiten direkt als Vorgabe gespeichert. Um diese Wahrscheinlichkeiten in echte Relevanzwahrscheinlichkeiten umzuwandeln, ist eine Kalibrierungsfunktion in der Benutzeroberfläche erforderlich).
  • filter string - erlaubt die Angabe bestimmter Felder und Werte zum Filtern der Suchergebnisse (kann mehrere Werte annehmen wie in ...&filter=cId:1895&filter=id:4243_221_*...)
    • Felder, nach denen gefiltert werden kann, sind
    • id: (String) Indexelement-ID, bestehend aus Dokument-ID, Seitennummer und einer laufenden Nummer für das Wort auf der Seite, getrennt durch Unterstriche -> z. B. 4432_15_10 wäre Wort 10 auf Seite 15 des Dokuments 4432. Das Setzen einer Filterzeichenfolge auf 4432_15_* würde die Suche auf dieses Dokument und diese Seite beschränken; *_20_* würde die Suche auf Seite 20 eines beliebigen Dokuments beschränken.
    • title: (string) Titel des Dokuments
    • cId: (int) Sammlung id
    • auth: (string) Name des Autors
  • fuzzyint - nimmt alle ganzzahligen Werte an, aber SOLR unterstützt derzeit nur Werte zwischen 0 und 2
    • SOLR erlaubt es, Ergebnisse einzuschließen, die sich in einer bestimmten Anzahl von Zeichen unterscheiden.
  • sorting string - ermöglicht die Sortierung nach bestimmten Feldern. (normalerweise "rp desc", um Ergebnisse mit absteigender Wahrscheinlichkeit anzuzeigen)

Beispiel:

Suche nach dem Schlüsselwort "london" in der Sammlung 1234 mit beliebiger Wahrscheinlichkeit, wobei die ersten 100 Ergebnisse nach absteigender Wahrscheinlichkeit sortiert angezeigt werden.

https://transkribus.eu/TrpServerTesting/rest/search/keyword?query=london&start=0&rows=100&probL=0.0&probH=1.0&filter=cId:1234&fuzzy=0&sorting=rp+desc