+ Suche in Jeremy Benthams Manuskripten mit Keyword Spotting

Das Bentham-Projekt experimentiert seit fünf Jahren mit der Handwritten Text Recognition (HTR) von Benthams Manuskripten, zunächst als Partner im tranScriptorium Projekt und jetzt als Teil von READ .

Lesen Sie über ihre Fortschritte mit HTR und unserem Transkribus Plattform in Blogbeiträgen von Juni 2017 und  Februar 2018.

Schlüsselwort-Spotting

Die Ergebnisse sind bisher beeindruckend, vor allem wenn man die immense Schwierigkeit von Benthams eigener Handschrift bedenkt. Aber die automatisierte Transkription ist noch nicht an einem Punkt, an dem sie genau genug ist, um von den Forschern des Bentham-Projekts als Grundlage für die wissenschaftliche Bearbeitung verwendet zu werden.

Der aktuelle Stand der Technik ist jedoch stark genug für die Stichwortsuche! Und dank einer Zusammenarbeit mit der PRHLT-Forschungszentrum an der Universitat Politècnica de València (ein weiterer Partner im READ-Projekt), gibt es einige spannende neue Ergebnisse zu berichten. Es ist jetzt möglich Durchsuchen Sie über 90.000 digitale Bilder der zentralen Sammlungen von Benthams Manuskripten, die bei Sondersammlungen University College London und Die Britische Bibliothek.

Eine Keyword-Spotting-Suche nach dem Wort 'pleasure'

Aufruf für Freiwillige!

Eine Google-Blatt wurde mit einigen vorgeschlagenen Suchbegriffen in 5 verschiedenen Tabellenkalkulations-Registerkarten (Benthams Neologismen, Konzepte, Personen, Orte und Sonstiges) vorbereitet. Das Bentham-Projekt ruft dazu auf, die vorgeschlagenen und einige neue Suchbegriffe online zu erfassen. Einige der Ergebnisse werden auf der kommenden Transkribus Anwenderkonferenz im November.

Hintergrund

Das PRHLT-Team hat die Bentham-Papiere mit modernster HTR- und probabilistischer Wortindizierungstechnologie bearbeitet. Diese hochentwickelte Form der Suche wird oft als Keyword Spotting bezeichnet. Sie ist leistungsfähiger als eine herkömmliche Volltextsuche, weil sie statistische Modelle verwendet, die für die Texterkennung trainiert wurden, um durch Wahrscheinlichkeitswerte zu suchen, die Zeichenfolgen (Wörtern) zugeordnet sind, wobei die meisten möglichen Lesarten jedes Wortes auf einer Seite berücksichtigt werden.

Das Ergebnis ist, dass diese riesige Sammlung von Benthams Papieren effizient durchsucht werden kann, einschließlich der Papiere, die noch nicht transkribiert worden sind! Die Genauigkeitsraten sind beeindruckend. Sie liegen bei 84-94% Genauigkeit (6-16% Zeichenfehlerrate) im Vergleich zu manuellen Transkriptionen von Benthams Manuskripten. Genauer gesagt zeigen die Labortests, dass die durchschnittliche Suchgenauigkeit der Wörter zwischen 79% und 94% liegt. Das bedeutet, dass von 100 durchschnittlichen Suchergebnissen nur bis zu 6 nicht die gesuchten Wörter sein können. Die Genauigkeit der gefundenen Wörter hängt von der Schwierigkeit von Benthams Handschrift ab - obwohl es möglich ist, nützliche Ergebnisse in Benthams Gekritzel zu finden! Es könnten bis zu 25 Millionen Wörter darauf warten, gefunden zu werden.

Eine Suche nach dem Wort "Glück" fördert Benthams berühmteste Phrase zutage, geschrieben von seiner eigenen Hand.

Anwendungsfälle

Diese fantastische Seite wird für jeden, der sich für Benthams Philosophie interessiert, von unschätzbarem Wert sein. Sie wird den Forschern des Bentham-Projekts helfen, bisher unbekannte Referenzen in Seiten zu finden, die noch nicht transkribiert worden sind. Sie wird es Forschern ermöglichen, Benthams Konzepte und Korrespondenten schnell zu recherchieren. Es soll auch den freiwilligen Transkribenten im Bentham umschreiben Initiative, um interessantes Material zum Transkribieren zu finden.

Diese Schnittstelle ist eine prototypische Beta-Version. Für die Zukunft ist geplant, die Leistungsfähigkeit dieses Recherchewerkzeugs zu erhöhen, indem es mit anderen digitalen Ressourcen verbunden wird, so dass die Benutzer die Manuskripte schnell auf der UCL-Bibliotheksspeicher, die Bentham Papiere Datenbank und das Umschreiben Bentham Umschreibepult und die Verknüpfung dieser Bilder mit reichhaltigen vorhandenen Metadaten.

Feedback zu dieser neuen Suchfunktionalität ist willkommen unter: transcribe.bentham@ucl.ac.uk

Ähnliche Keyword-Spotting-Technologie (basierend auf Untersuchungen des CITlab Team an der Universität Rostock, einem weiteren der READ-Projektpartner) ist derzeit für alle Benutzer der Transkribus-Plattform verfügbar.  Erfahren Sie mehr darüber, wie Sie mit Keyword Spotting beginnen können.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

April 17, 2024
News, Transkribus
Einer der größten Vorteile von Transkribus ist die Möglichkeit, benutzerdefinierte Modelle zur Erkennung von handschriftlichem Text zu trainieren. Diese einzigartige Funktion ...
4. April 2024
News
Der Frühling hat begonnen und damit auch die Veröffentlichung von Transkribus im April 2024. Hier ist ein kurzer Überblick über alle ...
3. April 2024
News
Man kann viel über die französische Geschichte lernen, wenn man Bücher liest oder Dokumentarfilme sieht. Diese Arten von Quellen sind gut für ...