Das Bentham-Projekt experimentiert seit fünf Jahren mit der Handwritten Text Recognition (HTR) von Benthams Manuskripten, zunächst als Partner im tranScriptorium Projekt und jetzt als Teil von READ .
Lesen Sie über ihre Fortschritte mit HTR und unserem Transkribus Plattform in Blogbeiträgen von Juni 2017 und Februar 2018.
Schlüsselwort-Spotting
Die Ergebnisse sind bisher beeindruckend, vor allem wenn man die immense Schwierigkeit von Benthams eigener Handschrift bedenkt. Aber die automatisierte Transkription ist noch nicht an einem Punkt, an dem sie genau genug ist, um von den Forschern des Bentham-Projekts als Grundlage für die wissenschaftliche Bearbeitung verwendet zu werden.
Der aktuelle Stand der Technik ist jedoch stark genug für die Stichwortsuche! Und dank einer Zusammenarbeit mit der PRHLT-Forschungszentrum an der Universitat Politècnica de València (ein weiterer Partner im READ-Projekt), gibt es einige spannende neue Ergebnisse zu berichten. Es ist jetzt möglich Durchsuchen Sie über 90.000 digitale Bilder der zentralen Sammlungen von Benthams Manuskripten, die bei Sondersammlungen University College London und Die Britische Bibliothek.
- Beginnen Sie mit der Suche!
- Richtlinien für die Suche
- Halten Sie Ihre Recherchen auf dem Google-Blatt des Bentham-Projekts fest
Aufruf für Freiwillige!
Eine Google-Blatt wurde mit einigen vorgeschlagenen Suchbegriffen in 5 verschiedenen Tabellenkalkulations-Registerkarten (Benthams Neologismen, Konzepte, Personen, Orte und Sonstiges) vorbereitet. Das Bentham-Projekt ruft dazu auf, die vorgeschlagenen und einige neue Suchbegriffe online zu erfassen. Einige der Ergebnisse werden auf der kommenden Transkribus Anwenderkonferenz im November.
Hintergrund
Das PRHLT-Team hat die Bentham-Papiere mit modernster HTR- und probabilistischer Wortindizierungstechnologie bearbeitet. Diese hochentwickelte Form der Suche wird oft als Keyword Spotting bezeichnet. Sie ist leistungsfähiger als eine herkömmliche Volltextsuche, weil sie statistische Modelle verwendet, die für die Texterkennung trainiert wurden, um durch Wahrscheinlichkeitswerte zu suchen, die Zeichenfolgen (Wörtern) zugeordnet sind, wobei die meisten möglichen Lesarten jedes Wortes auf einer Seite berücksichtigt werden.
Das Ergebnis ist, dass diese riesige Sammlung von Benthams Papieren effizient durchsucht werden kann, einschließlich der Papiere, die noch nicht transkribiert worden sind! Die Genauigkeitsraten sind beeindruckend. Sie liegen bei 84-94% Genauigkeit (6-16% Zeichenfehlerrate) im Vergleich zu manuellen Transkriptionen von Benthams Manuskripten. Genauer gesagt zeigen die Labortests, dass die durchschnittliche Suchgenauigkeit der Wörter zwischen 79% und 94% liegt. Das bedeutet, dass von 100 durchschnittlichen Suchergebnissen nur bis zu 6 nicht die gesuchten Wörter sein können. Die Genauigkeit der gefundenen Wörter hängt von der Schwierigkeit von Benthams Handschrift ab - obwohl es möglich ist, nützliche Ergebnisse in Benthams Gekritzel zu finden! Es könnten bis zu 25 Millionen Wörter darauf warten, gefunden zu werden.
Anwendungsfälle
Diese fantastische Seite wird für jeden, der sich für Benthams Philosophie interessiert, von unschätzbarem Wert sein. Sie wird den Forschern des Bentham-Projekts helfen, bisher unbekannte Referenzen in Seiten zu finden, die noch nicht transkribiert worden sind. Sie wird es Forschern ermöglichen, Benthams Konzepte und Korrespondenten schnell zu recherchieren. Es soll auch den freiwilligen Transkribenten im Bentham umschreiben Initiative, um interessantes Material zum Transkribieren zu finden.
Diese Schnittstelle ist eine prototypische Beta-Version. Für die Zukunft ist geplant, die Leistungsfähigkeit dieses Recherchewerkzeugs zu erhöhen, indem es mit anderen digitalen Ressourcen verbunden wird, so dass die Benutzer die Manuskripte schnell auf der UCL-Bibliotheksspeicher, die Bentham Papiere Datenbank und das Umschreiben Bentham Umschreibepult und die Verknüpfung dieser Bilder mit reichhaltigen vorhandenen Metadaten.
Feedback zu dieser neuen Suchfunktionalität ist willkommen unter: transcribe.bentham@ucl.ac.uk
Ähnliche Keyword-Spotting-Technologie (basierend auf Untersuchungen des CITlab Team an der Universität Rostock, einem weiteren der READ-Projektpartner) ist derzeit für alle Benutzer der Transkribus-Plattform verfügbar. Erfahren Sie mehr darüber, wie Sie mit Keyword Spotting beginnen können.