Die Zukunft der Informationsextraktion - Nehmen Sie teil an TUC 2024! 15. und 16. Februar, persönlich und online. Holen Sie sich Ihr Ticket >>

+ Erkennen von juristischen Aufzeichnungen aus dem achtzehnten Jahrhundert am Middle Temple

Die Honourable Society of the Middle Temple ist einer von vier Inns of Court: angesehene Berufsverbände für in England tätige Barristers.

Die Archiv und Bibliothek des Middle Temple hält Aufzeichnungen des Inns vom frühen sechzehnten Jahrhundert an. Die wichtigsten Serien dieser Dokumente werden digitalisiert und online verfügbar gemacht.

Middle Temple begann 2016, Transkribus zaghaft zu erkunden. Das Inn unterzeichnete zunächst einen Memorandum of Understanding mit dem READ-Projekt und begannen dann, die Möglichkeiten des Trainings von Handwritten Text Recognition (HTR)-Modellen zur Erkennung von Dokumenten in ihren Sammlungen zu untersuchen.

Nach Diskussionen über die besten Dokumente, mit denen man beginnen sollte, entschied man sich für digitalisierte handschriftliche Aufzeichnungen des Middle Temple Verwaltungsorgans oder des Parlaments. Diese Aufzeichnungen stammen aus den Jahren 1762-1775 und wurden von mehreren sehr ähnlichen Händen geschrieben.

Eine Auswahl von 101 Bifolioseiten wurde auf Transkribus hochgeladen und vom Transkribus-Team transkribiert. David Woolley QC, ein Bencher am Middle Temple, kümmerte sich dann um das Korrekturlesen und Korrigieren jeder Seite, um sicherzustellen, dass die Transkriptionen so genau wie möglich waren.

Diese Bilder und Transkripte (etwa 80.000 transkribierte Wörter) wurden zu Trainingsdaten für die Erstellung eines HTR-Modells. Die Daten des bereits existierenden Modells "English Writing M1" wurden ebenfalls als Teil des Trainingsprozesses als "Basismodell" einbezogen. Die Das Modell 'English Writing M1' ist darauf trainiert, die Schrift des englischen Philosophen Jeremy Bentham (1748 - 1832) und seiner Sekretäre zu erkennen - Es steht allen Transkribus-Anwendern für ihre Experimente frei zur Verfügung.

Das resultierende HTR-Modell kann Transkripte von Bildern aus dem Testset mit einer sehr niedrigen Zeichenfehlerrate von 3,31% erzeugen. Dies ist ein erstaunliches Ergebnis! Automatisierte Transkripte mit einer so niedrigen Fehlerrate werden sofort zu einer nützlichen Forschungsressource.

Automatisierte Transkription einer Seite aus den Middle Temple Records.

Das Team am Middle Temple hat außerdem ein Wörterbuch erstellt, das auf einem ihrer "Bench Books" basiert und wiederkehrende Namen, Abkürzungen und ungewöhnliche Begriffe auflistet. Dieses Wörterbuch soll hoffentlich die Qualität der Erkennung verbessern.

Middle Temple erforscht nun Möglichkeiten, auf dieser ersten großen Errungenschaft aufzubauen, indem diese Abschriften den Forschern in einer durchsuchbaren Datenbank zur Verfügung gestellt werden.

Dank an Lesley Whitelaw, Barnaby Bryan und David Woolley am Middle Temple und Stuart Dunn am King's College London für diese Zusammenarbeit.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Feber 22, 2024
Uncategorized
Spannende Neuigkeiten für Liebhaber und Forscher der niederländischen Geschichte! Nach der Ankündigung auf der Transkribus-Nutzerkonferenz 24 in der vergangenen Woche, wird die neue ...
Jänner 31, 2024
News
Wir freuen uns, die neuesten Aktualisierungen unseres Dokumenten-Editors anzukündigen, die Ihnen eine intuitivere und übersichtlichere Benutzeroberfläche bieten. Unser ...
Jänner 17, 2024
News, Transkribus
Muss ich handgeschriebenen Text transkribieren oder übersetzen, um mit ihm arbeiten zu können? Nun, das hängt davon ab ...