+ Erkennen von juristischen Aufzeichnungen aus dem achtzehnten Jahrhundert am Middle Temple

Die Honourable Society of the Middle Temple ist einer von vier Inns of Court: angesehene Berufsverbände für in England tätige Barristers.

Die Archiv und Bibliothek des Middle Temple hält Aufzeichnungen des Inns vom frühen sechzehnten Jahrhundert an. Die wichtigsten Serien dieser Dokumente werden digitalisiert und online verfügbar gemacht.

Middle Temple begann 2016, Transkribus zaghaft zu erkunden. Das Inn unterzeichnete zunächst einen Memorandum of Understanding mit dem READ-Projekt und begannen dann, die Möglichkeiten des Trainings von Handwritten Text Recognition (HTR)-Modellen zur Erkennung von Dokumenten in ihren Sammlungen zu untersuchen.

Nach Diskussionen über die besten Dokumente, mit denen man beginnen sollte, entschied man sich für digitalisierte handschriftliche Aufzeichnungen des Middle Temple Verwaltungsorgans oder des Parlaments. Diese Aufzeichnungen stammen aus den Jahren 1762-1775 und wurden von mehreren sehr ähnlichen Händen geschrieben.

Eine Auswahl von 101 Bifolioseiten wurde auf Transkribus hochgeladen und vom Transkribus-Team transkribiert. David Woolley QC, ein Bencher am Middle Temple, kümmerte sich dann um das Korrekturlesen und Korrigieren jeder Seite, um sicherzustellen, dass die Transkriptionen so genau wie möglich waren.

Diese Bilder und Transkripte (etwa 80.000 transkribierte Wörter) wurden zu Trainingsdaten für die Erstellung eines HTR-Modells. Die Daten des bereits existierenden Modells "English Writing M1" wurden ebenfalls als Teil des Trainingsprozesses als "Basismodell" einbezogen. Die Das Modell 'English Writing M1' ist darauf trainiert, die Schrift des englischen Philosophen Jeremy Bentham (1748 - 1832) und seiner Sekretäre zu erkennen - Es steht allen Transkribus-Anwendern für ihre Experimente frei zur Verfügung.

Das resultierende HTR-Modell kann Transkripte von Bildern aus dem Testset mit einer sehr niedrigen Zeichenfehlerrate von 3,31% erzeugen. Dies ist ein erstaunliches Ergebnis! Automatisierte Transkripte mit einer so niedrigen Fehlerrate werden sofort zu einer nützlichen Forschungsressource.

Automatisierte Transkription einer Seite aus den Middle Temple Records.

Das Team am Middle Temple hat außerdem ein Wörterbuch erstellt, das auf einem ihrer "Bench Books" basiert und wiederkehrende Namen, Abkürzungen und ungewöhnliche Begriffe auflistet. Dieses Wörterbuch soll hoffentlich die Qualität der Erkennung verbessern.

Middle Temple erforscht nun Möglichkeiten, auf dieser ersten großen Errungenschaft aufzubauen, indem diese Abschriften den Forschern in einer durchsuchbaren Datenbank zur Verfügung gestellt werden.

Dank an Lesley Whitelaw, Barnaby Bryan und David Woolley am Middle Temple und Stuart Dunn am King's College London für diese Zusammenarbeit.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

19. September 2023
Transkribus
Wir freuen uns, die Veröffentlichung der Transkribus-Web-App im September 2023 bekannt geben zu können. Nach der erfolgreichen Umstellung auf die ...
30. August 2023
News, Transkribus
Heute ist die neue Transkribus Web-App offiziell gestartet! Transkribus hat schon immer daran gearbeitet, die Digitalisierung und Transkription von ...
21. August 2023
Transkribus Anwenderkonferenz
Die Transkribus User Conference 24 (15. und 16. Februar 2024, Innsbruck) lädt Interessierte, Nutzer, Wissenschaftler und Enthusiasten ein, sich mit dem ...