+ Erkennen von juristischen Aufzeichnungen aus dem achtzehnten Jahrhundert am Middle Temple

Die Honourable Society of the Middle Temple ist einer von vier Inns of Court: angesehene Berufsverbände für in England tätige Barristers.

Die Archiv und Bibliothek des Middle Temple hält Aufzeichnungen des Inns vom frühen sechzehnten Jahrhundert an. Die wichtigsten Serien dieser Dokumente werden digitalisiert und online verfügbar gemacht.

Middle Temple begann 2016, Transkribus zaghaft zu erkunden. Das Inn unterzeichnete zunächst einen Memorandum of Understanding mit dem READ-Projekt und begannen dann, die Möglichkeiten des Trainings von Handwritten Text Recognition (HTR)-Modellen zur Erkennung von Dokumenten in ihren Sammlungen zu untersuchen.

Nach Diskussionen über die besten Dokumente, mit denen man beginnen sollte, entschied man sich für digitalisierte handschriftliche Aufzeichnungen des Middle Temple Verwaltungsorgans oder des Parlaments. Diese Aufzeichnungen stammen aus den Jahren 1762-1775 und wurden von mehreren sehr ähnlichen Händen geschrieben.

Eine Auswahl von 101 Bifolioseiten wurde auf Transkribus hochgeladen und vom Transkribus-Team transkribiert. David Woolley QC, ein Bencher am Middle Temple, kümmerte sich dann um das Korrekturlesen und Korrigieren jeder Seite, um sicherzustellen, dass die Transkriptionen so genau wie möglich waren.

Diese Bilder und Transkripte (etwa 80.000 transkribierte Wörter) wurden zu Trainingsdaten für die Erstellung eines HTR-Modells. Die Daten des bereits existierenden Modells "English Writing M1" wurden ebenfalls als Teil des Trainingsprozesses als "Basismodell" einbezogen. Die Das Modell 'English Writing M1' ist darauf trainiert, die Schrift des englischen Philosophen Jeremy Bentham (1748 - 1832) und seiner Sekretäre zu erkennen - Es steht allen Transkribus-Anwendern für ihre Experimente frei zur Verfügung.

Das resultierende HTR-Modell kann Transkripte von Bildern aus dem Testset mit einer sehr niedrigen Zeichenfehlerrate von 3,31% erzeugen. Dies ist ein erstaunliches Ergebnis! Automatisierte Transkripte mit einer so niedrigen Fehlerrate werden sofort zu einer nützlichen Forschungsressource.

Automatisierte Transkription einer Seite aus den Middle Temple Records.

Das Team am Middle Temple hat außerdem ein Wörterbuch erstellt, das auf einem ihrer "Bench Books" basiert und wiederkehrende Namen, Abkürzungen und ungewöhnliche Begriffe auflistet. Dieses Wörterbuch soll hoffentlich die Qualität der Erkennung verbessern.

Middle Temple erforscht nun Möglichkeiten, auf dieser ersten großen Errungenschaft aufzubauen, indem diese Abschriften den Forschern in einer durchsuchbaren Datenbank zur Verfügung gestellt werden.

Dank an Lesley Whitelaw, Barnaby Bryan und David Woolley am Middle Temple und Stuart Dunn am King's College London für diese Zusammenarbeit.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

April 17, 2024
News, Transkribus
Einer der größten Vorteile von Transkribus ist die Möglichkeit, benutzerdefinierte Modelle zur Erkennung von handschriftlichem Text zu trainieren. Diese einzigartige Funktion ...
4. April 2024
News
Der Frühling hat begonnen und damit auch die Veröffentlichung von Transkribus im April 2024. Hier ist ein kurzer Überblick über alle ...
3. April 2024
News
Man kann viel über die französische Geschichte lernen, wenn man Bücher liest oder Dokumentarfilme sieht. Diese Arten von Quellen sind gut für ...