+ Erkennen von juristischen Aufzeichnungen aus dem achtzehnten Jahrhundert am Middle Temple

Die Honourable Society of the Middle Temple ist einer von vier Inns of Court: angesehene Berufsverbände für in England tätige Barristers.

Die Archiv und Bibliothek des Middle Temple hält Aufzeichnungen des Inns vom frühen sechzehnten Jahrhundert an. Die wichtigsten Serien dieser Dokumente werden digitalisiert und online verfügbar gemacht.

Middle Temple begann 2016, Transkribus zaghaft zu erkunden. Das Inn unterzeichnete zunächst einen Memorandum of Understanding mit dem READ-Projekt und begannen dann, die Möglichkeiten des Trainings von Handwritten Text Recognition (HTR)-Modellen zur Erkennung von Dokumenten in ihren Sammlungen zu untersuchen.

Nach Diskussionen über die besten Dokumente, mit denen man beginnen sollte, entschied man sich für digitalisierte handschriftliche Aufzeichnungen des Middle Temple Verwaltungsorgans oder des Parlaments. Diese Aufzeichnungen stammen aus den Jahren 1762-1775 und wurden von mehreren sehr ähnlichen Händen geschrieben.

Eine Auswahl von 101 Bifolioseiten wurde auf Transkribus hochgeladen und vom Transkribus-Team transkribiert. David Woolley QC, ein Bencher am Middle Temple, kümmerte sich dann um das Korrekturlesen und Korrigieren jeder Seite, um sicherzustellen, dass die Transkriptionen so genau wie möglich waren.

Diese Bilder und Transkripte (etwa 80.000 transkribierte Wörter) wurden zu Trainingsdaten für die Erstellung eines HTR-Modells. Die Daten des bereits existierenden Modells "English Writing M1" wurden ebenfalls als Teil des Trainingsprozesses als "Basismodell" einbezogen. Die Das Modell 'English Writing M1' ist darauf trainiert, die Schrift des englischen Philosophen Jeremy Bentham (1748 - 1832) und seiner Sekretäre zu erkennen - Es steht allen Transkribus-Anwendern für ihre Experimente frei zur Verfügung.

Das resultierende HTR-Modell kann Transkripte von Bildern aus dem Testset mit einer sehr niedrigen Zeichenfehlerrate von 3,31% erzeugen. Dies ist ein erstaunliches Ergebnis! Automatisierte Transkripte mit einer so niedrigen Fehlerrate werden sofort zu einer nützlichen Forschungsressource.

Automatisierte Transkription einer Seite aus den Middle Temple Records.

Das Team am Middle Temple hat außerdem ein Wörterbuch erstellt, das auf einem ihrer "Bench Books" basiert und wiederkehrende Namen, Abkürzungen und ungewöhnliche Begriffe auflistet. Dieses Wörterbuch soll hoffentlich die Qualität der Erkennung verbessern.

Middle Temple erforscht nun Möglichkeiten, auf dieser ersten großen Errungenschaft aufzubauen, indem diese Abschriften den Forschern in einer durchsuchbaren Datenbank zur Verfügung gestellt werden.

Dank an Lesley Whitelaw, Barnaby Bryan und David Woolley am Middle Temple und Stuart Dunn am King's College London für diese Zusammenarbeit.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juli 4, 2022
HTR-Modelle
Der jüngste Neuzugang in der langen Liste der öffentlichen Transkribus-Modelle stammt aus dem norwegischen Nationalarchiv. Dank der ...
Juni 20, 2022
Transkribus
Von Joe Nockels, Universität Edinburgh Im Rahmen seiner Doktorarbeit an der Universität Edinburgh und der Nationalbibliothek ...
Juni 15, 2022
Transkribus, Webinare
Wir freuen uns, unsere neue "Ask Us Anything"-Webinarreihe zu starten, in der die Teilnehmer uns alles fragen können, was mit ...