+ Erkennen von juristischen Aufzeichnungen aus dem achtzehnten Jahrhundert am Middle Temple

Die Honourable Society of the Middle Temple ist einer von vier Inns of Court: angesehene Berufsverbände für in England tätige Barristers.

Die Archiv und Bibliothek des Middle Temple hält Aufzeichnungen des Inns vom frühen sechzehnten Jahrhundert an. Die wichtigsten Serien dieser Dokumente werden digitalisiert und online verfügbar gemacht.

Middle Temple begann 2016, Transkribus zaghaft zu erkunden. Das Inn unterzeichnete zunächst einen Memorandum of Understanding mit dem READ-Projekt und begannen dann, die Möglichkeiten des Trainings von Handwritten Text Recognition (HTR)-Modellen zur Erkennung von Dokumenten in ihren Sammlungen zu untersuchen.

Nach Diskussionen über die besten Dokumente, mit denen man beginnen sollte, entschied man sich für digitalisierte handschriftliche Aufzeichnungen des Middle Temple Verwaltungsorgans oder des Parlaments. Diese Aufzeichnungen stammen aus den Jahren 1762-1775 und wurden von mehreren sehr ähnlichen Händen geschrieben.

Eine Auswahl von 101 Bifolioseiten wurde auf Transkribus hochgeladen und vom Transkribus-Team transkribiert. David Woolley QC, ein Bencher am Middle Temple, kümmerte sich dann um das Korrekturlesen und Korrigieren jeder Seite, um sicherzustellen, dass die Transkriptionen so genau wie möglich waren.

Diese Bilder und Transkripte (etwa 80.000 transkribierte Wörter) wurden zu Trainingsdaten für die Erstellung eines HTR-Modells. Die Daten des bereits existierenden Modells "English Writing M1" wurden ebenfalls als Teil des Trainingsprozesses als "Basismodell" einbezogen. Die Das Modell 'English Writing M1' ist darauf trainiert, die Schrift des englischen Philosophen Jeremy Bentham (1748 - 1832) und seiner Sekretäre zu erkennen - Es steht allen Transkribus-Anwendern für ihre Experimente frei zur Verfügung.

Das resultierende HTR-Modell kann Transkripte von Bildern aus dem Testset mit einer sehr niedrigen Zeichenfehlerrate von 3,31% erzeugen. Dies ist ein erstaunliches Ergebnis! Automatisierte Transkripte mit einer so niedrigen Fehlerrate werden sofort zu einer nützlichen Forschungsressource.

Automatisierte Transkription einer Seite aus den Middle Temple Records.

Das Team am Middle Temple hat außerdem ein Wörterbuch erstellt, das auf einem ihrer "Bench Books" basiert und wiederkehrende Namen, Abkürzungen und ungewöhnliche Begriffe auflistet. Dieses Wörterbuch soll hoffentlich die Qualität der Erkennung verbessern.

Middle Temple erforscht nun Möglichkeiten, auf dieser ersten großen Errungenschaft aufzubauen, indem diese Abschriften den Forschern in einer durchsuchbaren Datenbank zur Verfügung gestellt werden.

Dank an Lesley Whitelaw, Barnaby Bryan und David Woolley am Middle Temple und Stuart Dunn am King's College London für diese Zusammenarbeit.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

November 17, 2022
Transkribus
Wir freuen uns sehr, Ihnen mitteilen zu können, dass wir gestern 100.000 Nutzer auf der Transkribus-Plattform erreicht haben! Trotz unserer jahrelangen, sehr ...
August 12, 2022
Erkennung von handgeschriebenem Text
Hatten Sie schon einmal Probleme, die Handschrift einer anderen Person zu lesen? Vielleicht beruhigt es Sie zu wissen, dass es nicht nur Menschen sind, die ...
22. Juli 2022
Uncategorized
Die neueste Version von Transkribus Lite ist da und bringt eine Reihe von neuen Funktionen. Hier sind die wichtigsten ...