Im Jahr 2019 wird die KB Nationalbibliothek der Niederlande begrüßte die Researcher-in-Residence-Projekt Verschlungene Geschichten Ordnungen der Niederen Lande. Innerhalb dieses Projekts untersuchten Annemieke Romein, Sara Veldoen und Michel de Gruijter die frühneuzeitliche Gesetzgebung in Bezug auf Bände gedruckter Texte. Transkribus wurde in diesem Projekt verwendet, um frühneuzeitliche gedruckte Texte (z.B. niederländische Gotik) lesbar zu machen.
Die 108 Volumina, die innerhalb von Verschlungene Historien enthielt Tausende von Regeln aus der frühen Neuzeit. Da die Indizes der verschiedenen Bände mit unterschiedlichen Standards und Schlagwörtern erstellt wurden, kann die Suche in den Texten eine Herausforderung sein, wenn sie verglichen werden sollen. Daher, Verschlungene Historien die darauf abzielten, die einzelnen Texte zu zerlegen und sie folglich nach einem kontrollierten Vokabular zu kategorisieren. Da die Segmentierung von Texten ein Bereich ist, der sich stark in der Entwicklung befindet, wurden einige Tests durchgeführt, was funktionieren würde. Um die juristischen Texte automatisch zu kategorisieren, wurde das finnische Tool Annif verwendet wurde. Dieses Tool verfügt über verschiedene Back-Ends, die eine Reihe von Optionen für die automatische Kategorisierung ermöglichen. Da das Projekt ein kontrolliertes, hierarchisches Vokabular verwendete, mussten sie ein SKOS für dieses spezielle Projekt erstellen. Obwohl Annif zuvor nicht bei hierarchischen Strukturen eingesetzt worden war, erhielten sie hervorragende Ergebnisse, obwohl sie am Ende nur 400 Texte in der Fallstudie verwendeten.
Eine solche Kombination von Techniken - Erkennung, Segmentierung und Kategorisierung - könnte auch für andere Projekte und Archive interessant sein, um einzelne Texte schnell metadatieren zu können. Wenn Sie mehr wissen wollen, können Sie sich diese aktuelle Veröffentlichung in der DHBenelux-Journal (OA) aufgerufen: Die Datafizierung der frühneuzeitlichen Verordnungen.