Nel 2019 il KB Biblioteca Nazionale dei Paesi Bassi ha accolto con favore il Progetto di ricercatore in residenza Storie ingarbugliate Ordinanze dei Paesi Bassi. All'interno di questo progetto, Annemieke Romein, Sara Veldoen e Michel de Gruijter hanno studiato la prima legislazione moderna, per quanto riguarda i volumi di testi stampati. Transkribus è stato usato in questo progetto per rendere leggibili i testi stampati della prima età moderna (per esempio il gotico olandese).
I 108 volumi che sono stati utilizzati all'interno di Storie intrecciate conteneva migliaia di regole della prima epoca moderna. Poiché gli indici dei vari volumi sono stati creati con diversi standard e parole chiave, la ricerca attraverso i testi può essere difficile se devono essere confrontati. Quindi, Storie intrecciate mirato a sezionare i singoli testi e di conseguenza a categorizzarli secondo un vocabolario controllato. Poiché la segmentazione dei testi è un campo che è fortemente in sviluppo, sono stati fatti un paio di test su ciò che avrebbe funzionato. Per categorizzare automaticamente i testi giuridici, lo strumento finlandese Annif è stato utilizzato. Questo strumento ha vari back-end che permettono una serie di opzioni per la categorizzazione automatica. Poiché il progetto utilizzava un vocabolario controllato e gerarchico, hanno dovuto creare uno SKOS per questo progetto specifico. Anche se Annif non era mai stato usato prima in strutture gerarchiche, hanno ottenuto risultati eccellenti anche se hanno finito per usare solo 400 testi nel caso di studio.
Una tale combinazione di tecniche - riconoscimento, segmentazione e categorizzazione - potrebbe essere interessante anche per altri progetti e archivi per poter metadatare rapidamente i singoli testi. Se volete saperne di più, potete dare un'occhiata a queste recenti pubblicazioni nel Gazzetta DHBenelux (OA) chiamato: La datazione delle prime ordinanze moderne.