Das Modell basiert auf einer Auswahl spätmittelalterlicher deutscher Handschriften aus dem fünfzehnten und sechzehnten Jahrhundert. Mit einem geographischen Schwerpunkt auf Österreich und dem hanseatischen Ostseeraum sind sowohl mittelniederdeutsche als auch frühneuhochdeutsche Texte im Übungsmaterial vertreten. Unter den verwendeten Schriftarten sind die gotische Kursive, die Bastarda und die frühe Kurrent am häufigsten vertreten.
Der Trainingsdatensatz besteht aus etwa 77.000 Wörtern. Die Basisdaten wurden aus mehreren Projekten zusammengestellt, die derzeit in verschiedenen Einrichtungen durchgeführt werden. Das Ziel ist es, diesen Datensatz in Zukunft erheblich zu erweitern und zu diversifizieren, um ein generisches Modell zu trainieren. Das aktuelle Modell hat daher den Status eines Prototyps mit einem CER von 5,60% auf einem Validierungsset.
Kontakt: j.helmchen@fu-berlin.de
Abbildung: WStLA 2.1.2.1.B1.6b.2 - Gewährbuch C, fol. 292r (1420)