Das Modell basiert auf den Grundbüchern der Stadt Wien aus dem 15. und frühen 16. Jahrhundert. Diese sind Teil der Stadtbücher. Darin wurden alle Immobilientransaktionen festgehalten, bei denen ein Grundstück den Besitzer wechselte, etwa durch Kauf oder Erbschaft. Die Einträge folgen einer nur geringfügig variierenden Form, weshalb der im Lehrmaterial vertretene Wortschatz begrenzt ist.
Die Einträge wurden in Frühneuhochdeutsch mit einigen lateinischen Ausdrücken verfasst. Die verwendeten Schriftarten sind spätgotische Minuskeln, Bastarda und eine sehr frühe Kurrent.
Das Schulungsmaterial besteht aus 1228264 Wörtern, was etwa 3500 Seiten entspricht. The Ground Truth wurde im Rahmen des DFG-geförderten Forschungsprojekts Kartierung des mittelalterlichen Wiendie sich auf die Analyse des Inhalts der Quellen konzentriert. Die Transkriptionsrichtlinien zielen daher darauf ab, die Lesbarkeit zu vereinfachen.
Abkürzungen wurden aufgelöst und die mittelalterliche Zeichensetzung weggelassen. Die Buchstaben werden immer in ihrer Grundform transkribiert, diakritische Zeichen wurden nicht berücksichtigt, und es wurde nicht zwischen langen und runden "s" unterschieden. Die folgenden Abkürzungen wurden für Währungssymbole verwendet:
tl. = Pfund, s. = Schilling, d. = Pfenning, fl. = Gulden. Aufgrund der Homogenität des Ausgangskorpus erreicht das Modell eine CER von 1,50% auf einem Validierungsset.
Kontakt: j.helmchen@fu-berlin.de
Abbildung: WStLA 2.1.2.1.B1.8 - Gewährbuch E, fol. 74v (1478)
Deutsche Beschreibung:
Grundlage des Modells sind die Kauf- und Gewerbbücher der Stadt Wien aus dem 15. und frühen 16. Jahrhundert. Bei diesen handelt es sich um einen Teil der Stadtbücher. Eingetragen wurden in sie sämtliche Immobilientransaktionen, in denen eine Liegenschaft den Besitz wechselte, etwa durch ein Kaufgeschäft oder eine Erbschaft. Die Einträge folgen einem nur wenig variierenden Formular, weshalb das im Trainingsmaterial repräsentierte Vokabular eingeschränkt ist.
Verfasst wurden die Einträge in frühneuhochdeutscher Sprache mit wenigen lateinischen Phrasen. Verwendete Schriftarten sind die spätgotische Minuskel, Bastarda und ein sehr frühes Kurrent.
Das Trainingsmaterial setzt sich aus 1228264 Wörtern zusammen, was etwa 3500 beschriebenen Seiten entspricht. Die Ground Truth entstand im Rahmen des von der DFG geförderten Forschungsprojekts Kartierung des mittelalterlichen Wien, in dem die inhaltliche Auswertung der Quellen im Vordergrund steht. Die Transkriptionsrichtlinien sind daher auf eine vereinfachte Lesbarkeit ausgerichtet.
Abkürzungen sind aufgelöst, auf eine Wiedergabe der mittelalterlichen Interpunktion wurde verzichtet. Die Buchstaben sind stets in ihrer Grundform transkribiert, Diakritika wurden nicht berücksichtigt, eine Unterscheidung zwischen langem und rundem "s" wurde nicht vorgenommen. Für Währungszeichen wurden einheitlich folgende Kürzel verwendet: tl. = Pfund, s. = Schilling, d. = Pfenning, fl. = Gulden. Aufgrund der Homogenität des Quellenkorpus erreicht das Modell eine CER von 1,50% auf dem Validierungsset.
Kontakt: j.helmchen@fu-berlin.de