Dieses Modell hat ein großes Train- (3038000 Wörter) und Testset für deutsche Kurrent (19. Jahrhundert). Die Ground Truth stammt aus verschiedenen Projekten und Partnern und ist auf Schweizer Dokumente voreingenommen.
Sie basiert auf Dokumenten aus dem
- Staatsarchiv Zürich (Regierungsratsprotokolle)
- Vorlesungsmitschriften zu Vorlesungen Alexander von Humboldts
- und eine Vielzahl von kleinen Datensätzen in deutscher Kurrent
Aufgrund der Tatsache, dass einige gedruckte Dokumente Teil des Trainingssatzes waren, ist das Modell in der Lage, Druck zu erkennen.
Der CER auf dem Validierungssatz ist 7.24%.