Wir freuen uns, eines unserer öffentlichen Modelle vorstellen zu können, nämlich das "Noscemus GM v1"-Modell, das von Stefan Zathammer im Rahmen des Innsbrucker Projekts NOSCEMUS (Nova Scientia: Early Modern Scientific Literature and Latin) herausgegeben wurde. Dieses Modell kann Texte lesen, die in Antiqua-basierten Schriftarten aus dem 16.., 17. und 18. Jahrhundert und übertrifft die meisten Standard-OCR-Engines. Obwohl es auf die Transkription von (neo-)lateinischen Texten zugeschnitten ist, liefert es auch für andere Sprachen wie Französisch, Italienisch oder Englisch überzeugende Ergebnisse. Das Noscemus-Modell kann daher nicht nur Neulateinern eine Hilfe sein, sondern allen Forschungen, die sich mit großen Textkorpora aus der Frühen Neuzeit beschäftigen.
Das Modell basiert auf Trainingsdaten, die aus dem Digital Sourcebook des Projekts stammen und etwa 1.000 Seiten umfassen. Um das Modell so flexibel wie möglich zu halten, wurden Normierungen im Transkriptionsprozess auf ein Minimum beschränkt. Nur in den folgenden Fällen wurden Normalisierungen vorgenommen: Ligaturen (z. B. ae, oe, ct, ff) und Abkürzungen (z. B. -que, -us, -tur, ...mm...) wurden erweitert, lange s (ſ) wurde als normal transkribiert s, Kapitälchen wurden als Majuskeln transkribiert.
Obwohl das Modell bereits gute Ergebnisse liefert, hat das Projekt noch mit einigen Problemen zu kämpfen: Es gibt noch einige Inkonsistenzen bei der Transkription von Anführungszeichen und die Fehlerquote bei der Transkription von griechischen Wörtern oder Passagen ist immer noch hoch, in geringerem Maße gilt dies auch für (deutsche) Fraktur.
Wir hoffen, dass das Noscemus-Modell vielen von Ihnen das Leben in der Transkription erleichtern wird. Vergessen Sie nicht, einen Blick auf die anderen Modelle zu werfen, die wir dank unserer fleißigen Benutzer in letzter Zeit veröffentlichen konnten. Eine Übersicht über alle unsere öffentlichen Modelle finden Sie in diesem Dokument: https://transkribus.eu/wiki/images/d/d6/Public_Models_in_Transkribus.pdf