+ Vorstellung des Noscemus-Öffentlichkeitsmodells

Wir freuen uns, eines unserer öffentlichen Modelle vorstellen zu können, nämlich das "Noscemus GM v1"-Modell, das von Stefan Zathammer im Rahmen des Innsbrucker Projekts NOSCEMUS (Nova Scientia: Early Modern Scientific Literature and Latin) herausgegeben wurde. Dieses Modell kann Texte lesen, die in Antiqua-basierten Schriftarten aus dem 16.., 17. und 18. Jahrhundert und übertrifft die meisten Standard-OCR-Engines. Obwohl es auf die Transkription von (neo-)lateinischen Texten zugeschnitten ist, liefert es auch für andere Sprachen wie Französisch, Italienisch oder Englisch überzeugende Ergebnisse. Das Noscemus-Modell kann daher nicht nur Neulateinern eine Hilfe sein, sondern allen Forschungen, die sich mit großen Textkorpora aus der Frühen Neuzeit beschäftigen.

Das Modell basiert auf Trainingsdaten, die aus dem Digital Sourcebook des Projekts stammen und etwa 1.000 Seiten umfassen. Um das Modell so flexibel wie möglich zu halten, wurden Normierungen im Transkriptionsprozess auf ein Minimum beschränkt. Nur in den folgenden Fällen wurden Normalisierungen vorgenommen: Ligaturen (z. B. aeoectff) und Abkürzungen (z. B. -que-us-tur...mm...) wurden erweitert, lange s (ſ) wurde als normal transkribiert s, Kapitälchen wurden als Majuskeln transkribiert.

Obwohl das Modell bereits gute Ergebnisse liefert, hat das Projekt noch mit einigen Problemen zu kämpfen: Es gibt noch einige Inkonsistenzen bei der Transkription von Anführungszeichen und die Fehlerquote bei der Transkription von griechischen Wörtern oder Passagen ist immer noch hoch, in geringerem Maße gilt dies auch für (deutsche) Fraktur.

Wir hoffen, dass das Noscemus-Modell vielen von Ihnen das Leben in der Transkription erleichtern wird. Vergessen Sie nicht, einen Blick auf die anderen Modelle zu werfen, die wir dank unserer fleißigen Benutzer in letzter Zeit veröffentlichen konnten. Eine Übersicht über alle unsere öffentlichen Modelle finden Sie in diesem Dokument: https://transkribus.eu/wiki/images/d/d6/Public_Models_in_Transkribus.pdf

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juli 3, 2024
News, Transkribus
Einige Transkribus-Projekte enden mit einer vollständig digitalisierten Sammlung in Transkribus. Andere nehmen diese digitalisierte Quelle und verwenden sie ...
Juni 12, 2024
News, Transkribus
Wenn man an karolingische (oder karolingische) Minuskeln denkt, kommen einem wahrscheinlich Karl der Große und sein riesiges karolingisches Reich in den Sinn. Während die ...
Mai 14, 2024
Uncategorized
Das Verstehen historischer Dokumente ist der Schlüssel zum Verständnis der Geschichte. Das Verstehen historischer Dokumente auf Polnisch kann jedoch eine Herausforderung sein. Nicht nur ...