+ Vorstellung des Noscemus-Öffentlichkeitsmodells

Wir freuen uns, eines unserer öffentlichen Modelle vorstellen zu können, nämlich das "Noscemus GM v1"-Modell, das von Stefan Zathammer im Rahmen des Innsbrucker Projekts NOSCEMUS (Nova Scientia: Early Modern Scientific Literature and Latin) herausgegeben wurde. Dieses Modell kann Texte lesen, die in Antiqua-basierten Schriftarten aus dem 16.., 17. und 18. Jahrhundert und übertrifft die meisten Standard-OCR-Engines. Obwohl es auf die Transkription von (neo-)lateinischen Texten zugeschnitten ist, liefert es auch für andere Sprachen wie Französisch, Italienisch oder Englisch überzeugende Ergebnisse. Das Noscemus-Modell kann daher nicht nur Neulateinern eine Hilfe sein, sondern allen Forschungen, die sich mit großen Textkorpora aus der Frühen Neuzeit beschäftigen.

Das Modell basiert auf Trainingsdaten, die aus dem Digital Sourcebook des Projekts stammen und etwa 1.000 Seiten umfassen. Um das Modell so flexibel wie möglich zu halten, wurden Normierungen im Transkriptionsprozess auf ein Minimum beschränkt. Nur in den folgenden Fällen wurden Normalisierungen vorgenommen: Ligaturen (z. B. aeoectff) und Abkürzungen (z. B. -que-us-tur...mm...) wurden erweitert, lange s (ſ) wurde als normal transkribiert s, Kapitälchen wurden als Majuskeln transkribiert.

Obwohl das Modell bereits gute Ergebnisse liefert, hat das Projekt noch mit einigen Problemen zu kämpfen: Es gibt noch einige Inkonsistenzen bei der Transkription von Anführungszeichen und die Fehlerquote bei der Transkription von griechischen Wörtern oder Passagen ist immer noch hoch, in geringerem Maße gilt dies auch für (deutsche) Fraktur.

Wir hoffen, dass das Noscemus-Modell vielen von Ihnen das Leben in der Transkription erleichtern wird. Vergessen Sie nicht, einen Blick auf die anderen Modelle zu werfen, die wir dank unserer fleißigen Benutzer in letzter Zeit veröffentlichen konnten. Eine Übersicht über alle unsere öffentlichen Modelle finden Sie in diesem Dokument: https://transkribus.eu/wiki/images/d/d6/Public_Models_in_Transkribus.pdf

DIESEN ARTIKEL TEILEN

Neueste Beiträge

November 17, 2022
Transkribus
Wir freuen uns sehr, Ihnen mitteilen zu können, dass wir gestern 100.000 Nutzer auf der Transkribus-Plattform erreicht haben! Trotz unserer jahrelangen, sehr ...
August 12, 2022
Erkennung von handgeschriebenem Text
Hatten Sie schon einmal Probleme, die Handschrift einer anderen Person zu lesen? Vielleicht beruhigt es Sie zu wissen, dass es nicht nur Menschen sind, die ...
22. Juli 2022
Uncategorized
Die neueste Version von Transkribus Lite ist da und bringt eine Reihe von neuen Funktionen. Hier sind die wichtigsten ...