+ Vorstellung des Noscemus-Öffentlichkeitsmodells

Wir freuen uns, eines unserer öffentlichen Modelle vorstellen zu können, nämlich das "Noscemus GM v1"-Modell, das von Stefan Zathammer im Rahmen des Innsbrucker Projekts NOSCEMUS (Nova Scientia: Early Modern Scientific Literature and Latin) herausgegeben wurde. Dieses Modell kann Texte lesen, die in Antiqua-basierten Schriftarten aus dem 16.., 17. und 18. Jahrhundert und übertrifft die meisten Standard-OCR-Engines. Obwohl es auf die Transkription von (neo-)lateinischen Texten zugeschnitten ist, liefert es auch für andere Sprachen wie Französisch, Italienisch oder Englisch überzeugende Ergebnisse. Das Noscemus-Modell kann daher nicht nur Neulateinern eine Hilfe sein, sondern allen Forschungen, die sich mit großen Textkorpora aus der Frühen Neuzeit beschäftigen.

Das Modell basiert auf Trainingsdaten, die aus dem Digital Sourcebook des Projekts stammen und etwa 1.000 Seiten umfassen. Um das Modell so flexibel wie möglich zu halten, wurden Normierungen im Transkriptionsprozess auf ein Minimum beschränkt. Nur in den folgenden Fällen wurden Normalisierungen vorgenommen: Ligaturen (z. B. aeoectff) und Abkürzungen (z. B. -que-us-tur...mm...) wurden erweitert, lange s (ſ) wurde als normal transkribiert s, Kapitälchen wurden als Majuskeln transkribiert.

Obwohl das Modell bereits gute Ergebnisse liefert, hat das Projekt noch mit einigen Problemen zu kämpfen: Es gibt noch einige Inkonsistenzen bei der Transkription von Anführungszeichen und die Fehlerquote bei der Transkription von griechischen Wörtern oder Passagen ist immer noch hoch, in geringerem Maße gilt dies auch für (deutsche) Fraktur.

Wir hoffen, dass das Noscemus-Modell vielen von Ihnen das Leben in der Transkription erleichtern wird. Vergessen Sie nicht, einen Blick auf die anderen Modelle zu werfen, die wir dank unserer fleißigen Benutzer in letzter Zeit veröffentlichen konnten. Eine Übersicht über alle unsere öffentlichen Modelle finden Sie in diesem Dokument: https://transkribus.eu/wiki/images/d/d6/Public_Models_in_Transkribus.pdf

DIESEN ARTIKEL TEILEN

Neueste Beiträge

19. September 2023
Transkribus
Wir freuen uns, die Veröffentlichung der Transkribus-Web-App im September 2023 bekannt geben zu können. Nach der erfolgreichen Umstellung auf die ...
30. August 2023
News, Transkribus
Heute ist die neue Transkribus Web-App offiziell gestartet! Transkribus hat schon immer daran gearbeitet, die Digitalisierung und Transkription von ...
21. August 2023
Transkribus Anwenderkonferenz
Die Transkribus User Conference 24 (15. und 16. Februar 2024, Innsbruck) lädt Interessierte, Nutzer, Wissenschaftler und Enthusiasten ein, sich mit dem ...