+ Vorstellung des Noscemus-Öffentlichkeitsmodells

Wir freuen uns, eines unserer öffentlichen Modelle vorstellen zu können, nämlich das "Noscemus GM v1"-Modell, das von Stefan Zathammer im Rahmen des Innsbrucker Projekts NOSCEMUS (Nova Scientia: Early Modern Scientific Literature and Latin) herausgegeben wurde. Dieses Modell kann Texte lesen, die in Antiqua-basierten Schriftarten aus dem 16.., 17. und 18. Jahrhundert und übertrifft die meisten Standard-OCR-Engines. Obwohl es auf die Transkription von (neo-)lateinischen Texten zugeschnitten ist, liefert es auch für andere Sprachen wie Französisch, Italienisch oder Englisch überzeugende Ergebnisse. Das Noscemus-Modell kann daher nicht nur Neulateinern eine Hilfe sein, sondern allen Forschungen, die sich mit großen Textkorpora aus der Frühen Neuzeit beschäftigen.

Das Modell basiert auf Trainingsdaten, die aus dem Digital Sourcebook des Projekts stammen und etwa 1.000 Seiten umfassen. Um das Modell so flexibel wie möglich zu halten, wurden Normierungen im Transkriptionsprozess auf ein Minimum beschränkt. Nur in den folgenden Fällen wurden Normalisierungen vorgenommen: Ligaturen (z. B. aeoectff) und Abkürzungen (z. B. -que-us-tur...mm...) wurden erweitert, lange s (ſ) wurde als normal transkribiert s, Kapitälchen wurden als Majuskeln transkribiert.

Obwohl das Modell bereits gute Ergebnisse liefert, hat das Projekt noch mit einigen Problemen zu kämpfen: Es gibt noch einige Inkonsistenzen bei der Transkription von Anführungszeichen und die Fehlerquote bei der Transkription von griechischen Wörtern oder Passagen ist immer noch hoch, in geringerem Maße gilt dies auch für (deutsche) Fraktur.

Wir hoffen, dass das Noscemus-Modell vielen von Ihnen das Leben in der Transkription erleichtern wird. Vergessen Sie nicht, einen Blick auf die anderen Modelle zu werfen, die wir dank unserer fleißigen Benutzer in letzter Zeit veröffentlichen konnten. Eine Übersicht über alle unsere öffentlichen Modelle finden Sie in diesem Dokument: https://transkribus.eu/wiki/images/d/d6/Public_Models_in_Transkribus.pdf

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juli 4, 2022
HTR-Modelle
Der jüngste Neuzugang in der langen Liste der öffentlichen Transkribus-Modelle stammt aus dem norwegischen Nationalarchiv. Dank der ...
Juni 20, 2022
Transkribus
Von Joe Nockels, Universität Edinburgh Im Rahmen seiner Doktorarbeit an der Universität Edinburgh und der Nationalbibliothek ...
Juni 15, 2022
Transkribus, Webinare
Wir freuen uns, unsere neue "Ask Us Anything"-Webinarreihe zu starten, in der die Teilnehmer uns alles fragen können, was mit ...