3 KI-Modelle zur Transkription deutscher Texte in Fraktur, Kurrent und Sütterlin

Wenn Sie regelmäßig mit deutschen historischen Dokumenten arbeiten, dann sind Ihnen drei Arten der deutschen Schrift wahrscheinlich sehr vertraut: Fraktur, Kurrent und Sütterlin. Diese Schriften wurden vom 16. Jahrhundert bis zum Zweiten Weltkrieg verwendet und decken mehrere Jahrhunderte der deutschen und mitteleuropäischen Geschichte ab. Heutzutage sind sie jedoch für das ungeübte Auge kaum noch lesbar, was die Transkription solcher Dokumente zu einem langwierigen und zeitraubenden Prozess macht.

Zum Glück kann die Technologie die Dinge jetzt beschleunigen. Plattformen wie Transkribus nutzen KI-Modelle, um Fraktur, Kurrent, Sütterlin und andere Schriften zu erkennen und automatisch eine digitale Version des Textes zu erstellen. Diese digitalen Versionen lassen sich dann leicht nach bestimmten Wörtern oder Sätzen durchsuchen und problemlos mit Kollegen und der Öffentlichkeit teilen.

Wenn Sie Transkribus zum Lesen historischer Dokumente in deutscher Sprache zum ersten Mal verwenden, wird dieser Beitrag Sie in diese drei wichtigen Schriften einführen und Ihnen drei KI-Modelle vorstellen, die sich ideal für deren Transkription eignen.

Was ist Fraktur?

Die Frakturschrift war vom frühen 16. Jahrhundert bis zu ihrem Verbot durch die Nationalsozialisten im Jahr 1941 in der deutschen Druckindustrie weit verbreitet. Als eine Art Schwarzschrift sind die Buchstaben der Fraktur eher eckig als geschwungen, weshalb sie im Deutschen oft als "gebrochene Schrift" oder "gebrochene Schrift". Frakturschriften enthalten auch häufig Ligaturen, die meist auf die deutsche Schreibschrift zurückgehen.

Was ist der Unterschied zu Kurrent?

Im Gegensatz zur Fraktur ist die "KurrentschriftDie "Sütterlinschrift", wie sie im Deutschen genannt wird, ist eine handschriftliche Schrift. Sie wurde ebenfalls im frühen 16. Jahrhundert entwickelt und bis zum Beginn des 20. Jahrhunderts verwendet, als sie durch die neu entwickelte Sütterlinschrift (siehe unten) ersetzt wurde. Bis dahin war sie die Standardschrift, die in ganz Deutschland in den Schulen gelehrt wurde.

Und was ist Sütterlin?

Wie bereits erwähnt, war die Sütterlin-Schrift eine andere Art der deutschen Handschrift und der Nachfolger der Kurrentschrift. Zu Beginn des 20. Jahrhunderts beschloss das preußische Ministerium für Wissenschaft, Kunst und Kultur, dass es an der Zeit sei, die Kurrent durch eine besser lesbare Schrift zu ersetzen. Im Jahr 1911 beauftragte es den Designer Ludwig Sütterlin, eine solche Schrift zu entwerfen, was dieser auch gerne tat. Die Sütterlin-Schrift wurde 1914 erstmals in den Berliner Schulen eingeführt und verbreitete sich bald zur dominierenden Handschrift in ganz Deutschland. Mehr Informationen finden Sie unter Die Wikipedia-Seite von Ludwig Sütterlin.

3 KI-Modelle zum Lesen von Fraktur, Kurrent und Sütterlin

Transkribus Deutsche Handschrift M1

Wenn es ein Modell gibt, das für in Kurrent und/oder Sütterlin geschriebene Dokumente nützlich ist, dann ist es dieses. Transkribus German Handwriting M1 wurde mit sage und schreibe 3.610.922 Wörtern aus einer Vielzahl von Handschriften trainiert und ist in der Lage, fast jedes handschriftliche Dokument mit relativer Genauigkeit und ohne zusätzliches Training zu transkribieren. Neben den Kurrent- und Sütterlin-Handschriften enthielten die Trainingsdaten auch einige deutschsprachige Handschriften in lateinischer Schrift, so dass es sich ideal für Handschriften mit mehreren Handschriften eignet. Für ein so vielfältiges Modell hat es einen niedrigen CER von nur 4,7%.

Zum Modell gehen

Deutsche Fraktur 19. bis 20. Jahrhundert

Dieses KI-Modell konzentriert sich auf eine bestimmte Art von Frakturtext: Dokumente, die im 19. und 20. Jahrhundert geschrieben wurden. Entwickelt von der Österreichische Nationalbibliothek und das 1TP16Augen Projekt basiert das Modell auf 442.121 Wörtern aus einer Vielzahl von historischen Zeitungen und Publikationen. Es hat außerdem einen CER von nur 1% und übertrifft damit die meisten Standard-OCR-Engines bei dieser Art von Dokumenten. Bitte beachten Sie jedoch, dass das Modell ausschließlich auf deutschsprachige Dokumente trainiert wurde, so dass es beispielsweise für schwedische oder finnische Frakturen weniger geeignet ist.

Zum Modell gehen

Deutsche Kurrent 17. bis 18. Jahrhundert

Dieses Transkribus-Kurrent-Modell ist das, was wir manchmal ein "Supermodell" nennen: Es basiert auf 1.840.000 Wörtern aus einer Vielzahl von Dokumenten, darunter Ratsprotokolle der pommerschen Regierung von Stralsund, die Assessorenstimmen des Wismarer Obergerichts und verschiedene private Briefsammlungen. Erarbeitet wurde es von der Universität Greifswald, hat eine CER von 5.5% und eignet sich für die Transkription aller Arten von Kurrentschriften aus dem 17. und 18. Jahrhundert.

Zum Modell gehen

Wie kann ich ein öffentliches AI-Modell mit Transkribus verwenden?

Die Transkriptionen von Transkribus beruhen auf KI-Modellen. Jedes Modell wurde darauf trainiert, eine bestimmte Art von handgeschriebenem oder gedrucktem Text in einer bestimmten Sprache zu lesen, und oft auch eine bestimmte Zeitspanne oder ein bestimmtes Genre.

Wenn Sie ein Dokument mit Transkribus transkribieren möchten, müssen Sie zunächst einen Scan des Dokuments hochladen und dann ein Modell auswählen. Derzeit sind 94 öffentliche Modelle verfügbar, die alle kostenlos genutzt werden können. Transkribus übernimmt die im Modell gespeicherten Informationen und wendet sie auf Ihr Dokument an, so dass eine sofortige Transkription entsteht.

Was aber, wenn es kein Modell gibt, das für den Text in Ihren Dokumenten geeignet ist? Dann haben Sie auch die Möglichkeit, Ihr eigenes zu trainieren. Dazu benötigen Sie eine Reihe von zuvor umgeschriebenen Dokumenten, die als "Ground Truth" bezeichnet werden. Je mehr Ground-Truth-Daten Sie zum Trainieren Ihres Modells verwenden, desto mehr Informationen wird es enthalten und desto genauer wird es bei der Transkription neuer Dokumente sein. Um Zeit zu sparen, verwenden viele Anwender ein öffentliches Modell als Grundlage für ihr individuelles Modell und stimmen es dann mit weiteren Ground Truth-Daten ab.

Weitere Informationen über Modelle und deren Ausbildung finden Sie in unserem Anleitungen.

Laden Sie ein Dokument hoch und probieren Sie Transkribus aus:

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juli 3, 2024
News, Transkribus
Einige Transkribus-Projekte enden mit einer vollständig digitalisierten Sammlung in Transkribus. Andere nehmen diese digitalisierte Quelle und verwenden sie ...
Juni 12, 2024
News, Transkribus
Wenn man an karolingische (oder karolingische) Minuskeln denkt, kommen einem wahrscheinlich Karl der Große und sein riesiges karolingisches Reich in den Sinn. Während die ...
Mai 14, 2024
Uncategorized
Das Verstehen historischer Dokumente ist der Schlüssel zum Verständnis der Geschichte. Das Verstehen historischer Dokumente auf Polnisch kann jedoch eine Herausforderung sein. Nicht nur ...