Wie man mit Transkribus Zeitungen transkribiert

Wie man mit Transkribus Zeitungen transkribiert

Letzte Aktualisierung Vor 1 Monat
Über Transkribus

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier erläutert

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier erläutert

Inhaltsverzeichnis

Inhaltsverzeichnis

NewsPapiere sind für Historiker eine unschätzbare Informationsquelle. Sie bieten nicht nur eine Chronik von Ereignissen, die von damals lebenden Menschen beschrieben wurden, sondern ermöglichen es den Forschern auch, langfristige Trends zu untersuchen, von der Zahl der Choleraausbrüche in einer bestimmten Stadt bis zur öffentlichen Meinung zu einem bestimmten Thema.

Wenn ein Forscher früher auf eine Zeitungssammlung zugreifen wollte, musste er sich zunächst in die Bibliothek oder das Archiv begeben, in dem sie aufbewahrt wurde, und die Sammlung manuell durchsuchen, um die gewünschten Informationen zu finden. Doch Technologien wie Transkribus haben diesen Prozess revolutioniert. Transkribus nutzt KI, um Dokumente wie Zeitungen automatisch zu transkribieren und digitale Versionen davon zu erstellen. Diese digitalen Versionen können dann leicht nach bestimmten Schlüsselwörtern oder Informationen durchsucht werden, was es für Historiker viel einfacher macht, die benötigten Informationen zu finden. 

Im Gegensatz zu anderen Materialien wie Briefen oder Büchern stellen Zeitungen jedoch gewisse Herausforderungen für Texterkennungsplattformen dar. In diesem Beitrag möchten wir Ihnen zeigen, wie Sie Zeitungen am besten mit Transkribus transkribieren, damit Sie möglichst genaue Transkriptionen erhalten.

Warum sind Zeitungen für Transkribus so schwierig?

Im Allgemeinen fällt es Texterkennungsplattformen leichter, gedruckte Texte zu transkribieren als handschriftliche Texte. Theoretisch sollte der gedruckte Text in Zeitungen also nicht allzu schwer zu transkribieren sein. 

Allerdings ist es nicht der Text, der Zeitungen zu einer Herausforderung macht, sondern das Layout. Bevor Transkribus mit der Texterkennung beginnen kann, führt es zunächst eine Layout-Erkennung durch, d.h. es erkennt, welche Teile der Seite Text enthalten und wo die einzelnen Textzeilen beginnen und enden. Diese Textblöcke und -zeilen werden dann transkribiert. Das bedeutet, dass Transkribus bei einer fehlerhaften Layout-Erkennung nicht weiß, welche Teile der Seite zu transkribieren sind und daher eine ungenaue Transkription produziert.

Nehmen wir einige Beispiele aus der Praxis. In dem untenstehenden Dokument ist der Text in einem großen Block und in regelmäßigen Zeilen angeordnet. Diese Art von Layout ist für Transkribus recht einfach zu erkennen, und so sieht die Layout-Erkennung aus:

Tagebuch von Marjory Fleming, National Library for Scotland, Public domain, via Nationalbibliothek für Schottland

Wie Sie sehen können, ist jede Textzeile korrekt mit einer blauen Linie unterstrichen worden. Da die Layout-Erkennung genau ist, weiß Transkribus genau, welche Teile des Textes zu transkribieren sind, und ist daher in der Lage, eine genaue Transkription zu erstellen:

Tagebuch von Marjory Fleming, National Library for Scotland, Public domain, via Nationalbibliothek für Schottland

Eine Zeitung hat jedoch ein viel komplizierteres Layout. Der Text steht nicht nur in einem Block, sondern ist in mehrere Blöcke in mehreren Spalten aufgeteilt, zusammen mit Überschriften, dem Preis und anderen unregelmäßigen Elementen. Diese Art von Layout ist für Transkribus viel schwieriger zu erkennen, und so kann die Layout-Erkennung am Ende so aussehen:

© Berliner Tageblatt - 1927-04-05, Staatsbibliothek zu Berlin, Public domain, via Europeana

Statt dass die blauen Linien jede Zeile des Textes sauber unterstreichen, sind sie in seltsamen Winkeln über den Text verteilt. Es ist klar, dass Transkribus nicht weiß, wo sich der Text tatsächlich auf der Seite befindet, und daher nicht in der Lage ist, eine genaue Transkription zu liefern, wie das folgende Bild zeigt:

© Berliner Tageblatt - 1927-04-05, Staatsbibliothek zu Berlin, Public domain, via Europeana

Diese Transkription ist für einen Historiker von geringem Nutzen. Allerdings wurde sie auch mit den Standardeinstellungen von Transkribus für die Layout-Erkennung erstellt. Wenn wir diese Einstellungen ändern, können wir viel bessere Ergebnisse erzielen.

Wie man die Layout-Erkennung mit Zeitungen verbessert

Die Verbesserung der Layout-Erkennung für Zeitungen ist ein zweistufiger Prozess. Zunächst müssen Sie die Seitenstruktur mit der Methode zur Erkennung gedruckter Blöcke erkennen. Dann müssen Sie die Layout-Erkennungseinstellungen manuell konfigurieren, damit sie Zeitungen besser erkennen können.

Bitte beachten Sie: Normalerweise wird die Layout-Erkennung automatisch als Teil des Texterkennungsprozesses durchgeführt. Um beide oben genannten Schritte durchzuführen, müssen Sie die Layouterkennung als separaten Schritt vor der Texterkennung ausführen, wie in den nachstehenden Anweisungen beschrieben.

Erkennung von gedruckten Blöcken

Die Methode Printed Block Detection ist eine Möglichkeit, Transkribus manuell anzuzeigen, wo sich die einzelnen Textblöcke auf einer Seite befinden. Im Falle einer Zeitung enthält jeder Block normalerweise einen Artikel. Um die Methode zur Erkennung von gedruckten Blöcken auszuführen, müssen Sie:

  • Wählen Sie die Seite(n) aus, die Sie transkribieren möchten.
  • Klicken Sie im Menü auf der linken Seite auf "Layout Recognition". 
  • Wählen Sie die Erkennungsmethode für gedruckte Blöcke und starten Sie die Erkennung. Dadurch wird Ihre Seite in mehrere Blöcke unterteilt, wie im Video unten gezeigt.
  • Sie können die Blöcke dann manuell anpassen, um sicherzustellen, dass sie genau in das Layout der Seite passen.

Ändern der Layout-Erkennungseinstellungen

Wenn Transkribus die Textblöcke auf der Seite erfolgreich erkannt hat, können Sie die Layout-Erkennung vollständig ausführen:

  • Wählen Sie die Seite(n) aus, die Sie transkribieren möchten.
  • Wählen Sie "Texterkennung" aus dem Menü auf der linken Seite.
  • Wählen Sie "Layout" aus dem Dropdown-Menü am oberen Rand.
  • Klicken Sie auf "Öffentliche Modelle" und wählen Sie "Gemischte Textlinienausrichtung".
  • Klicken Sie auf "Konfigurieren" und ändern Sie die Einstellungen wie unten gezeigt.
  • Sie können die Linien dann manuell so anpassen, dass sie jede Textzeile korrekt unterstreichen.
Generierung von Textregionen (Layout-Blöcke))Bestehendes beibehalten
BildskalierungHochwertig
(klicken Sie auf Baseline Optionen) 
Minimal Baseline LenghNiedrig
Baseline GenauigkeitsschwellenwertHoch
Geschulte Abscheider verwendenNein
Maximaler Abstand für die Zusammenführung von GrundlinienMittel
Geteilte Linien am Rand von RegionenJa

Das folgende Video zeigt diese Schritte im Detail:

Wie Ihre Zeitung nach der verbesserten Layout Recognition aussehen sollte

Die Verwendung der Standardeinstellungen von Transkribus für die Layout-Erkennung bei einer Zeitung führte zu blauen Schnörkeln auf der ganzen Seite. Mit den oben beschriebenen Schritten war Transkribus jedoch in der Lage, das Layout der Zeitungen zu erkennen und jeden Block und jede Textzeile korrekt zu markieren:

© Berliner Tageblatt - 1927-04-05, Staatsbibliothek zu Berlin, Public domain, via Europeana

Jetzt, wo Transkribus weiß, wo sich der Text auf der Seite befindet, kann es ihn auch richtig transkribieren. Erinnern Sie sich an diese Transkription?

© Berliner Tageblatt - 1927-04-05, Staatsbibliothek zu Berlin, Public domain, via Europeana

Es sieht nun folgendermaßen aus:

© Berliner Tageblatt - 1927-04-05, Staatsbibliothek zu Berlin, Public domain, via Europeana

Natürlich kann je nach Material eine gewisse Nachbearbeitung erforderlich sein. Aber im Allgemeinen sollten Sie mit diesen Schritten eine automatische Transkription erhalten, die für die meisten Forschungszwecke ausreichend gut ist.

Zusätzliche Tipps und Tricks

Es gibt noch ein paar andere Dinge, die Sie tun können, um die Transkription von Zeitungen zu erleichtern.

  • Stellen Sie sicher, dass Sie Bilder in guter Qualität haben. Im Allgemeinen gilt: Je besser die Bildqualität, desto besser ist auch die Qualität der Abschrift. Wenn Ihre Scans unscharf sind oder Markierungen oder anderes "Rauschen" aufweisen, empfehlen wir Ihnen, neue Scans bei guten Lichtverhältnissen zu machen.
  • In manchen Fällen kann es auch hilfreich sein, die Größe Ihrer Scans zu verdoppeln, bevor Sie sie in Transkribus hochladen.
  • Die oben beschriebenen Einstellungen für die Layout-Erkennung haben sich für die meisten Zeitungen als am effektivsten erwiesen. Je nach Zeitung kann es sich jedoch lohnen, verschiedene Einstellungskonfigurationen auszuprobieren, um zu sehen, was für Ihr spezielles Layout am besten funktioniert.
  • Wenn Sie sich entscheiden, verschiedene Einstellungen auszuprobieren, empfehlen wir Ihnen, dies zunächst nur auf einigen wenigen Testseiten zu tun. Sobald Sie eine Kombination von Einstellungen gefunden haben, die für Sie geeignet ist, können Sie die Layouterkennung für das gesamte Dokument oder die gesamte Sammlung ausführen.

Weitere Ressourcen

Wir hoffen, dass dieser Leitfaden Ihnen einen guten Einblick gibt, wie Sie mit Transkribus effektiv Zeitungen transkribieren können. Weitere Informationen finden Sie auf unserer Seite über Transkribieren von Zeitungen im Transkribus Hilfe-Center.