Wie man mit Tabellen in Transkribus arbeitet

Wie man mit Tabellen in Transkribus arbeitet

Tabellen
Transkribus Expert Client
Letzte Aktualisierung Vor 2 Jahren
Über Transkribus

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier erläutert

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier erläutert

Inhaltsverzeichnis

Inhaltsverzeichnis

Dies ist eine kurze Einführung in das Auszeichnen und Exportieren von Tabellen sowie in die halbautomatische Tabellenbearbeitung mit Transkribus und nomacs. Das Segmentieren von gedruckten oder handgezeichneten Tabellen mit dem Tabelleneditor in Transkribus fügt grafische Linien in Ihr Bild ein und weist dem Layout Ihrer Dokumente eine tabellarische Struktur zu. Außerdem können Sie damit Ihre Transkriptionen als Microsoft Excel-Tabelle exportieren. Diese Anleitung gilt für Bilder in einem Transkribus-Dokument, die demselben Tabellendruck oder derselben Vorlage folgen.

Einführung

Gedruckte und handgezeichnete Tabellen sind in historischen Dokumenten aller Art häufig zu finden. Solche Tabellen können in Transkribus markiert werden, entweder als erster Schritt bei der Erstellung von Trainingsdaten für die automatische Texterkennung oder einfach, um die Dokumente für die manuelle Transkription vorzubereiten.

Derzeit müssen Tabellen manuell mit dem Tabelleneditor in Transkribus gezeichnet werden. Eine Technologie, die die automatische Erkennung von Tabellen ermöglicht, ist in Entwicklung und wird den Anwendern bald zur Verfügung gestellt.

Oft folgen mehrere Seiten dem gleichen Tabellendruck oder der gleichen Tabellenvorlage, so dass das Tabellenmarkup nur für das erste Auftreten des gleichen Drucks gemacht werden muss und mit dem nomacs Toolkit auf die restlichen Seiten verteilt werden kann.

Der erste Abschnitt dieser Anleitung beschreibt die manuelle Erstellung einer Tabellenstruktur in Transkribus und die Transkription des darin enthaltenen Textes. Der zweite Abschnitt gibt eine Anleitung zum Arbeiten mit Tabellenvorlagen, die in Transkribus erstellt wurden, und zur Anwendung auf mehrere Seiten mit einer Methode, die als Stapelverarbeitung im Werkzeug nomacs bezeichnet wird.

Schließlich wird in diesem Dokument auch erklärt, wie Tabellen zur weiteren Datenverarbeitung in Standard-Tabellenkalkulationsprogrammen exportiert werden können.

Segmentierung

Textbereiche erstellen

  • Erstellen Sie zunächst Textbereiche für alle Informationen, die nicht zur Tabelle gehören.
    Dies bezieht sich auf Informationen am oberen, unteren oder seitlichen Rand der Seite, die eindeutig nicht Teil der Tabelle sind, wie z. B.:
    • Seitenzahlen
    • Zeilennummern
    • Daten
    • Andere Markierungen oder Anmerkungen
  • Weitere Informationen zum Erstellen von Textregionen finden Sie im Abschnitt "Segmentierung" von Wie man Dokumente mit Transkribus transkribiert - Einführung.

Erstellen Sie die Tabelle

  • Wählen Sie die Schaltfläche "Add other item" im Canvas-Menü und klicken Sie dann auf "Add a table".
  • Klicken Sie auf die linke obere Ecke der Tabelle im Bild und dann auf die rechte untere Ecke

Segmentieren Sie die Tabelle

Sie können nun Ihre Tabelle in Zeilen und Spalten segmentieren

  • Stellen Sie zu Beginn sicher, dass Sie sich im "Selection mode" befinden. Drücken Sie die Taste "ESC" auf Ihrer Tastatur oder klicken Sie auf die Schaltfläche "Selection mode". im Hauptmenü.
  • Klicken Sie auf den Tabellenbereich, den Sie erstellt haben.
  • Um Reihen zu erstellen, klicken Sie auf die Schaltfläche "Splits a shape with a horizontal line". im Menü Canvas.
  • Bewegen Sie den Cursor über die Seite und klicken Sie an die Stelle, an der Sie eine horizontale Linie erstellen möchten.
  • Um Spalten zu erstellen, klicken Sie auf die Schaltfläche "Splits a shape with a vertical line" im Menü Canvas.
  • Bewegen Sie den Cursor über die Seite und klicken Sie an die Stelle, an der Sie eine vertikale Linie erstellen möchten.
  • Fahren Sie fort, bis alle Tabellenzellen markiert sind.

Hinweis: Je nach Layout Ihrer Tabelle möchten Sie den Buchrücken vielleicht wie eine zusätzliche Spalte behandeln (wie in Abbildung 1). Sie können diese Spalte auch auf Tabellenzellenebene mit dem Tag "book-binding" im Register "Metadata/Structural" auszeichnen.

Kopieren des Tabellenformats von einer Seite auf eine andere

Wenn das Tabellenlayout mehrerer Seiten ähnlich ist, ist es möglich, das Tabellenformat von einer Seite auf andere Seiten zu übertragen. Gehen Sie dazu wie folgt vor:

  • Bereiten Sie das Tabellenlayout wie oben beschrieben vor
  • Öffnen Sie "andere Segmentierungswerkzeuge" über das "Canvas"-Menü
  • Wählen Sie "Bereiche (Texte oder Tabellen) auf andere Seiten kopieren"
  • Definieren Sie im erscheinenden Fenster die Seiten, auf die das Layout kopiert werden soll.
  • Bestätigen Sie mit "OK" und das Tabellenlayout wird auf die angegebenen Seiten kopiert.
  • Um das Werkzeug definitiv laufen zu lassen, wählen Sie "Trockenlauf" ab.
  • Es kann sein, dass die Position der Tabelle auf der Seite korrigiert werden muss. Markieren Sie dazu die gesamte Tabelle und verschieben Sie sie, indem Sie die Tasten "Strg" + "Umschalt" auf Ihrer Tastatur gedrückt halten.

Korrigieren Sie die Zellen in der Tabelle

In einigen Fällen kann es notwendig sein, Zellen zusammenzufügen, um Zellen, die sich über mehrere Zeilen oder Spalten erstrecken, wiederzugeben.

  • Vergewissern Sie sich, dass Sie sich im "Selection mode" befinden, indem Sie die "ESC"-Taste auf Ihrer Tastatur drücken oder den "Selection mode" Taste im Hauptmenü.
  • Um Zellen zum Zusammenführen auszuwählen, halten Sie die Taste "STRG/CMD" auf Ihrer Tastatur gedrückt und klicken Sie dann auf die entsprechenden Zellen in Ihrer Tabelle.
  • Klicken Sie auf die Schaltfläche "Merge the selected shapes". im Menü Canvas.
  • Fahren Sie mit allen Zellen fort, bis die erwartete Struktur erreicht ist. Im folgenden Beispiel muss die Zusammenführung für jede der hervorgehobenen Zellengruppen abgeschlossen werden.

Wenn Sie sich auf eine perfekte Segmentierung der Tabelle konzentrieren, kann es auch notwendig sein, die Formen einiger Zellen in Ihrer Tabelle zu korrigieren. Die segmentierten grünen Linien sollten dann so weit wie möglich mit den Linien Ihrer Tabelle übereinstimmen. Um dies zu erreichen,

  • Wählen Sie die Tabellenzelle, die Sie bearbeiten möchten
  • Klicken und ziehen Sie die großen grünen Punkte, um die Position der Linien zu verschieben

Hinweis: Für den Export und die automatische Verarbeitung ist es vollkommen ausreichend, gerade, rechtwinklige Linien in der Nähe der ursprünglichen Tabellenränder zu haben.

Grafische Informationen hinzufügen

Grenz Mark-up

Zellgrenzen (grafische Linien) müssen markiert werden, wenn sie sichtbar sind.

  • Klicken Sie mit der rechten Maustaste auf die Zelle, die Sie markieren möchten
  • Klicken Sie im Einblendmenü auf "Mark-up borders" oder verwenden Sie die  Taste, um das Menü für die Randmarkierung zu öffnen
  • Wählen Sie die richtigen Optionen, um den Rand der Zelle zu beschreiben

Hinweis: Sie können mehrere Zellen auf einmal auswählen, indem Sie "Select all cells" oder "Select row cells" wählen. Das Auswählen oder Aufheben der Auswahl von Zellen funktioniert, indem Sie die Befehlstaste (Strg) gedrückt halten und auf eine andere Zelle klicken.

Basislinien hinzufügen

Der nächste Schritt ist das Hinzufügen von Grundlinien zu Ihrer Tabelle. Die Grundlinien sollen den logischen Textfluss widerspiegeln und können daher bei Bedarf über die Zellgrenzen verlaufen.

  • Sie können die Grundlinien entweder von Hand einzeichnen oder die automatische Grundlinienerkennung in Transkribus verwenden. Wenn Sie die Layout-Analyse zur automatischen Erkennung der Grundlinien verwenden, achten Sie bitte darauf, dass die Option "Textbereiche suchen" abgewählt ist.

Hinweis: das Zeilensuchwerkzeug, das von der Technologielabor für Computational Intelligence an der Universität Rostock ist derzeit die effektivste für die automatische Erkennung von Grundlinien in Tabellen. Klicken Sie im Abschnitt "Layoutanalyse" auf der Registerkarte "Werkzeuge" auf "Methode: CITlab Erweitert".

  • Wenn Sie Grundlinien automatisch erkennen, müssen Sie die erzeugten Linien eventuell korrigieren oder in die richtige Zelle verschieben
  • Möglicherweise möchten Sie auch die Lesereihenfolge überprüfen und Ihre Basislinien korrigieren. Weitere Informationen zum Hinzufügen und Korrigieren von Grundlinien finden Sie im Abschnitt "Segmentierung" von Wie man Dokumente mit Transkribus transkribiert - Einführung.

Korrekte Basislinien, die sich über mehr als eine Zelle erstrecken

Es kann vorkommen, dass sich das automatische Layout-Werkzeug bei Tabellenzellen streng an die Zellgrenzen hält. Grundlinien, die sich über mehrere Zellen erstrecken, werden geteilt. Sie können das Zusammenführungswerkzeug verwenden, um diese Teilgrundlinien zu kombinieren. Wenn Sie Grundlinien, die sich über mehrere Zellen erstrecken, zusammenführen möchten, verschieben Sie sie zuerst in dieselbe Zelle, wählen Sie sie aus und verwenden Sie das Zusammenführungswerkzeug

  • Öffnen Sie die Registerkarte "Layout".
  • Klicken Sie auf die erste Zelle im Bild, in der Ihre Basislinien platziert werden sollen. Dadurch wird die entsprechende Position im Strukturbaum hervorgehoben.
  • Erweitern Sie die Pfeile, um die Linienelemente anzuzeigen.
  • Wählen Sie die zu verschiebenden Zeilen im Baum aus, indem Sie die Strg-Taste gedrückt halten
  • Ziehen Sie die Linien auf die richtige Zelle
  • Verwenden Sie das Zusammenführungswerkzeug um das Layout der Zeilen zu fixieren

Transkribieren Sie die Tabellenüberschriften

Insbesondere bei vorgegebenen Formularen oder Tabellen bleiben die Überschriften über mehrere Seiten hinweg gleich. Alle transkribierten Informationen, die in der Tabellenvorlage enthalten sind, werden automatisch vom Tabellenabgleichswerkzeug übernommen.

Beispielergebnisse der Tabellenauszeichnung

Zugspaltenstruktur mit P2PaLA

Die P2PaLA-Trainingsfunktion kann verwendet werden, um Spalten der Tabellen in Ihren Dokumenten zu trainieren.

Vor Beginn des Trainings müssen die Tabellen vorbereitet werden:

  • Zeichnen Sie für jede Spalte einen Textbereich.
  • Definieren Sie diese Bereiche mit Struktur-Tags über die "Metadaten"- und "Struktur"-Registerkarte. Wie dies geschieht, können Sie in der strukturelle Kennzeichnung richtlinie.
  • Wichtig ist, dass jede Spalte einen eigenen Strukturtyp hat.
  • Um die Erstellung der Trainingsdaten zu beschleunigen, können Sie das Layout wie oben beschrieben auf die Folgeseiten kopieren.

Diese Vorgehensweise ist besonders dann sinnvoll, wenn Sie an speziellen Spalten im Dokument interessiert sind (also nicht an allen Spalten in den Tabellen).

Transkription

  • Schreiben Sie den Text Ihrer Tabelle genau so ab, wie er im Bild erscheint
  • Klicken Sie auf eine Zelle in Ihrer Tabelle, um die Transkription zu starten, und bewegen Sie sich dann durch die anderen Zellen in Ihrer Tabelle
  • Wenn Sie Text als Trainingsdaten für die automatische Texterkennung transkribieren, ist die Lesereihenfolge Ihrer Transkription nicht wichtig
  • Wenn Sie Text zu Forschungszwecken transkribieren, möchten Sie möglicherweise die Lesereihenfolge der Grundlinien anpassen
  • Sie können auch eine automatische Texterkennung (HTR-Modell) auf Ihrem segmentierten Dokument ausführen. Für weitere Informationen siehe So trainieren Sie ein Modell zur Erkennung von handgeschriebenem Text in Transkribus
  • Im nächsten Abschnitt des Handbuchs erfahren Sie, wie Sie eine Tabellenvorlage erstellen, die sich über mehrere Bilder in Ihrem Dokument wiederholen kann.

Tabellen exportieren

Nachdem Sie eine Seite segmentiert und transkribiert haben, können Sie die Ergebnisse Ihrer transkribierten Tabellen in das XLS-Format exportieren.

  • Klicken Sie auf die Schaltfläche "Export Document". im Hauptmenü
  • Wählen Sie oben im Feld den Ort aus, an dem Sie die exportierten Dateien speichern möchten
  • Wählen Sie im Abschnitt "Choose export format" die Option "Table export into Excel".
  • Stellen Sie sicher, dass Sie unten rechts im Feld die Anzahl der Seiten auswählen, die Sie exportieren möchten.
  • Eine einzelne Seite exportieren

Hinweis: Es werden nur Tabellen und deren Inhalte exportiert, Textbereiche werden ignoriert. Wenn Ihre Seitenauswahl keine Tabellen enthält, zeigt Transkribus eine Fehlermeldung an und bricht den Exportvorgang ab.

Danksagung

Wir möchten uns bei den vielen Anwender*innen bedanken, die mit ihrem Feedback zur Verbesserung der Transkribus-Software beigetragen haben.

Transkribus wird der Öffentlichkeit im Rahmen des H2020 e-Infrastruktur-Projekts READ (Recognition and Enrichment of Archival Documents) zur Verfügung gestellt, das von der Europäischen Kommission unter der Fördervereinbarung Nr. 674943 gefördert wurde.