Wie man Baseline-Modelle in Transkribus trainiert

Wie man Baseline-Modelle in Transkribus trainiert

Transkribus Werkzeuge
Transkribus Expert Client
Letzte Aktualisierung Vor 9 Monaten
Über Transkribus

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier erläutert

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier erläutert

Inhaltsverzeichnis

Inhaltsverzeichnis

Einführung

Die Layoutanalyse (LA) ist ein grundlegender Schritt vor der Anwendung eines HTR-Modells für die automatische Transkription der Dokumente. Sie segmentiert das Bild in Textregionen und Baselines, also die Grundlinien der Textzeilen. Es ist notwendig, Bild und Text miteinander zu verbinden, damit die HTR funktionieren kann. 

Normalerweise wird die Layoutanalyse automatisch durchgeführt, wenn Sie auf die Registerkarte "Tools" klicken und unter dem Abschnitt "Layout Analysis" die Seiten auswählen, für die die Segmentierung durchgeführt werden soll, wie hier erläutert.

Das Standard-Layoutanalyse-Tool funktioniert für die meisten Dokumenttypen gut, ist aber bei Dokumenten mit komplexem Layout, wie z. B. Zeitungen, Postkarten, Registern, annotierten Dokumenten usw., möglicherweise nicht so genau.

Wenn das Standard-Tool zur automatischen Layoutanalyse für Ihre Dokumente gut funktioniert, können Sie es weiterhin verwenden und müssen kein Baseline-Modell trainieren.

Wenn die Standard-Layout-Analyse für Ihre Dokumente jedoch nicht ausreicht, können Sie ein Baseline-Modell trainieren, das speziell auf Ihre Dokumententypologie zugeschnitten ist. Nach dem Training können Sie Ihr angepasstes Baseline-Modell auf Ihre Dokumente anwenden, die dann anhand der von Ihnen für das Training bereitgestellten Beispiele segmentiert werden. 

Bevor Sie mit dem Training eines Baseline-Modells beginnen, sollten Sie sich den Unterschied zwischen diesem und P2Pala vergegenwärtigen. P2Pala erkennt die Struktur Ihrer Dokumente automatisch und reichert sie mit Struktur-Tags an. Im Gegensatz dazu erkennt ein Baseline-Modell nur Baselines, hat aber den Vorteil, dass es speziell auf das Layout Ihrer Dokumente trainiert wurde. Aus diesem Grund sollte es genauer sein als das Standard-Erkennungstool für die Layoutanalyse.

Vorbereitung

Der erste Schritt besteht darin, die Seiten vorzubereiten, auf denen das Baseline-Modell trainiert werden soll. 50 Seiten sind für den Anfang ausreichend, aber die Effizienz des Modells hängt von der Komplexität des Layouts ab. Nach dem ersten Training mit 50 Seiten können Sie entscheiden, ob das Baseline-Modell gut genug ist oder ob es mehr Trainingsmaterial benötigt.

Um die Seiten vorzubereiten, müssen lediglich die Textbereiche und die Grundlinien automatisch oder manuell segmentiert werden. Um die Arbeit am Layout zu erleichtern, können Sie die Segmentierungsansicht in den Ansichtsprofilen aktivieren, wie in der Abbildung unten dargestellt. Auf diese Weise wird der Texteditor ausgeblendet, und es bleibt mehr Platz für die Darstellung des Bildes.

Abbildung 1. Segmentation view

Je nach Komplexität des Layouts gibt es drei Möglichkeiten, die Seiten zu segmentieren:

  1. Führen Sie die standardmäßige automatische Layoutanalyse aus, die Sie auf der Registerkarte "Tools" finden, wie hier erläutertund korrigieren Sie sie dann manuell über das Canvas-Menü links neben dem Bild.

  1. Zeichnen Sie die Textregionen händisch mithilfe der Schaltfläche im Canvas-Menü. Führen Sie dann in der Registerkarte "Tools" die automatische Layoutanalyse aus, um die Baselines zu ermitteln: Vergessen Sie nicht vorher die Option "Find Text Regions" zu deaktivieren. Gehen Sie schließlich die Seiten durch und korrigieren Sie sie manuell über das Canvas-Menü.

  1. Zeichnen Sie mithilfe der Schaltfläche beziehungsweise der Schaltfläche im Canvas-Menü links neben dem Bild sowohl die Textregionen als auch die Baselines händisch.

Welche Option Sie wählen sollten, hängt vom Dokumenttyp ab und davon, wie schlecht die standardmäßige automatische Layoutanalyse-Erkennung funktioniert. Wir empfehlen, die erste Option auszuprobieren und dann zu den anderen zu wechseln, wenn Sie feststellen, dass die Korrektur der generierten Segmentierung zeitaufwändiger ist als das manuelle Zeichnen.

Vor dem Training des Baseline-Modells muss den Seiten keine Transkription hinzugefügt werden, da es sich nur auf die Baselines konzentriert und das Vorhandensein von transkribiertem Text irrelevant ist.

Training

Sobald mindestens 50 Seiten segmentiert sind, ist es an der Zeit, das Baseline-Modell zu trainieren. Klicken Sie auf die Registerkarte "Tools" und dann im Abschnitt "Model Training" auf "Train a new model".

Das Fenster "Model Training" öffnet sich, und auf der rechten Seite können Sie auswählen, welche Engine trainiert werden soll: Für das Baseline-Modell wählen Sie bitte "Baselines", wie in der Abbildung unten gezeigt.

Abbildung 2. Fenster für Modelltraining

 Vor dem Training:

  • Geben Sie oben links den Namen und die Beschreibung Ihres Modells ein.

  • Oben rechts im Reiter "Baselines", den Sie gerade ausgewählt haben, finden Sie die Trainingsparameter, d.h. die Anzahl der Epochen und die Lernquote. Für das erste Training und wenn Sie mit dem maschinellen Lernen noch nicht vertraut sind, ändern Sie diese Parameter bitte nicht.

  • Unten müssen Sie die Seiten auswählen, die Sie zum Trainieren des Modells verwenden möchten, d. h. die Seiten, die Sie zuvor in Textregionen und Baselines segmentiert haben.
    Wählen Sie auf der linken Seite entweder die gesamte Collection oder die relevanten Seiten aus. Klicken Sie auf die Schaltfläche "Training" in der Mitte, um die ausgewählten Seiten zum Trainingsset hinzuzufügen. Wenn Sie nur die Seiten mit Ground-Truth-Status berücksichtigen möchten, wählen Sie im Dropdown-Menü rechts unter "Overview" die Option "Ground Truth only".
    Machen Sie dasselbe für das Validation Set. Denken Sie daran, dass ein guter Validierungssatz alle verschiedenen Beispiele umfassen sollte, die das trainierte Baseline-Modell segmentieren kann. Das Validierungsset sollte etwa 10% des Trainingssets betragen. Wir empfehlen daher, für das erste Training 45 Seiten in das Trainingsset und 5 Seiten in das Validierungsset aufzunehmen. Wenn Sie automatisch einen Prozentsatz des Trainingssets dem Validierungsset zuweisen möchten, kreuzen Sie einen Prozentsatz in der Option "Automatische Auswahl des Validierungssets" an, bevor Sie auf die Schaltfläche "Training" klicken.

  • Auf der rechten Seite sehen Sie unter "Overview" alle Seiten, die dem Validation Set und dem Training Set zugeordnet sind.

Nach Abschluss dieser Phase können Sie mit dem Training des Baseline-Modells beginnen, indem Sie auf die Schaltfläche "Train" in der unteren rechten Ecke des Fensters klicken.

Ihr Output

Das Training des Baseline-Modells kann je nach Anzahl der Seiten und der Parameter der Lernmaschine mehrere Stunden bis einige Tage dauern. Sie können den Trainingsfortschritt überprüfen, indem Sie auf die Schaltfläche "Jobs" auf der Registerkarte "Server" klicken. 

Wenn das Training beendet ist, erscheint das Baseline-Modell auf der Registerkarte "Server" unter "Model Data". Um es zu sehen, wählen Sie bitte "layout" anstelle von "text" als Modellausgabetyp im zweiten Dropdown-Menü, wie unten gezeigt.

Abbildung 3. Layout als Modellausgabetyp

Wenn Sie auf den Namen des Modells Baseline doppelklicken, sehen Sie alle Details und seine Lernkurve. Das Diagramm "Lernkurve" zeigt die Genauigkeit des Baseline-Modells. Die x-Achse gibt die Anzahl der Epochen an, d. h. wie oft die Trainingsdaten ausgewertet wurden. Die y-Achse misst den Verlust, d. h. den prozentualen Anteil der falsch klassifizierten Pixel. 

Das Programm trainiert sich zuerst auf dem Training Set und testet sich dann auf den Seiten des Validation Sets. Aus diesem Grund gibt es zwei Linien im Diagramm. Die blaue Linie zeigt den Fortschritt des Trainings an; die rote Linie zeigt den Fortschritt der Auswertung auf dem Validation Set. Beachten Sie, dass es wichtig ist, dass die beiden Kurven nicht zu sehr voneinander abweichen. Wenn die beiden Kurven auseinanderlaufen, weicht das Training Set höchstwahrscheinlich zu stark vom Validation Set ab und das resultierende Modell ist nicht effektiv.

Abbildung 4. Lernkurve

Unterhalb des Diagramms zeigen die beiden Prozentsätze an, wie das Baseline-Modell auf dem Trainingsset und dem Validierungsset in Bezug auf den Verlust abschneidet. Der Verlust im Validierungsset ist der wichtigste Wert, da er angibt, wie das Baseline-Modell auf neuen Seiten abschneidet, auf denen es nicht trainiert wurde. Ergebnisse mit einem Verlust von 10% oder weniger bedeuten, dass das Baseline-Modell effektiv ist.

Anwendung Ihres Baseline-Modells

Um das trainierte Baseline-Modell auf Ihre Dokumente anzuwenden, gehen Sie auf die Registerkarte "Werkzeuge". Lassen Sie im oberen Bereich "Layout Analysis" die Methode "Transkribus LA" ausgewählt und klicken Sie auf die Schaltfläche "Configure". Das Fenster "Layout Analysis Configuration" öffnet sich, und unter "Neural Net" können Sie das trainierte Baseline-Modell auswählen, das Sie anwenden möchten. 

Abbildung 5. Konfiguration der Layoutanalyse

Standardmäßig ist das Neuronale Netz auf "Voreinstellung" eingestellt. Um ein anderes Modell zu wählen, klicken Sie auf das Dropdown-Menü und wählen Sie das trainierte Modell, das am besten zum Layout Ihrer Dokumente passt.

Mit den folgenden Einstellungen können Sie die Layoutanalyse konfigurieren, wenn die Standardeinstellungen für das Layout Ihrer Dokumente nicht zufriedenstellend sind. Die Einstellungen, die Sie konfigurieren können, sind insbesondere:

  • Modell: Belassen Sie das Modell "Voreinstellung", wenn Sie kein spezifisches Grundlinienmodell auf das Layout Ihrer Dokumente trainiert haben.
    Das voreingestellte Transkribus-LA-Modell eignet sich für die meisten Dokumenttypen. Nur wenn Ihre Dokumente ein komplexes Layout haben und das voreingestellte Modell nicht zufriedenstellend ist, können Sie ein Baselines-Modell trainieren, das speziell auf Ihre Dokumententypologie zugeschnitten ist, wie erläutert hier erläutert.
  • Minimale Länge der Grundlinie: Sie gibt die Mindestlänge der Grundlinien in Pixeln an. Baselines, die kürzer als diese Länge sind, werden nicht erkannt.
  • Baseline GenauigkeitsschwelleIn der ersten Stufe der Layout-Analyse wird jedes Pixel als Grundlinie, Trennlinie oder Sonstiges gekennzeichnet. Der Schwellenwert für die Grundliniengenauigkeit gilt für die Kennzeichnung der Grundlinien in dieser Phase. Er liegt zwischen 0 und 255, wobei höhere Werte eine höhere Genauigkeit bei den erkannten Grundlinien erzwingen.
    Wenn Sie Bilder mit niedriger Auflösung haben und keine oder nur wenige Grundlinien erkannt werden, versuchen Sie, den Wert zu verringern. Beachten Sie jedoch, dass die Ergebnisse bei niedrigeren Schwellenwerten verrauscht werden können.
  • Schwellenwert für TrennzeichenTrennlinien sind kleine vertikale Linien, die neben jeder Grundlinie gezeichnet werden; sie markieren den Anfang und das Ende jeder Grundlinie (nicht zu verwechseln mit den tatsächlichen Trennlinien in gedruckten Dokumentenbildern). Wie der Schwellenwert für die Grundliniengenauigkeit bezieht sich auch der Schwellenwert für die Trennlinien auf die erste Phase, in der die Pixel beschriftet werden.
    Der Schwellenwert für Trennlinien liegt zwischen 0 und 255: 0 bedeutet, dass überhaupt keine Trennlinien verwendet werden; bei einem höheren Wert werden Trennlinien verwendet, so dass nahe beieinander liegende Grundlinien nicht zusammengeführt werden.
    Normalerweise reichen niedrige Werte aus, um eine Verbindung zwischen nahe beieinander liegenden Grundlinien zu verhindern. Verwenden Sie z. B. 1, um Trenninformationen "manchmal" zu verwenden, und größere Werte, um sie so gut wie immer zu verwenden, z. B. wenn Textzeilen nahe beieinander liegen, aber getrennt werden müssen, weil sie zu verschiedenen Spalten gehören.
  • Max-dist für die ZusammenführungIn der zweiten Stufe versucht der Algorithmus, nahe beieinander liegende Grundlinien zusammenzuführen, aber nur, wenn ihr Abstand kleiner als der festgelegte Wert ist. Der Wert wird nicht in Pixeln gemessen, sondern ist ein Bruchteil der Bildbreite. Standardmäßig ist er auf 0,01 eingestellt: Wenn zwei Grundlinien näher beieinander liegen als der 0,01-fache Wert der Bildbreite, werden sie zusammengeführt; sind sie weiter voneinander entfernt als dieser Wert, werden sie nicht zusammengeführt. Je nach Layout und Bildbreite können Sie den Wert für den Bruchteil erhöhen, um weiter entfernte Linien zusammenzuführen, oder ihn verringern, um zu verhindern, dass nahe beieinander liegende Grundlinien zusammengeführt werden.
  • Max-dist für Clustering: Dieser Wert bezieht sich auf die Erstellung von Textregionen: Nachdem die Grundlinien erkannt wurden, werden sie auf der Grundlage ihres Abstands in Textregionen geclustert. Der maximale Abstand für das Clustering ist ein Bruchteil der Bildbreite: Grundlinien, die näher als dieser Bruchteil sind, werden in einer Textregion zusammengefasst.
    Wenn mit den Standardeinstellungen zu viele Textregionen erstellt werden, können Sie versuchen, den Wert zu erhöhen, so dass mehr Grundlinien zusammen geclustert werden. Wenn der Wert auf -1 gesetzt wird, wird keine Clusterung der Regionen durchgeführt und nur eine Textregion als Begrenzungsrahmen für alle Linien erzeugt.

Weitere Informationen über den Algorithmus und die Einstellungen von Transkribus LA finden Sie unter diese Seite.

Klicken Sie abschließend auf die Schaltfläche "OK" am unteren Rand des Fensters "Layout Analysis Configuration". Ihr trainiertes Modell ist nun ausgewählt. 

Wählen Sie auf der Registerkarte "Werkzeuge" die Seiten aus, auf die die Layoutanalyse angewendet werden soll, und klicken Sie auf die Schaltfläche "Ausführen": Der Layoutanalyseauftrag wird nun gestartet. Sie können den Fortschritt des Auftrags überprüfen, indem Sie auf die Schaltfläche "Aufträge" auf der Registerkarte "Server" klicken. Sobald der Auftrag abgeschlossen ist, laden Sie die Seite(n) und die Textbereiche erneut, und die Grundlinien werden in den Bildern angezeigt. Es wird kein Guthaben verwendet, um das Modell Baseline auf Ihre Dokumente anzuwenden.