Wie man Baseline-Modelle in Transkribus trainiert

Wie man Baseline-Modelle in Transkribus trainiert

Transkribus Werkzeuge
Transkribus Expert Client
Letzte Aktualisierung Vor 2 Wochen
Über Transkribus

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier erläutert

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier erläutert

Inhaltsverzeichnis

Inhaltsverzeichnis

Einführung

Die Layoutanalyse (LA) ist ein grundlegender Schritt vor der Anwendung eines HTR-Modells für die automatische Transkription der Dokumente. Sie segmentiert das Bild in Textregionen und Baselines. Es ist notwendig, Bild und Text miteinander zu verbinden, damit die HTR funktionieren kann. 

Normalerweise wird die Layoutanalyse automatisch durchgeführt, wenn Sie auf die Registerkarte "Tools" klicken und unter dem Abschnitt "Layout Analysis" die Seiten auswählen, für die die Segmentierung durchgeführt werden soll, wie hier erläutert.

Das Standard-Layoutanalyse-Tool funktioniert für die meisten Dokumenttypen gut, ist aber bei Dokumenten mit komplexem Layout, wie z. B. Zeitungen, Postkarten, Registern, annotierten Dokumenten usw., möglicherweise nicht so genau.

Wenn das Standard-Tool zur automatischen Layoutanalyse für Ihre Dokumente gut funktioniert, können Sie es weiterhin verwenden und müssen kein Baseline-Modell trainieren.

Wenn die Standard-Layoutanalyse für Ihre Dokumente jedoch nicht ausreicht, können Sie ein Baseline-Modell trainieren, das speziell auf Ihren Dokumenttyp zugeschnitten ist. Nach dem Training können Sie Ihr individuelles Baseline-Modell auf Ihre Dokumente anwenden, die dann anhand der von Ihnen für das Training bereitgestellten Beispiele segmentiert werden. Das Training und die Anwendung des Baseline-Modells sind nur in Transkribus eXpert möglich.

Bevor Sie mit dem Training eines Baseline-Modells beginnen, sollten Sie sich den Unterschied zwischen diesem und P2Pala vergegenwärtigen. P2Pala erkennt die Struktur Ihrer Dokumente automatisch und reichert sie mit Struktur-Tags an. Im Gegensatz dazu erkennt ein Baseline-Modell nur Baselines, hat aber den Vorteil, dass es speziell auf das Layout Ihrer Dokumente trainiert wurde. Aus diesem Grund sollte es genauer sein als das Standard-Erkennungstool für die Layoutanalyse.

Vorbereitung

Der erste Schritt besteht darin, die Seiten vorzubereiten, auf denen das Baseline-Modell trainiert werden soll. 50 Seiten sind für den Anfang ausreichend, aber die Effizienz des Modells hängt von der Komplexität des Layouts ab. Nach dem ersten Training mit 50 Seiten können Sie entscheiden, ob das Baseline-Modell gut genug ist oder ob es mehr Trainingsmaterial benötigt.

Um die Seiten vorzubereiten, müssen lediglich die Textregionen und die Baselines automatisch oder manuell segmentiert werden. Um die Arbeit am Layout zu erleichtern, können Sie die Segmentierungsansicht in den Ansichtsprofilen aktivieren, wie in der Abbildung unten dargestellt. Auf diese Weise wird der Texteditor ausgeblendet und es steht mehr Platz für die Darstellung des Bildes zur Verfügung.

Abbildung 1. Segmentation view

Je nach Komplexität des Layouts gibt es drei Möglichkeiten, die Seiten zu segmentieren:

  1. Führen Sie die standardmäßige automatische Layoutanalyse aus, die Sie auf der Registerkarte "Tools" finden, wie hier erläutertund korrigieren Sie sie dann manuell über das Canvas-Menü links neben dem Bild.

  1. Zeichnen Sie die Textregionen händisch mithilfe der Schaltfläche im Canvas-Menü. Führen Sie dann in der Registerkarte "Tools" die automatische Layoutanalyse aus, um die Baselines zu ermitteln: Vergessen Sie nicht vorher die Option "Find Text Regions" zu deaktivieren. Gehen Sie schließlich die Seiten durch und korrigieren Sie sie manuell über das Canvas-Menü.

  1. Zeichnen Sie mithilfe der Schaltfläche beziehungsweise der Schaltfläche im Canvas-Menü links neben dem Bild sowohl die Textregionen als auch die Baselines händisch.

Welche Option Sie wählen, hängt vom Dokumenttyp ab und davon, wie schlecht die standardmäßige automatische Layoutanalyse funktioniert. Wir empfehlen, die erste Option auszuprobieren und dann zu den anderen zu wechseln, wenn Sie feststellen, dass die Korrektur der generierten Segmentierung zeitaufwendiger ist als die Textregionen und Baselines selbst zu zeichnen.

Vor dem Training des Baseline-Modells muss den Seiten keine Transkription hinzugefügt werden, da es sich nur auf die Baselines konzentriert und das Vorhandensein von transkribiertem Text irrelevant ist.

Training

Sobald mindestens 50 Seiten segmentiert sind, ist es an der Zeit, das Baseline-Modell zu trainieren. Klicken Sie auf die Registerkarte "Tools" und dann im Abschnitt "Model Training" auf "Train a new model".

Das Fenster "Model Training" öffnet sich, und auf der rechten Seite können Sie auswählen, welche Engine trainiert werden soll: Für das Baseline-Modell wählen Sie bitte "Baselines", wie in der Abbildung unten gezeigt.

Abbildung 2. Fenster für Modelltraining

 Vor dem Training:

  • Geben Sie oben links den Namen und die Beschreibung Ihres Modells ein.

  • Oben rechts im Reiter "Baselines", den Sie gerade ausgewählt haben, finden Sie die Trainingsparameter, d.h. die Anzahl der Epochen und die Lernquote. Für das erste Training und wenn Sie mit dem maschinellen Lernen noch nicht vertraut sind, ändern Sie diese Parameter bitte nicht.

  • Unten müssen Sie die Seiten auswählen, die Sie zum Trainieren des Modells verwenden möchten, d. h. die Seiten, die Sie zuvor in Textregionen und Baselines segmentiert haben.
    Wählen Sie auf der linken Seite entweder die gesamte Collection oder die relevanten Seiten aus. Klicken Sie auf die Schaltfläche "Training" in der Mitte, um die ausgewählten Seiten zum Trainingsset hinzuzufügen. Wenn Sie nur die Seiten mit Ground-Truth-Status berücksichtigen möchten, wählen Sie im Dropdown-Menü rechts unter "Overview" die Option "Ground Truth only".
    Machen Sie dasselbe für das Validation Set. Denken Sie daran, dass ein gutes Validation Set alle Beispiele enthalten sollte, die das trainierte Baseline-Modell segmentieren können soll. Das Validierungsset sollte etwa 10% des Trainingssets betragen. Wir empfehlen daher, für das erste Training 45 Seiten in das Trainingsset und 5 Seiten in das Validierungsset aufzunehmen. Wenn Sie einen Prozentsatz des Trainingssets automatisch dem Validierungsset zuweisen möchten, kreuzen Sie einen Prozentsatz in der Option "automatic selection of validation set" an, bevor Sie auf die Schaltfläche "Training" klicken.

  • Auf der rechten Seite sehen Sie unter "Overview" alle Seiten, die dem Validation Set und dem Training Set zugeordnet sind.

Nach Abschluss dieser Phase können Sie mit dem Training des Baseline-Modells beginnen, indem Sie auf die Schaltfläche "Train" in der unteren rechten Ecke des Fensters klicken.

Ihr Output

Das Training des Baseline-Modells kann je nach Anzahl der Seiten und der Parameter der Lernmaschine mehrere Stunden bis einige Tage dauern. Sie können den Trainingsfortschritt überprüfen, indem Sie auf die Schaltfläche "Jobs" auf der Registerkarte "Server" klicken. 

Wenn das Training beendet ist, erscheint das Baseline-Modell auf der Registerkarte "Server" unter "Model Data". Um es zu sehen, wählen Sie bitte "layout" anstelle von "text" als Modellausgabetyp im zweiten Dropdown-Menü, wie unten gezeigt.

Abbildung 3. Layout als Modellausgabetyp

Wenn Sie auf den Namen des Baseline-Modells doppelklicken, sehen Sie alle Details und seine Lernkurve. Das "Learning Curve"-Diagramm zeigt die Genauigkeit des Baseline-Modells. Die x-Achse gibt die Anzahl der Epochen an, d. h. wie oft die Trainingsdaten ausgewertet wurden. Die y-Achse misst den Verlust, d. h. den prozentualen Anteil der falsch klassifizierten Pixel. 

Das Programm trainiert sich selbst zuerst auf dem Training Set und testet sich dann auf den Seiten des Validation Sets. Aus diesem Grund gibt es zwei Linien im Diagramm. Die blaue Linie zeigt den Fortschritt des Trainings an; die rote Linie zeigt den Fortschritt der Auswertung auf dem Validation Set. Es ist wichtig, dass die beiden Kurven nicht zu sehr voneinander abweichen. Wenn die beiden Kurven auseinanderlaufen, weicht das Training Set höchstwahrscheinlich zu stark vom Validation Set ab und das resultierende Modell ist nicht effektiv.

Abbildung 4. Lernkurve

Unterhalb des Diagramms zeigen die beiden Prozentsätze an, wie das Baseline-Modell auf dem Trainingsset und dem Validierungsset in Bezug auf den Verlust abschneidet. Der Verlust im Validierungsset ist der wichtigste Wert, da er angibt, wie das Baseline-Modell auf neuen Seiten abschneidet, auf denen es nicht trainiert wurde. Ergebnisse mit einem Verlust von 10% oder weniger bedeuten, dass das Baseline-Modell effektiv ist.

Anwendung Ihres Baseline-Modells

Um das trainierte Baseline-Modell auf Ihre Dokumente anzuwenden, gehen Sie auf die Registerkarte "Tools". Lassen Sie im oberen Abschnitt "Layout Analysis" die Methode "CITlab Advanced" ausgewählt und klicken Sie auf die Schaltfläche "Configure". Das Fenster "Layout Analysis Configuration" wird geöffnet, und unter "Neural Net" können Sie das trainierte Baseline-Modell auswählen, das Sie anwenden möchten. 

Abbildung 5. Konfiguration der Layoutanalyse

Standardmäßig ist das Neuronale Netz auf "Preset" eingestellt. Um ein anderes Modell zu wählen, klicken Sie auf das Dropdown-Menü und wählen Sie das trainierte Modell, das am besten zum Layout Ihrer Dokumente passt.

Mit den nachstehenden Einstellungen können Sie die Verwendung von Trennzeichen und die Gruppierung von Regionen festlegen. 
Trennzeichen sind spezielle Regionen, die Sie entweder manuell über die Schaltfläche "Separator" im Canvas-Menü zeichnen können (klicken Sie dazu auf das Symbol "Add other item") oder mit der Methode "Printed Block Detection" erzeugt werden. Die Trennzeicheninformationen können dann vom Algorithmus verwendet werden, um die Baselines entsprechend diesen Trennzeichen im Ergebnis aufzuteilen. Die Optionen im Detail sind:

  • Verwendung von Trennzeichen:
    • Default: Innerhalb einer bestimmten Textregion werden keine Trennzeichen verwendet. Wenn es keine Regionen gibt, kommen sie zum Einsatz.
    • Always: Trennzeichen werden auch innerhalb bestimmter Regionen verwendet.
    • Never: Trennzeicheninformationen werden nie verwendet.

  • Gruppierung von Regionen:
    • Cluster lines: Zeilen werden in separate Textregionen gruppiert.
    • Single bounding-box: Lediglich eine große Textregion wird um alle resultierenden Zeilen gezeichnet.


Wenn Sie sich bei diesen Einstellungen nicht sicher sind, lassen Sie sie so, wie sie sind. 

Klicken Sie abschließend auf die Schaltfläche "OK" am unteren Rand des Fensters "Layout Analysis Configuration". Ihr trainiertes Modell ist nun ausgewählt. 

Wählen Sie auf der Registerkarte "Tools" die Seiten aus, auf die die Layoutanalyse angewendet werden soll, und klicken Sie auf die Schaltfläche "Run": Der Layoutanalyse-Job wird nun gestartet. Sie können den Fortschritt des Jobs überprüfen, indem Sie auf die Schaltfläche "Jobs" auf der Registerkarte "Server" klicken. Sobald der Auftrag abgeschlossen ist, laden Sie die Seite(n) neu, und die Textregionen und Baselines werden in den Bildern angezeigt. Für die Anwendung des Baseline-Modells auf Ihre Dokumente werden keine Credits verwendet.