Trainieren und Anwenden von Modellen zur Erkennung von handgeschriebenem Text in Transkribus

Trainieren und Anwenden von Modellen zur Erkennung von handgeschriebenem Text in Transkribus

Transkribus Werkzeuge
Transkribus Expert Client
Letzte Aktualisierung Vor 3 Monaten
Über Transkribus

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier erläutert

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier erläutert

Inhaltsverzeichnis

Inhaltsverzeichnis

Letzte Aktualisierung dieses Handbuchs: 22/01/2021

Diese Anleitung erklärt, wie Sie mit Transkribus ein Handwritten-Text-Recognition-Modell (HTR+) trainieren, um Ihre Dokumente zu erkennen. Nach dem Training wird das Modell Ihnen helfen, Ihre Collection automatisch zu transkribieren und zu durchsuchen.

Einführung

  • Die Transkribus-Plattform ermöglicht es Anwender*innen, ein Handwritten-Text-Recognition-Modell (HTR+) zu trainieren, um eine Sammlung von Dokumenten automatisch zu verarbeiten. Das Modell muss darauf trainiert werden, einen bestimmten Schreibstil zu erkennen, indem ihm Bilder von Dokumenten und deren genaue Transkriptionen gezeigt werden.
  • Für das Training eines Modells werden zwischen 5.000 und 15.000 Wörter (ca. 25-75 Seiten) an transkribiertem Material benötigt. Wenn Sie nicht mit handschriftlichem, sondern mit gedrucktem Text arbeiten, ist in der Regel eine kleinere Menge an Trainingsdaten erforderlich.
  • Durch die Verwendung eines Basismodells kann die Menge der benötigten Trainingsdaten reduziert werden. Als Basismodell können Sie entweder eines der öffentlich verfügbaren Modelle in Transkribus verwenden, wenn es ein passendes für Ihre Dokumente gibt, oder eines Ihrer eigenen Modelle, das Sie bereits zuvor trainiert haben. Eine Übersicht über die derzeit verfügbaren öffentlichen Modelle finden Sie hier erläutert

Vorbereitung

  • Wir empfehlen, den Trainingsprozess mit 5.000 bis 15.000 Wörtern transkribiertem Material zu beginnen, je nachdem, ob es sich um gedruckten oder handschriftlichen Text handelt. Wie bereits angedeutet, können Basismodelle die erforderliche Menge an Trainingsdaten reduzieren.
  • Die neuronalen Netze der HTR+ lernen schnell, und je mehr Trainingsdaten sie haben, desto besser werden die Ergebnisse sein.
  • Sie können Trainingsdaten für die HTR+ in Transkribus erstellen, indem Sie Bilder hochladen und Text transkribieren. Für eine vollständige Anleitung, siehe Wie man Dokumente mit Transkribus transkribiert - Einführung.
  • Wenn Sie bereits über vorhandene Transkripte verfügen, können Sie diese auch zum Trainieren Ihres Modells verwenden. Für weitere Informationen siehe So verwenden Sie vorhandene Transkriptionen zum Trainieren eines HTR-Modells.

Training

  • Die wichtigsten Optionen für das Training eines Modells finden Sie in der Registerkarte "Tools" im "Text Recognition" Abschnitt.
  • Unter "Method"ist "HTR (CITlab)" die effektivste Option, die Sie wählen können.
  • Durch Klicken auf die Schaltfläche "Models" können Sie sehen, welche Modelle verfügbar sind und auf welche Dokumente sie trainiert wurden.
  • Mit der "Train"- Schaltfläche gelangen Sie zu den Optionen für das Training von Modellen.

Abbildung 1 Wo Sie die Tools für das Training finden

HTR+-Training einrichten

  • Um zum Fenster "HTR Training" zu gelangen, klicken Sie in der Registerkarte "Tools" auf die Schaltfläche "Train".

Abbildung 2 So öffnen Sie das Fenster "HTR Training".

  • Es öffnet sich das folgende Fenster:

Abbildung 3 Fenster "HTR Training"

  • Im oberen Bereich müssen Sie Informationen zu Ihrem Modell angeben.

Abbildung 4 Angabe von Informationen über das Modell

  • Bitte geben Sie Folgendes an
    • Modellname (von Ihnen gewählt)
    • Sprache (Ihrer Dokumente)
    • Beschreibung (Ihrer Dokumente und der als Trainings- und Testdaten ausgewählten Seiten)
  • Hinweis: "Nr. of Epochs" bezieht sich auf die Anzahl, wie oft die Trainingsdaten evaluiert werden. Wenn Sie die Anzahl der Epochen erhöhen, dauert der Trainingsvorgang länger.

Basismodell

  • Es ist möglich, ein Basismodell zu Ihrem Training hinzuzufügen. Wenn Sie diese Option wählen, werden die Informationen, die das Basismodell enthält, in das neue Modell integriert. Um einen Nutzen zu haben, muss das Basismodell der Schrift ähnlich sein, die es anschließend erkennen soll. Mit Hilfe eines Basismodells ist es möglich, den Trainingsprozess zu beschleunigen. Eine Qualitätsverbesserung ist nicht garantiert, sie muss im Einzelfall getestet werden.
  • Ein großer Vorteil der Arbeit mit Basismodellen ist, dass sie es ermöglichen, mit einer geringeren Anzahl von Trainingsseiten zu beginnen, was bedeutet, dass der Transkriptionsaufwand reduziert wird.
  • Beachten Sie jedoch, dass mit zunehmender Anzahl der trainierten Epochen der Anfangszustand des Basismodells vergessen wird und sich das Training nur noch an die tatsächlich vorliegenden Daten anpasst. Um dies zu verhindern, fügen Sie auch die aktuellen Daten des Basismodells zum Training hinzu (siehe nächster Punkt).
  • Um ein Basismodell zu verwenden, müssen Sie einfach das gewünschte Modell mit der Schaltfläche "Choose..." neben "Base Model:" auswählen.

Trainingsset

  • Als nächstes müssen Sie die Seiten auswählen, die Sie in Ihren Trainingsdatensatz aufnehmen möchten.
  • Um alle Seiten Ihres Dokuments zum Trainingsset hinzuzufügen, klicken Sie auf den Ordner und dann auf "+Training".
  • Um einen bestimmten Ausschnitt von Seiten aus Ihrem Dokument zum Trainingsset hinzuzufügen, doppelklicken Sie auf den Ordner, klicken Sie auf die erste Seite, die Sie aufnehmen möchten, halten Sie die "Umschalt"-Taste auf Ihrer Tastatur gedrückt und klicken Sie dann auf die letzte Seite. Klicken Sie schließlich auf "+Training".
  • Um einzelne Seiten aus Ihrem Dokument zum Trainingsset hinzuzufügen, doppelklicken Sie auf den Ordner, halten Sie die "STRG"-Taste auf Ihrer Tastatur gedrückt und wählen Sie die Seiten aus, die Sie als Trainingsdaten verwenden möchten. Klicken Sie dann auf "+Training".
  • Die von Ihnen ausgewählten Seiten werden im Bereich "Training Set" angezeigt.

Abbildung 5 Hinzufügen aller Seiten für das Training

Validierungsset

  • Während des Trainingsprozesses wird ein Validation Set von Seiten beiseite gelegt und nicht zum Training der HTR verwendet. Diese Testseiten können dann verwendet werden, um die Genauigkeit Ihres Modells zu beurteilen.
  • Wir empfehlen, dass Sie mindestens eine Testseite für jeweils 50-100 Seiten Ihres Trainingssets auswählen.
  • Die Seiten in Ihrem Validation Set sollten repräsentativ für die Dokumente in Ihrer Collection sein.
  • Je mehr Seiten sich in Ihrem Validation Set befinden, desto länger dauert das HTR-Training.
  • Um Seiten zum Validation Set hinzuzufügen, folgen Sie demselben Prozess wie oben, klicken aber auf die Schaltfläche "+Validation".

Abbildung 6 Hinzufügen von Seiten zum Testsatz

  • Um Seiten aus dem "Training Set" oder "Test Set" zu entfernen, klicken Sie auf die Seite und dann auf die rote Kreuz-Schaltfläche.

Abbildung 7 Entfernen von Seiten

  • Sie können sich die in Ihrem Testsatz verwendeten Seiten im Feld zur Modellbeschreibung notieren.
  • Starten Sie das Training, indem Sie auf die Schaltfläche "OK" klicken.

Fortschritt überprüfen

  • Sie können den Fortschritt des Trainings verfolgen, indem Sie auf die Schaltfläche "Jobs" im Register "Server" klicken.

Abbildung 8 Überprüfen des Fortschritts des Trainings mit der Schaltfläche "Jobs"

  • Der Abschluss jeder Epoche wird im Fenster "Jobs on server" angezeigt, ebenso wie der Abschluss des Trainingsvorgangs.
  • Das Training eines HTR+-Modells kann mehrere Stunden bis zu einem Tag dauern. Sie können während des Trainings andere Aufgaben in Transkribus erledigen oder die Plattform schließen.

Abbildung 9 Übersicht "Jobs on Server"

Nach dem Training

  • Nachdem das Training Ihres Modells abgeschlossen ist, wird es in Ihrer Collection verfügbar sein.
  • Um darauf zuzugreifen, klicken Sie auf die Schaltfläche "Models" in der Registerkarte "Tools".

Abbildung 10 Öffnen des Fensters "Choose a model"

  • Es öffnet sich das folgende Fenster:

Abbildung 11 Fenster "Choose a model"

  • Auf der linken Seite des Fensters sehen Sie eine Übersicht über die verfügbaren Modelle.
  • Auf der rechten oberen Seite des Fensters werden die Details des Modells angezeigt.
  • Unten rechts können Sie die Lernkurve Ihres Modells sehen. Weitere Informationen zu diese Statistik finden Sie unten.

Statistik

  • Das "Learning Curve"-Diagramm zeigt die Genauigkeit Ihres Modells an.

Abbildung 12 "Lernkurve" Ihres Modells

  • Wie Sie in Abbildung 12 sehen können, ist die y-Achse als "Genauigkeit in CER" definiert.
  • "CER" steht für Zeichenfehlerrate, d. h. der Prozentsatz der Zeichen, die von der HTR+ falsch transkribiert wurden.
  • Genauigkeit in CER" wird als Prozentsatz auf der y-Achse angezeigt. Die Kurve beginnt immer bei 100% und sinkt mit dem Fortschreiten des Trainings und der Verbesserung des Modells.
  • Die x-Achse ist definiert als "Epochen”.
  • Während des Trainingsprozesses nimmt Transkribus nach jeder Epoche eine Auswertung vor. In Abbildung 12 wurde das "Training Set" in 20 Epochen aufgeteilt.
  • Wenn Sie ein Modell trainieren, können Sie angeben, in wie viele "Epochen" das "Training Set" unterteilt werden soll. Je mehr Epochen es gibt, desto länger dauert das Training.
  • Die Grafik zeigt zwei Linien, eine in blau und eine in rot.
  • Die blaue Linie stellt den Fortschritt des Trainings dar.
  • Die rote Linie stellt den Fortschritt der Auswertungen auf dem Testsatz dar.
  • Zunächst trainiert sich das Programm auf das Trainingsset, dann testet es sich selbst auf Seiten im Testsatz.
  • Unter dem Diagramm werden zwei Prozentwerte angezeigt, die sich auf die CER für das Trainingsset und das Testset beziehen.
  • In Abbildung 12 zeigt das Modell eine Leistung von 14,19% CER beim Trainingsset und 9,57% beim Testset.
  • Der Wert für das Testset ist am aussagekräftigsten, da er zeigt, wie sich die HTR+ auf Seiten verhält, auf die sie nicht trainiert wurde.
  • Ergebnisse mit einer CER von 10% oder darunter können als sehr effizient für die automatische Transkription angesehen werden.
  • Ergebnisse mit einer CER von 20-30% sind ausreichend, um mit der leistungsstarken Keyword-Spotting-Technologie zu arbeiten. Für weitere Details siehe unsere Anleitung zum Keyword Spotting.

HTR-Transkripte generieren

  • Jetzt, wo Sie Ihr Modell haben, können Sie es verwenden, um automatisch Transkripte der Dokumente in Ihrer Collection zu erzeugen.
  • Zuerst laden Sie Ihre Dokumente auf Transkribus hoch.
  • Dann segmentieren Sie Ihre Dokumente in Textregionen, Zeilen und Baselines.
  • Für weitere Informationen zum Hochladen und Segmentieren, lesen Sie bitte Wie man Dokumente mit Transkribus transkribiert - Einführung.
  • Um auf Ihr Modell zuzugreifen, klicken Sie auf die Registerkarte "Tools" und gehen Sie zum Abschnitt "Text Recognition".
  • Klicken Sie auf "Run" und dann auf "Choose HTR-model". Wählen Sie Ihr HTR-Modell aus der Liste auf der linken Seite des Bildschirms und klicken Sie auf "OK".
  • Wählen Sie, ob Sie ein einseitiges oder mehrseitiges HTR-Transkript erzeugen möchten.
  • Drücken Sie "Run", um den Texterkennungsprozess zu starten.
  • Sobald die Erkennung abgeschlossen ist, wird die automatische Transkription im Texteditor-Feld angezeigt.

Sprachmodelle

  • Sprachmodelle sind die neuen Wörterbücher in Transkribus: Sie haben einen Großteil der Funktionen von Wörterbüchern übernommen.
  • Sie werden automatisch mit dem HTR-Modell erstellt und können dem Erkennungsprozess hinzugefügt werden:
    • Klicken Sie auf "Run" im Abschnitt "Text Recognition" auf der Registerkarte "Tools".
    • Klicken Sie auf "Select HTR model".
    • Im Fenster, das erscheint, finden Sie oben rechts die Sprachmodell-Option.
    • Klicken Sie auf das Dropdown-Menü und wählen Sie "Language model from training data".
  • Die Effektivität von Sprachmodellen muss im Einzelfall getestet werden: In vielen Fällen können sie die Erkennung verbessern, aber bisher haben wir auch Fälle gesehen, in denen dies nicht der Fall war.

Abbildung 13 Sprachmodelle

Abbildung 14 Modell anwenden

Ein Modell teilen

  • Sie können Ihr HTR-Modell mit anderen Collections in Transkribus teilen, unabhängig davon, ob diese Ihnen oder anderen Benutzer*innen gehören.
  • Wenn Sie Ihr Modell für eine andere Collection freigeben möchten, müssen Sie Zugriff auf diese Collection haben.
  • Klicken Sie mit der rechten Maustaste auf den Namen Ihres Modells (auf der linken Seite des Fensters "Choose a model").

Abbildung 15 Freigeben eines Modells durch Rechtsklick auf den Namen Ihres Modells

  • Wählen Sie dann "Share model...".
  • Es öffnet sich das Fenster "Choose a selection via double click".
  • Klicken Sie im nächsten Fenster auf die Collection, für die Sie das Modell freigeben möchten, und klicken Sie auf "OK".
  • In diesem Fenster können Sie auch eine neue Collection für das Modell mit der Schaltfläche "Create" anlegen.
  • Klicken Sie zum Bestätigen auf "OK".

Abbildung 16 Wie Sie Ihr Modell freigeben

  • Wenn Sie die Collection ausgewählt haben, klicken Sie noch einmal auf "OK" und das Modell wird freigegeben.

Abbildung 17 Bestätigen der Freigabe Ihres Modells

Abbildung 18 Modell wurde geteilt

Ergebnisse

  • Sobald das Training abgeschlossen ist, können Sie Ihr Modell an jedem anderen historischen Dokument mit ähnlicher Schrift ausprobieren.
  • Sie können Ihr Modell mit anderen Personen teilen, die ebenfalls davon profitieren können.
  • Sie können den Trainingsprozess mit mehr Daten wiederholen, um effizientere Ergebnisse zu erzielen.
  • Sie können die Genauigkeit Ihres Modells mit der Funktion "Compute Accuracy" messen.
  • Die Ergebnisse der HTR hängen davon ab, wie ähnlich und wie eindeutig die Schrift im historischen Dokument ist.
  • Das Transkribus-Team arbeitet an einem Algorithmus, der es ermöglichen wird, jede Art von Dokument automatisch zu transkribieren, ohne dass Trainingsdaten vorbereitet werden müssen. Die Technologie lernt aus allen in Transkribus verarbeiteten Trainingsdaten.
  • Je mehr Daten wir also verarbeiten, desto effizienter wird die Technologie. Trainieren Sie Ihr eigenes Modell und seien Sie ein Teil davon!

Danksagung

Wir möchten uns bei den vielen Anwender*innen bedanken, die mit ihrem Feedback zur Verbesserung der Transkribus-Software beigetragen haben.