Trainieren und Anwenden von Modellen zur Erkennung von handgeschriebenem Text in Transkribus

Transkribus Werkzeuge
Transkribus Expert Client
Letzte Aktualisierung Vor 3 Wochen
Über Transkribus

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier

Inhaltsverzeichnis

Inhaltsverzeichnis

Letzte Aktualisierung dieses Handbuchs: 22/01/2021

Diese Anleitung erklärt, wie Sie mit Transkribus ein Handwritten Text Recognition (HTR+) Modell trainieren, um Ihre Dokumente zu erkennen. Nach dem Training wird das Modell Ihnen helfen, Ihre Sammlung automatisch zu transkribieren und zu durchsuchen.

Laden Sie den Transkribus Expert Client herunter, oder stellen Sie sicher, dass Sie die neueste Version verwenden:

Transkribus und die dahinter stehende Technologie werden über die folgenden Projekte und Seiten zur Verfügung gestellt:

Kontakt:

  • Das Transkribus-Team: info@readcoop.eu

Die Transkribus-Plattform wird zur Verfügung gestellt von der Europäischen Genossenschaft READ-COOP SCE.

Bis Juni 2019 wurde Transkribus im Rahmen des Horizon 2020 READ-Projekts unter der Fördervereinbarung Nr. 674943 finanziert.

Einführung

  • Die Transkribus-Plattform ermöglicht es Anwendern, ein Handwritten-Text-Recognition-Modell (HTR+) zu trainieren, um eine Sammlung von Dokumenten automatisch zu verarbeiten. Das Modell muss darauf trainiert werden, einen bestimmten Schreibstil zu erkennen, indem ihm Bilder von Dokumenten und deren genaue Transkriptionen gezeigt werden.
  • Für das Training eines Modells werden zwischen 5.000 und 15.000 Wörter (ca. 25-75 Seiten) an transkribiertem Material benötigt. Wenn Sie nicht mit handschriftlichem, sondern mit gedrucktem Text arbeiten, ist in der Regel eine kleinere Menge an Trainingsdaten erforderlich.
  • Durch die Verwendung eines Basismodells kann die Menge der benötigten Trainingsdaten reduziert werden. Als Basismodell können Sie entweder eines der öffentlich verfügbaren Modelle in Transkribus verwenden, wenn es ein passendes für Ihre Dokumente gibt, oder eines Ihrer eigenen Modelle, das Sie bereits zuvor trainiert haben. Eine Übersicht über die derzeit verfügbaren öffentlichen Modelle finden Sie hier: https://transkribus.eu/wiki/images/d/d6/Public_Models_in_Transkribus.pdf
  • Die Modell-Trainingsfunktion ist nicht automatisch in der Standard-Transkribus-Plattform enthalten. Wenn Sie bereit sind, ein Modell zu trainieren, kontaktieren Sie das Transkribus-Team (info@readcoop.eu) und sie geben Ihnen Zugriff auf die Funktion.

Vorbereitung

  • Wir empfehlen, den Trainingsprozess mit 5.000 bis 15.000 Wörtern transkribiertem Material zu beginnen, je nachdem, ob es sich um gedruckten oder handschriftlichen Text handelt. Wie bereits angedeutet, können Basismodelle die erforderliche Menge an Trainingsdaten reduzieren.
  • Die neuronalen Netze in HTR+ lernen schnell, und je mehr Trainingsdaten sie haben, desto besser werden die Ergebnisse sein.
  • Sie können Trainingsdaten für HTR+ in Transkribus erstellen, indem Sie Bilder hochladen und Text transkribieren. Für eine vollständige Anleitung, siehe Wie man Dokumente mit Transkribus transkribiert - Einführung.
  • Wenn Sie bereits über vorhandene Transkripte verfügen, können Sie diese auch zum Trainieren Ihres Modells verwenden. Für weitere Informationen siehe So verwenden Sie vorhandene Transkriptionen zum Trainieren eines HTR-Modells.

Ausbildung

  • Die wichtigsten Optionen für das Training eines Modells finden Sie in der Registerkarte "Tools" im "Text Recognition" Abschnitt.
  • Als "Method"ist "HTR (CITlab)" die effektivste Option, die Sie wählen können.
  • Durch Klicken auf die Schaltfläche "Modelle" können Sie sehen, welche Modelle verfügbar sind und auf welchen Dokumenten sie trainiert wurden.
  • Mit dem "Train" Taste gelangen Sie zu den Optionen für das Training von Modellen.

Abbildung 1 Wo Sie die Werkzeuge für die Schulung finden

HTR+ Training einrichten

  • Um zum Fenster "HTR+ Training" zu gelangen, klicken Sie in der Registerkarte "Tools" auf die Schaltfläche "Train".

Abbildung 2 So öffnen Sie das Fenster "HTR-Training".

  • Es öffnet sich das folgende Fenster:

Abbildung 3 Fenster "HTR-Training"

  • Im oberen Bereich müssen Sie Details zu Ihrem Modell hinzufügen.

Abbildung 4 Hinzufügen von Details zum Modell

  • Bitte hinzufügen
    • Modellname (von Ihnen gewählt)
    • Sprache (Ihrer Dokumente)
    • Beschreibung (Ihrer Dokumente und der als Trainings- und Testdaten ausgewählten Seiten)
  • Hinweis: "Nr. of Epochs" bezieht sich auf die Anzahl, wie oft die Trainingsdaten ausgewertet werden. Wenn Sie die Anzahl der Epochen erhöhen, dauert der Trainingsvorgang länger.

Basismodell

  • Es ist möglich, ein Basismodell zu Ihrem Training hinzuzufügen. Wenn Sie diese Option wählen, werden die Informationen, die das Basismodell enthält, in das neue Modell integriert. Um einen Nutzen zu haben, muss das Basismodell der Schrift ähnlich sein, die es anschließend erkennen soll. Mit Hilfe eines Basismodells ist es möglich, den Trainingsprozess zu beschleunigen. Eine Qualitätsverbesserung ist nicht garantiert, sie muss im Einzelfall getestet werden.
  • Ein großer Vorteil der Arbeit mit Basismodellen ist, dass sie es ermöglichen, mit einer geringeren Anzahl von Trainingsseiten zu beginnen, was bedeutet, dass der Transkriptionsaufwand reduziert wird.
  • Beachten Sie jedoch, dass mit zunehmender Anzahl der trainierten Epochen der Anfangszustand des Basismodells vergessen wird und sich das Training nur noch an die tatsächlich vorliegenden Daten anpasst. Um dies zu verhindern, fügen Sie auch die aktuellen Daten des Basismodells zum Training (siehe nächster Punkt).
  • Um ein Basismodell zu verwenden, müssen Sie einfach das gewünschte Modell mit der Schaltfläche "Choose..." neben "Base Model:" auswählen.

Trainingsset

  • Als nächstes müssen Sie die Seiten auswählen, die Sie in Ihren Trainingsdatensatz aufnehmen möchten.
  • Um alle Seiten Ihres Dokuments zum Trainingsset hinzuzufügen, klicken Sie auf den Ordner und dann auf "+Training".
  • Um eine bestimmte Reihenfolge von Seiten aus Ihrem Dokument zum Trainingsset hinzuzufügen, doppelklicken Sie auf den Ordner, klicken Sie auf die erste Seite, die Sie aufnehmen möchten, halten Sie die "Umschalt"-Taste auf Ihrer Tastatur gedrückt und klicken Sie dann auf die letzte Seite. Klicken Sie dann auf "+Training".
  • Um einzelne Seiten aus Ihrem Dokument zum Trainingsset hinzuzufügen, doppelklicken Sie auf den Ordner, halten Sie die "STRG"-Taste auf Ihrer Tastatur gedrückt und wählen Sie die Seiten aus, die Sie als Trainingsdaten verwenden möchten. Klicken Sie dann auf "+Training".
  • Die von Ihnen ausgewählten Seiten werden im Bereich "Trainingsset" angezeigt.

Abbildung 5 Hinzufügen aller Seiten für das Training

Validierungssatz

  • Während des Trainingsprozesses wird ein Validation Set von Seiten beiseite gelegt und nicht zum Training des HTR verwendet. Diese Testseiten können dann verwendet werden, um die Genauigkeit Ihres Modells zu beurteilen.
  • Wir empfehlen, dass Sie mindestens eine Testseite für jeweils 50-100 Seiten Ihres Trainingssets auswählen.
  • Die Seiten in Ihrem Validation Set sollten repräsentativ für die Dokumente in Ihrer Sammlung sein.
  • Je mehr Seiten sich in Ihrem Validation Set befinden, desto länger dauert das HTR-Training.
  • Um Seiten zum Validation Set hinzuzufügen, folgen Sie demselben Prozess wie oben, klicken aber auf die Schaltfläche "+Validation".

Abbildung 6 Hinzufügen von Seiten zum Testsatz

  • Um Seiten aus dem "Training Set" oder "Test Set" zu entfernen, klicken Sie auf die Seite und dann auf die rote Kreuz-Schaltfläche.

Abbildung 7 Entfernen von Seiten

  • Sie können sich die in Ihrem Testsatz verwendeten Seiten im Feld Modellbeschreibung notieren.
  • Starten Sie das Training, indem Sie auf die Schaltfläche "OK" klicken.

Fortschritt prüfen

  • Sie können den Fortschritt des Trainings verfolgen, indem Sie auf die Schaltfläche "Jobs" im Register "Server" klicken.

Abbildung 8 Überprüfen Sie den Fortschritt des Trainings mit der Schaltfläche "Jobs".

  • Der Abschluss jeder Epoche wird im Fenster "Jobs auf dem Server" angezeigt, ebenso wie der Abschluss des Trainingsvorgangs.
  • Das Training eines HTR+-Modells dauert mindestens ein paar Tage. Sie können während des Trainings andere Aufgaben in Transkribus ausführen oder die Plattform schließen.

Abbildung 9 Übersicht "Jobs auf Server"

Nach der Schulung

  • Nachdem das Training Ihres Modells abgeschlossen ist, wird es in Ihrer Sammlung verfügbar sein.
  • Um darauf zuzugreifen, klicken Sie auf die Schaltfläche "Modelle" in der Registerkarte "Werkzeuge".

Abbildung 10 Öffnen des Fensters "Modell wählen"

  • Es öffnet sich das folgende Fenster:

Abbildung 11 Fenster "Modell wählen"

  • Auf der linken Seite des Fensters sehen Sie eine Übersicht über die verfügbaren Modelle.
  • Auf der rechten oberen Seite des Fensters werden die Details des Modells angezeigt.
  • Unten rechts können Sie die Lernkurve Ihres Modells sehen. Weitere Informationen zu diesen Statistiken finden Sie unten.

Statistik

  • Das Diagramm "Lernkurve" zeigt die Genauigkeit Ihres Modells an

Abbildung 12 "Lernkurve" Ihres Modells

  • Wie Sie in Abbildung 12 sehen können, ist die y-Achse als "Genauigkeit in CER" definiert
  • "CER" steht für Zeichenfehlerrate, d. h. der Prozentsatz der Zeichen, die von HTR+ falsch transkribiert wurden.
  • Genauigkeit in CER" wird als Prozentsatz auf der y-Achse angezeigt. Die Kurve beginnt immer bei 100% und sinkt mit dem Fortschreiten des Trainings und der Verbesserung des Modells.
  • Die x-Achse ist definiert als "Epochen”.
  • Während des Trainingsprozesses nimmt Transkribus nach jeder Epoche eine Auswertung vor. In Abbildung 12 wurde das "Training Set" in 20 Epochen aufgeteilt.
  • Wenn Sie ein Modell trainieren, können Sie angeben, in wie viele "Epochen" das "Training Set" unterteilt werden soll. Je mehr Epochen es gibt, desto länger dauert das Training.
  • Der Grafik zeigt zwei Linien, eine in blau und eine in rot.
  • Der blaue Linie stellt den Fortschritt des Trainings dar.
  • Der rote Linie stellt den Fortschritt der Auswertungen auf dem Testsatz dar.
  • Zunächst trainiert sich das Programm auf die Trainingsset, dann testet es sich selbst auf Seiten im Testsatz.
  • Unter dem Diagramm werden zwei Prozentwerte angezeigt, die sich auf den CER für das Trainingsset und das Testset beziehen.
  • In Abbildung 12 zeigt das Modell eine Leistung von 14,19% CER im Trainingsset und 9,57% im Testset.
  • Der Wert für das Test Set ist am aussagekräftigsten, da er zeigt, wie sich der HTR+ auf Seiten verhält, auf denen er nicht trainiert wurde.
  • Ergebnisse mit einer CER von 10% oder darunter können als sehr effizient für die automatische Transkription angesehen werden.
  • Ergebnisse mit einer CER von 20-30% sind ausreichend, um mit der leistungsstarken Keyword-Spotting-Technologie zu arbeiten. Für weitere Details siehe unser How To Transcribe - Anleitung zum Keyword Spotting.

HTR-Transkripte generieren

  • Jetzt, wo Sie Ihr Modell haben, können Sie es verwenden, um automatisch Transkripte der Dokumente in Ihrer Sammlung zu erzeugen.
  • Erstens, laden Sie Ihre Dokumente an Transkribus hoch.
  • Zweitens, segmentieren Sie Ihre Dokumente in Textbereiche, Linien und Grundlinien.
  • Für weitere Informationen über Hochladen und Segmentierung, bitte konsultieren Sie Wie man Dokumente mit Transkribus transkribiert - Einführung.
  • Um auf Ihr Modell zuzugreifen, klicken Sie auf die Registerkarte "Tools" und gehen Sie zum Abschnitt "Text Recognition".
  • Klicken Sie auf "Run" und dann auf "Choose HTR-model". Wählen Sie Ihr HTR-Modell aus der Liste auf der linken Seite des Bildschirms und klicken Sie auf "OK".
  • Wählen Sie, ob Sie ein einseitiges oder mehrseitiges HTR-Transkript erzeugen möchten.
  • Drücken Sie "Run", um den Texterkennungsprozess zu starten.
  • Sobald die Erkennung abgeschlossen ist, wird die automatische Transkription im Texteditor-Feld angezeigt.

Wörterbücher/Sprachmodelle

  • Sprachmodelle sind die neuen Wörterbücher in Transkribus: Sie haben einen Großteil der Funktionalitäten der Wörterbücher übernommen.
  • Sie werden automatisch mit dem HTR-Modell erstellt und können dem Erkennungsprozess hinzugefügt werden:
    • Klicken Sie auf "Ausführen" im Abschnitt "Texterkennung" auf der Registerkarte "Extras".
    • Klicken Sie auf "HTR-Modell auswählen".
    • Im erscheinenden Fenster finden Sie oben rechts die Option Sprachmodell
    • Klicken Sie auf das Dropdown-Menü und wählen Sie "Sprachmodell aus Trainingsdaten".
  • Die Wirkung von Sprachmodellen muss im Einzelfall getestet werden: In vielen Fällen können sie die Erkennung verbessern, aber wir sehen bisher auch Fälle, in denen sie das nicht tun.

Abbildung 13 Sprachmodelle

  • Benutzerdefinierte Wörterbücher werden vor allem dann verwendet, wenn Sie an speziellen Phrasen im Dokument interessiert sind. Ein benutzerdefiniertes Wörterbuch muss durch das Transkribus-Team erstellt werden, falls Sie ein solches benötigen, kontaktieren Sie uns bitte über info@readcoop.eu.

Abbildung 14 Modell ausführen

Ein Modell teilen

  • Sie können Ihr HTR-Modell mit anderen Sammlungen in Transkribus teilen, unabhängig davon, ob diese Ihnen oder anderen Benutzern gehören.
  • Wenn Sie Ihr Modell für eine andere Sammlung freigeben möchten, müssen Sie Zugriff auf diese Sammlung haben.
  • Klicken Sie mit der rechten Maustaste auf den Namen Ihres Modells (auf der linken Seite des Fensters "Wählen Sie ein Modell").

Abbildung 15 Freigeben eines Modells durch Rechtsklick auf den Namen Ihres Modells

  • Wählen Sie dann "Modell freigeben...".
  • Es öffnet sich das Fenster "Sammlung per Doppelklick auswählen".
  • Klicken Sie im nächsten Fenster auf die Sammlung, für die Sie das Modell freigeben möchten, und drücken Sie "OK".
  • In diesem Fenster können Sie auch eine neue Sammlung für das Modell mit der Schaltfläche "Erstellen" anlegen.
  • Klicken Sie zum Bestätigen auf "OK".

Abbildung 16 Wie Sie Ihr Modell freigeben

  • Wenn Sie die Sammlung ausgewählt haben, klicken Sie noch einmal auf "OK" und das Modell wird nun freigegeben.

Abbildung 17 Bestätigen Sie die Freigabe Ihres Modells

Abbildung 18 Modell wurde geteilt

Ergebnisse

  • Sobald das Training abgeschlossen ist, können Sie Ihr Modell an jedem anderen historischen Dokument mit ähnlicher Schrift ausprobieren.
  • Sie können Ihr Modell mit anderen Personen teilen, die ebenfalls davon profitieren können.
  • Sie können den Trainingsprozess mit mehr Daten wiederholen, um effizientere Ergebnisse zu erzielen.
  • Sie können die Genauigkeit Ihres Modells mit der Funktion "Genauigkeit berechnen" messen.
  • Die Ergebnisse des HTR hängen davon ab, wie ähnlich und wie eindeutig die Schrift im historischen Dokument ist.
  • Das Transkribus-Team arbeitet an einem Algorithmus, der es ermöglichen wird, jede Art von Dokument automatisch zu transkribieren, ohne dass Trainingsdaten vorbereitet werden müssen. Die Technologie lernt aus allen in Transkribus verarbeiteten Trainingsdaten.
  • Je mehr Daten wir also verarbeiten, desto effizienter wird die Technologie. Trainieren Sie Ihr eigenes Modell und seien Sie ein Teil davon!

Credits

Wir möchten uns bei den vielen Anwendern bedanken, die mit ihrem Feedback zur Verbesserung der Transkribus-Software beigetragen haben.