Trainieren und Anwenden von Modellen zur Erkennung von handgeschriebenem Text in Transkribus Lite

Trainieren und Anwenden von Modellen zur Erkennung von handgeschriebenem Text in Transkribus Lite

Transkribus Werkzeuge
Transkribus Lite
Letzte Aktualisierung Vor 10 Monaten
Über Transkribus

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier erläutert

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier erläutert

Inhaltsverzeichnis

Inhaltsverzeichnis

Die Transkribus-Plattform ermöglicht es Nutzern, Handwritten Text Recognition (HTR) Modelle zu trainieren, um ihre Dokumente automatisch zu transkribieren. Viele öffentliche Modelle, die von der Transkribus-Gemeinschaft trainiert wurden, sind bereits verfügbar und können von jedem Transkribus-Nutzer verwendet werden: Sie finden die Liste hier erläutert. Wenn jedoch kein öffentliches Modell für Ihre Dokumente geeignet ist, können Sie ein individuelles Texterkennungsmodell trainieren, um die spezifische Schrift Ihrer Dokumente zu erkennen.

HTR-Modelle müssen darauf trainiert werden, einen bestimmten Schreibstil zu erkennen, indem man ihnen Bilder von Dokumenten und deren genaue Transkription zeigt. Auf dieser Seite wird erklärt, wie Sie mit Transkribus Lite ein HTR-Modell trainieren und anwenden können, um Ihre Dokumente automatisch zu transkribieren.

Vorbereitung

Bevor Sie mit dem Training eines HTR-Modells beginnen, müssen Sie Aufbereitung der Trainingsdatend.h. die Bilder und die dazugehörigen genauen Transkriptionen, auf denen der HTR lernen wird. 

Abhängig von der Art des Materials und den Händen, zwischen 5.000 und 15.000 Wörter (etwa 25-75 Seiten) transkribiertes Material erforderlich sind. Wenn Sie mit gedrucktem und nicht mit handgeschriebenem Text arbeiten, ist in der Regel eine geringere Menge an Trainingsdaten erforderlich.
Die neuronalen Netze der Handschrifterkennungs-Engine lernen schnell; je mehr Trainingsdaten sie haben, desto besser werden die Ergebnisse.

Zur Erstellung von Trainingsdaten für HTR in Transkribus:

  • Gehen Sie zum Menü Extras auf der linken Seite und klicken Sie auf "Sammlung erstellen".
  • Nachdem Sie den Namen eingegeben und die Sammlung erstellt haben, laden Sie Ihre Bilder (.jpeg oder .png) oder PDFs hoch.
  • Wählen Sie nach dem Hochladen die Seiten/Dokumente aus, die Sie für das Training verwenden möchten, und starten Sie die Layouterkennung, indem Sie auf die Schaltfläche "Layouterkennung" im Menü "Werkzeuge" auf der linken Seite klicken. Die Layout-Erkennung erstellt die Entsprechung zwischen den Zeilen im Bild und den Zeilen im Texteditor.
  • Öffnen Sie eine Seite mit der Schaltfläche "Bearbeiten" und schreiben Sie sie ab. Wenn Ihre Transkription vollständig und genau ist, speichern Sie die Seite als "Ground Truth"(Status zur Angabe der Seiten, die für das Training verwendet werden sollen). Setzen Sie die Transkription für alle Seiten fort, die in die Trainingsdaten aufgenommen werden sollen.

Training

Sobald Sie zwischen 25 und 75 transkribierte Seiten haben, ist es an der Zeit, das Texterkennungsmodell zu trainieren. Sehen Sie sich das Video an oder lesen Sie die nachstehenden Anweisungen, um zu verstehen, wie Sie das Training starten.

Klicken Sie auf die "Registerkarte "Ausbildung oben, rechts neben "Workdesk". Dieser Bereich ist für das Training sowohl von Texterkennungs- als auch von Baselines-Modellen vorgesehen. In diesem Fall geht es um das Training eines Texterkennungsmodells, das beim Öffnen standardmäßig ausgewählt ist.

Dann müssen Sie die Sammlung auswählen, die Ihre Trainingsdaten enthält. Geben Sie den Titel der Sammlung oder die Sammlungs-ID ein und wählen Sie sie aus.
Beachten Sie, dass Sie während der Schulung keine Dokumente aus verschiedenen Sammlungen auswählen können. Um dieses Problem zu umgehen, können Sie vor Beginn der Schulung die Dokumente mit nur einer Sammlung verknüpfen, indem Sie auf die drei Punkte am unteren Rand jeder Dokument-Miniaturansicht auf der Seite mit der Sammlungsübersicht klicken.

Nach der Auswahl der Sammlung beginnt der eigentliche Trainingsaufbau. Sie ist in vier Abschnitte unterteilt:

1. Modell-Einstellung

Hier werden Sie aufgefordert, die Metadaten Ihres Modells im Detail hinzuzufügen:

  • Modellname (von Ihnen gewählt)
  • Beschreibung Ihres Modells und der Dokumente, an denen es trainiert wird (Material, Zeiträume, Hände...)
  • Sprache(n) Ihrer Dokumente
  • Zeitspanne Ihrer Dokumente

Sie können dann entscheiden, welche Transkriptversion für die Schulung verwendet werden soll: die letzte Transkription oder nur Ground Truth. Bei der ersten Option werden alle aktuellen Transkripte, unabhängig davon, wie sie gespeichert wurden, angezeigt und können für die Schulung ausgewählt werden. Wenn Sie "Nur Ground Truth" wählen, sind nur die als Ground Truth gespeicherten Seiten auswählbar. 

Abbildung 1. Modellaufbau

2. Trainingsdaten

Während der Ausbildung werden die Seiten in zwei Gruppen aufgeteilt: 

  • Trainingsdaten oder TrainingssatzTrainingsdaten: Satz von Beispielen, die zur Anpassung der Parameter des Modells verwendet werden, d. h. die Daten, auf denen das Wissen im Netz basiert. Das Modell wird auf den als Trainingsdaten ausgewählten Seiten trainiert.
  • Validierungsdaten oder ValidierungssatzSatz von Beispielen, der eine unvoreingenommene Bewertung eines Modells liefert und dazu dient, die Parameter des Modells während des Trainings abzustimmen. Mit anderen Worten, die Seiten des Validierungssatzes werden während des Trainings beiseite gelegt und zur Bewertung der Genauigkeit des Modells verwendet.
    Wir empfehlen, dass Ihr Validation Set etwa 10% des Training Sets beträgt. Die Seiten in Ihrem Validation Set sollten repräsentativ für die Dokumente in Ihrer Sammlung sein und alle Beispiele umfassen, da sonst die Messung der Leistung des Modells verzerrt werden könnte.

Wählen Sie hier die Seiten aus, die in die Trainingsdaten aufgenommen werden sollen. Wenn Sie das Kästchen neben dem Titel des Dokuments ankreuzen, können Sie alle im Dokument verfügbaren Transkriptionen auswählen. Sie können aber auch den Inhalt des Dokuments erweitern und nur einige Seiten auswählen. Die ausgewählten Seiten werden auf der rechten Seite aufgelistet. 

Die Seiten, die keine Transkription enthalten, können nicht ausgewählt werden. Um die Seite in einer neuen Registerkarte anzuzeigen, klicken Sie auf das Augensymbol.

Abbildung 2. Trainingsdaten

3. Validierungsdaten

Im nächsten Abschnitt wählen Sie die Seiten aus, die Sie dem Validierungsdaten. Denken Sie daran, dass die Validierungsdaten vielfältig sein müssen und möglichst alle Arten von Elementen der in den Trainingsdaten enthaltenen Dokumente enthalten sollten. Wir empfehlen, beim Validation Set nicht an Aufwand zu sparen und die um 10% Ihrer Transkriptionen zu. 

Sie können die Seiten manuell auswählen oder sie automatisch zuweisen. Die manuelle Auswahl funktioniert wie oben für die Trainingsdaten beschrieben. Es sind nur die Seiten auswählbar, die Text enthalten und nicht in die Trainingsdaten aufgenommen wurden. Bei der automatischen Auswahl werden 2%, 5% oder 10% aus dem Training Set automatisch dem Validation Set zugeordnet: Klicken Sie in diesem Fall einfach auf den Prozentsatz, den Sie zuordnen möchten. Die automatische Auswahl wird empfohlen, um ein variableres Validation Set zu erhalten.

Abbildung 3. Validierungsdaten

4. Starten Sie

Der letzte Abschnitt enthält eine Übersicht über die Modellkonfiguration. Hier, am unteren Rand der Seite, können Sie auch zwei erweiterte Parameter ändern:

Anzahl der Epochen

Die Anzahl der Epochen bezieht sich darauf, wie oft die Trainings- und Validierungsdaten ausgewertet werden. In diesem Fall gibt die Zahl die maximale Anzahl der trainierten Epochen an, da das Training automatisch gestoppt wird, wenn sich das Modell nicht mehr verbessert (d.h. die niedrigste mögliche CER erreicht hat). Für den Anfang ist es sinnvoll, bei der Standardeinstellung von 250 zu bleiben.

Vorzeitiges Anhalten

Der Wert 20 bedeutet, dass das Training abgebrochen wird, wenn nach 20 Epochen der CER des Validierungssatzes nicht abnimmt. Wenn es keine oder nur eine geringe Variation in den Validierungsdaten gibt, könnte das Modell zu früh aufhören. Aus diesem Grund empfehlen wir die Erstellung eines vielfältiges Validierungsset die alle Handtypen und Dokumenttypologien des Trainingssets enthält. 

Nur wenn Ihr Validation Set eher klein ist, erhöhen Sie bitte den "Early Stopping"-Wert, um zu vermeiden, dass das Training abbricht, bevor es alle Trainingsdaten gesehen hat.

Nachdem Sie alle Details überprüft und eventuell die erweiterten Parameter geändert haben, klicken Sie auf "Training starten", um das Training zu beginnen.

Sie können den Fortschritt der Ausbildung verfolgen, indem Sie auf die Schaltfläche "Jobs" im linken Menü des "Transkribus Organizer" klicken. Der Abschluss jeder Epoche wird in der Beschreibung des Jobs angezeigt, und Sie erhalten eine E-Mail, wenn der Trainingsprozess abgeschlossen ist.

Je nach Auslastung der Server und der Menge des Materials kann Ihre Schulung eine Weile dauern. Im Fenster "Aufträge" können Sie Ihre Position in der Warteschlange überprüfen (d.h. die Anzahl der Trainings, die vor Ihnen liegen). Sie können während des Trainings andere Aufträge in Transkribus erledigen oder die Plattform schließen. Wenn der Job-Status auf "erstellt" oder "läuft" steht, starten Sie bitte keine neue Schulung, sondern warten Sie einfach ab.

Nach dem Training

Nachdem das Training Ihres Modells abgeschlossen ist, wird es unter Ihren privaten Modellen verfügbar sein. Um darauf zuzugreifen, gehen Sie auf die Registerkarte "Training" und klicken Sie auf "Modell-Manager"Hier können Sie alle öffentlichen Modelle und Ihre privaten Modelle durchsuchen. Um Ihre häufig genutzten Modelle schnell wiederzufinden, klicken Sie auf den Stern rechts neben dem Modellnamen, und das Modell erscheint in Ihrer Liste "Lieblingsmodell".

Wenn Sie ein Modell auswählen, werden die Metadaten des Modells auf der rechten Seite angezeigt: 

  • den Modellnamen;
  • seinen Schöpfer; 
  • die Anzahl der Wörter, für die es trainiert wurde; 
  • als es ausgebildet wurde; 
  • die Sprache(n) des für die Schulung verwendeten Dokuments; 
  • die Art des Materials (handschriftlich/gedruckt); 
  • die Zeichenfehlerrate bei den Validierungsdaten; 
  • die Modell-ID.
Abbildung 4. Modell-Manager

Die Leistung eines Modells wird auf der Grundlage des "Abstands" zwischen einer perfekten Transkription und dem erkannten Text bestimmt und anhand der Zeichenfehlerrate (CER), d. h. der Prozentsatz der Zeichen, die vom Texterkennungsmodell falsch transkribiert wurden. 

Der hier angegebene CER wird auf den Seiten der Validierungsdaten gemessen und zeigt, wie das Textmodell auf Seiten abschneidet, auf denen es nicht trainiert wurde. Ergebnisse mit einem CER von 10% oder darunter können als sehr effizient für die automatische Transkription angesehen werden. Ergebnisse mit einem CER von 20-30% sind ausreichend, um mit leistungsstarken Suchwerkzeugen wie Smart Search zu arbeiten. Weitere Einzelheiten finden Sie in unserem Dokumente suchen mit Smart Seach.

Wenn Sie auf "Beschreibung" klicken, können Sie die Beschreibung lesen, die der Ersteller des Modells hinzugefügt hat, und die Lernkurve des Modells sehen.

Die "Lernkurve"Das Diagramm zeigt die Genauigkeit Ihres Modells an. Die y-Achse stellt die Zeichenfehlerrate dar. Die Kurve sinkt, je weiter das Training fortschreitet und je besser das Modell wird. Die x-Achse stellt die Epochen dar, d.h. den Trainingsfortschritt. Während des Trainingsprozesses nimmt Transkribus nach jeder Epoche eine Auswertung vor. In Abbildung 5 wurden 109 Epochen trainiert. In diesem Fall wurde die maximale Anzahl der Epochen auf 250 festgelegt, aber das Training wurde automatisch bei 109 beendet, weil sich das Modell nicht mehr verbesserte.  

Abbildung 5. Lernkurve

Das Diagramm zeigt zwei Linien, eine in blau und eine in grün. Die blaue Linie stellt den Fortschritt des Trainings dar. Die grüne Linie stellt den Fortschritt der Auswertungen auf dem Validation Set dar. 

Sobald das Training abgeschlossen ist, können Sie Ihr Modell an jedem anderen historischen Dokument mit ähnlicher Schrift ausprobieren. Die Ergebnisse hängen davon ab, wie ähnlich und wie deutlich die Schrift in dem historischen Dokument ist. 

Text-Erkennung

Nun, da Sie Ihr Modell haben, können Sie es verwenden, um automatisch Abschriften Ihrer Dokumente zu erstellen.

Nachdem Sie das Dokument hochgeladen haben, wählen Sie das gesamte Dokument oder die Seiten aus, die Sie transkribieren möchten. Klicken Sie dann auf "Texterkennung" im Menü "Werkzeuge" auf der linken Seite und wählen Sie das gewünschte Modell aus. 

In der oberen Leiste wird angezeigt, wie viele Credits Sie für den Auftrag verwenden werden, und es gibt zwei zusätzliche Optionen, die Sie nur vor Beginn der Erkennung aktivieren können:

  • Smart SearchSmart Search: ermöglicht eine erweiterte und leistungsfähige Suche in den Dokumenten. Die Standardsuche geht durch die Transkription, wie sie im Texteditor erscheint; mit Smart Search speichert Transkribus viele mögliche Alternativen für jedes Wort und stellt diese für die Suche zur Verfügung. So ist es möglich, Suchbegriffe zu finden, die bei einer regulären Volltextsuche, die nur einen Kandidaten pro Wort speichert, nicht gefunden werden würden. Weitere Details finden Sie in unserer Dokumente suchen mit Smart Seach.
  • Sprachmodell: wird automatisch während des Trainings des Texterkennungsmodells erstellt und basiert auf den Trainingsdaten. Es kann dem Erkennungsprozess hinzugefügt werden, aber die Wirkung muss im Einzelfall getestet werden: In vielen Fällen verbessert das Sprachmodell die Erkennung, aber bisher haben wir auch Fälle gesehen, in denen dies nicht der Fall war.

Um die Erkennung zu starten, klicken Sie auf "Start". Sie können den Fortschritt der Erkennung überprüfen, indem Sie auf die Schaltfläche "Aufträge" im linken Menü des "Transkribus Organizer" klicken. Wenn die Erkennung abgeschlossen ist, öffnen Sie eine Seite oder laden Sie sie neu, und der Text wird rechts neben dem Bild angezeigt.