Verwendung vorhandener Transkriptionen zum Trainieren eines HTR-Modells mit dem TextToImage-Tool

Verwendung vorhandener Transkriptionen zum Trainieren eines HTR-Modells mit dem TextToImage-Tool

Transkribus Werkzeuge
Transkribus Expert Client
Letzte Aktualisierung Vor 1 Monat
Über Transkribus

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier

Inhaltsverzeichnis

Inhaltsverzeichnis

Dies ist eine kurze Einführung für diejenigen Benutzer, die über bestehende Transkriptionen verfügen und diese zum Trainieren eines Handwritten Text Recognition (HTR+) Modells verwenden möchten. Bitte beachten Sie, dass das T2I-Feature nicht mit PyLaia-Modellen funktioniert. Es ist besonders nützlich für Benutzer, die bereits über mindestens 500-1000 Seiten transkribiertes Material verfügen. Das Text-to-Image-Tool ist jetzt in die Transkribs-Expert-Oberfläche implementiert. In diesem Leitfaden wird erklärt, wie Sie Ihre Bilder und vorhandenen Transkriptionen selbst abgleichen können.

Einführung

Die Transkribus-Plattform ermöglicht es Anwendern, ein Handwritten Text Recognition (HTR) Modell zu trainieren, um eine Sammlung von Dokumenten automatisch zu verarbeiten. Das Modell muss darauf trainiert werden, einen bestimmten Schreibstil zu erkennen, indem ihm Bilder von Dokumenten und deren genaue Transkriptionen gezeigt werden.

In den letzten 20 Jahren wurden Tausende von wissenschaftlichen Transkriptionsprojekten durchgeführt. Eine riesige Menge an Dokumenten wurde transkribiert und ist nun in elektronischer Form verfügbar. Alle diese Transkriptionen können auf einfache und unkomplizierte Weise als Schulungsmaterial für HTR verwendet werden.

Das t2i-Tool, entwickelt vom CITlab Team an der Universität Rostock, erstellt Trainingsdaten aus vorhandenen Transkriptionen. Es nutzt einen Algorithmus, um Transkriptionen automatisch mit Bildern von handschriftlichem Material abzugleichen und verarbeitet diese, um ein HTR-Modell zu erstellen. Das Tool ist besonders nützlich für Anwender, die bereits über mindestens 500-1000 Seiten transkribiertes Material verfügen.

Anstatt Trainingsdaten für HTR manuell in Transkribus zu erzeugen (vgl. Wie man Dokumente mit Transkribus transkribiert - Einführung), können Anwender einfach ihre bestehenden Transkriptionen verwenden, um die Technologie auszuprobieren. Auf diese Weise können zuverlässige Transkriptionen erzeugt werden, ohne dass der Workflow oder die Bearbeitungsoberfläche eines Projekts geändert werden muss. Bitte beachten Sie, dass diese Technologie keine fehlerfreie Transkription liefern kann. Sie basiert auf einem HTR-Modell, das selbst eine gewisse Fehlerquote aufweist. Einige manuelle Korrekturen werden notwendig sein. Wenn Sie eine perfekte, fehlerfreie Transkription benötigen, ist es möglicherweise schneller, die vorhandenen Transkriptionen direkt in Transkribus zu kopieren.

Vorbereitung

Einführung

  • Wenn Sie mit dem t2i-Tool arbeiten möchten, müssen Sie Zugang zu digitalisierten Bildern und Transkripten Ihrer Dokumente haben.
  • Auch diese Dateien müssen gemäß den unten stehenden Anweisungen vorbereitet werden, bevor sie mit t2i verarbeitet werden können.

Anzahl der Seiten

  • Wir empfehlen, dass Sie den Trainingsprozess mit mindestens 20.000 (oder ca. 100 Seiten) transkribiertem Material beginnen.
  • T2i funktioniert besonders gut, wenn bereits eine größere Anzahl von Transkripten vorhanden ist, z.B. 500 oder mehr Seiten.
  • Diese Technologie ist in der Lage, eine hohe Menge an Transkripten (100.000 Seiten und mehr) zu verarbeiten.
  • Die neuronalen Netze in HTR lernen schnell und je mehr Trainingsdaten, desto besser können die Ergebnisse sein.

Bild-Dateien

  • Es können alle Arten von Bildern verarbeitet werden.
  • Die Bilder sollten eine Auflösung von mindestens 200 ppi haben, oder - wenn die Bilder von einer Kamera stammen - als Faustregel sollte die x-Höhe eines einzelnen Zeichens mit mindestens 15-20 Pixeln dargestellt werden.
  • Natürlich hängt die Genauigkeit der HTR etwas von der Qualität der Bilder ab. Dennoch kann mit genügend Trainingsdaten auch schwierigeres Material von Mikrofilmen oder bitonalen Scans verarbeitet werden.

Transkript-Dateien

  • Alle Transkripte sollten in Form von einfachen Textdateien (TXT) gespeichert werden.
  • Wenn Ihre Transkriptionen als TEI- (Text Encoding Initiative), Word-, XML- oder HTML-Dateien vorliegen, sollten Sie sie in TXT-Dateien umwandeln, d.h. durch Kopieren und Einfügen der Transkripte in Notepad.
  • Transkriptionen sollten auf Seitenebene gespeichert werden, d. h. eine TXT-Datei für jedes Seitenbild.
    • Wenn Sie mit TEI vertraut sind, können Sie die TXT-Dateien mit einem "Text Export" erstellen.
    • Wenn Sie TXT-Dateien manuell erstellen, finden Sie es vielleicht schneller, Ihre Transkripte zu kopieren und Zeile für Zeile direkt in Transkribus einzufügen. Siehe Wie man Dokumente mit Transkribus transkribiert - Einführung für Informationen darüber, wie Sie dies tun.

Transkriptionen

  • Transkriptionen sollten frei von jeglichem Mark-up sein.
  • Wenn Ihre Transkription Zeilenumbrüche enthält, können diese beibehalten werden. Es ist jedoch nicht notwendig, am Ende jeder Textzeile Zeilenumbrüche einzufügen.
  • Das t2i-Tool kann auch Fälle behandeln, in denen ein auf zwei Zeilen aufgeteiltes Wort vollständig ohne Bindestrich transkribiert wurde.
  • Wenn in Ihrem Transkript ein unleserliches Wort vorkommt, löschen Sie am besten einfach die gesamte Zeile, in der dieses Wort vorkommt. Diese Zeile wird dann nicht für das Training der HTR verwendet.
  • Die Transkriptionen müssen nicht vollständig sein. Wenn Wörter im Transkript fehlen, werden sie nicht für das Training des HTR verwendet.
  • Es ist möglich, mit allen Arten von Unicode-Zeichen zu arbeiten, einschließlich arabischer und hebräischer Schrift.
  • In einigen Fällen können Transkriptionen, bei denen Abkürzungen erweitert wurden, auch für das t2i- und HTR-Training verwendet werden (Abkürzungen werden automatisch erweitert).

Benennen von Dateien

  • Die Dateien mit Ihren Bildern und Transkriptionen sollten eindeutig verlinkt sein.
  • Um dies zu erreichen, sollte jede Bilddatei mit dem exakt gleichen Namen wie die zugehörige TXT-Datei gespeichert werden.

Dateivorbereitung

  • Sobald Sie Ihre Bilder und Transkripte vorbereitet haben, müssen Sie sie in die richtige Struktur bringen:
    • Name des Dokuments
      • TXT
  • Sie können Ihre Dateien direkt in Transkribus hochladen. Für den Upload sollten die TXT-Dateien in einem extra Ordner namens 'txt', innerhalb eines Ordners mit Bildern, enthalten sein.

Abbildung 1 Wie Dateien aufgeteilt werden müssen

Abbildung 2 TXT-Datei

  • Hinweis: das t2i-Tool ist noch nicht perfekt! Normalerweise werden 50-75% der Zeilen auf Anhieb richtig zugeordnet. Wenn Bild- und Textzeilen nicht übereinstimmen, sind einige manuelle Korrekturen erforderlich.

HTR-Modell

  • Für den Betrieb des t2i benötigen Sie ein HTR-Modell, das mit Ihrem Dokument übereinstimmt.
  • Wir haben bereits eine Reihe von bestehenden Modellen, Sie können prüfen, ob eines davon geeignet ist.
  • Ansonsten können Sie ein eigenes Modell für das t2i erstellen. Dazu müssen Sie für einige Seiten die Transkription in Transkribus einkopieren und diese dann als Trainingsmaterial verwenden. Weitere Informationen zum Training des Modells finden Sie in diesem Leitfaden: Modell Training in Transkribus

T2i in Transkribus

Scans und Transkripte zusammen hochladen

  • Wenn Sie Scans und Transkripte zusammen hochladen, folgen Sie der obigen Anleitung und verwenden Sie anschließend den "normalen" Transkribus-Import, den Sie im Hauptmenü finden.

Scans und Transkripte separat hochladen

Falls Sie die Bilder bereits zu einem früheren Zeitpunkt ohne die Textdateien hochgeladen haben, gehen Sie bitte wie folgt vor:

  • Öffnen Sie die Bilder in Transkribus
  • Speichern Sie die Textdateien in einem separaten Ordner auf Ihrem Computer
  • Klicken Sie in Transkribus auf "Main Menu" (oben links)
  • Klicken Sie auf "Document"
  • Wählen Sie "Sync local text files with doc".
  • Wählen Sie die Textdateien im Verzeichnis
  • Das folgende Fenster wird geöffnet:

Abbildung 3 Textdateien mit Dokument synchronisieren

  • "Use existing layout": Normalerweise startet das t2i eine neue Layoutanalyse für das Dokument. Wenn Sie dies nicht wünschen, können Sie diese Option abwählen.
    • Vorteile der Verwendung des bereits vorhandenen Layouts: Sie können es nachträglich korrigieren, indem Sie die Zeilen mit "Steuerung" und "Enter" in die richtige Position bringen.
    • Risiko bei der Erstellung des Layouts im Verlauf des t2i: es kann vorkommen, dass Zeilen ausgelassen werden.
  • "Match by filename": wählen, um die Dateien nach Namen zu synchronisieren
  • Bestätigen Sie mit "OK"

Matching in Transkribus

  • Importieren Sie die Dokumente in Transkribus mit einer der oben beschriebenen Möglichkeiten.
  • Öffnen Sie in Transkribus die Registerkarte "Tools". Im Bereich "Other Tools" finden Sie das t2i-Tool. Wenn Sie es anklicken, öffnet sich das folgende Fenster:

Abbildung 4 t2i-Konfiguration

  • Wählen Sie die Seiten, die abgeglichen werden sollen.
  • "Base Model": wählen Sie ein geeignetes Basismodell für das Dokument.
  • "Perform Layout Analysis": Normalerweise startet das t2i eine neue Layout-Analyse für das Dokument. Wenn Sie dies nicht wünschen, deaktivieren Sie diese Option.
  • "Remove Line Breaks": Wählen Sie diese Option, wenn die Zeilenumbrüche in den Textdateien nicht gesetzt werden sollen. Mit dieser Option wählen Sie, ob Zeilenumbrüche berücksichtigt werden sollen oder nicht.
  • "Use versions with edit status": falls Sie nicht die aktuellste Version des Dokuments für das t2i verwenden wollen, können Sie hier eine andere Version wählen. Diese Option bezieht sich auf den Status, der dem Dokument in Transkribus zugewiesen wurde.
  • "Threshold": gibt an, wie streng die Übereinstimmung sein soll, um ein Match zu haben. Der Standardwert ist 0,0, da falsche Übereinstimmungen im Nachhinein recht einfach korrigiert werden können. Je niedriger der Schwellenwert ist, desto toleranter ist der Abgleich.
  • "Allow ignoring text": wenn es in den Textdateien Text gibt, der nicht im Bild dargestellt wird.
  • "Allow skipping baselines": Wählen Sie diese Option, wenn in den Textdateien Zeilen fehlen.
  • "Ignore reading order"Mit dieser Option ignoriert der t2i die Zeilenreihenfolge, die im Zuge der Layoutanalyse festgelegt wurde. Diese Option kann bei komplizierten Layouts (z.B. wenn in einem Dokument sowohl vertikale als auch horizontale Schrift vorhanden ist) und bei Schriften, die von rechts nach links gelesen werden, hilfreich sein.
  • "Use hyphens": Mit diesen Optionen legen Sie fest, dass folgende Satzzeichen einen Zeilenumbruch bewirken: - = : ¬

Ergebnisse korrigieren

  • Nach Abschluss der t2i-Bearbeitung können falsch angepasste Linien korrigiert werden.
  • Ein guter Weg könnte sein, von Textbereich zu Textbereich zu springen und die erste und letzte Zeile zu überprüfen.
  • Um die Position von Zeilen zu korrigieren, können Sie diese mit "Control" und "Enter" nach unten, mit "Return" nach oben verschieben, und dann können Sie natürlich auch einfach Text im Texteditor löschen oder hinzufügen.
  • Wenn Sie Zeilen oder Bereiche löschen möchten, kann es hilfreich sein, dies innerhalb der "Layout"-Registerkarte zu tun, wo Sie eine Übersicht über das Layout des Dokuments finden.

Credits

Wir möchten uns bei den vielen Anwendern bedanken, die mit ihrem Feedback dazu beigetragen haben, die Transkribus-Software zu verbessern. Besonderer Dank geht an Gundram Leifert von der Universität Rostock für die Programmierung dieses Tools.