Modelle trainieren

In dieser Anleitung lernen Sie, wie Sie ein Erkennungsmodell in Transkribus trainieren. Ein trainiertes Modell wird Ihnen helfen, Ihre Sammlung automatisch zu transkribieren und zu durchsuchen. Für den Anfang benötigen Sie zwischen 25 und 75 Seiten manueller Transkription. Wenn Sie mit gedrucktem und nicht mit handgeschriebenem Text arbeiten, wird in der Regel eine geringere Menge an Trainingsdaten benötigt. Auch bei der Verwendung eines Basismodells kann die Menge der Trainingsdaten reduziert werden. Die Funktionalität zum Trainieren von Modellen ist nicht automatisch in der Standard-Transkribus-Oberfläche enthalten. Wenn Sie bereit sind, ein Modell zu trainieren, kontaktieren Sie bitte das Transkribus-Team über info@readcoop.eu und sie werden Ihnen Zugang zu dieser Funktion geben. 

Training des Modells

Die wichtigsten Optionen für das Training eines Modells finden Sie auf der Registerkarte "Tools" im Abschnitt "Text Recognition". Um sie zu öffnen, klicken Sie auf die "Train"-Schaltfläche.

Im oberen Bereich des erscheinenden Fensters müssen Sie Details zu Ihrem Modell hinzufügen. Bitte fügen Sie die folgenden Informationen hinzu:

  • Modellname
  • Sprache
  • Und eine kurze Beschreibung über das Modell und seinen Hintergrund

Verwendung eines Basismodells

Mit der Verwendung eines Basismodells können Sie das neue Modell mit dem Wissen eines bereits vorhandenen Modells unterstützen. Mit dieser Schaltfläche können Sie ein Basismodell zum Training hinzufügen. Als Basismodelle eignen sich öffentliche Modelle mit ähnlichen Schriften, also ein Modell, das Sie selbst an den gleichen oder ähnlichen Dokumenten trainiert haben.  

Auswählen des Ground Truths

Als nächstes müssen Sie die Seiten auswählen, die Sie in Ihren Trainingsdatensatz aufnehmen möchten. In dieser Liste können Sie die Dokumente in Ihrer Sammlung finden. Indem Sie den Namen des Dokuments auswählen, können Sie mit dieser Schaltfläche das gesamte Dokument zum Trainingssatz hinzufügen.

Durch Klicken auf den Pfeil neben dem Dokumentnamen können Sie einzelne Seiten auswählen. Seiten ohne Ground Truth-Transkription sind ausgegraut. Die von Ihnen ausgewählten Seiten erscheinen im Bereich "Training Set".

Das Validierungsset

Während des Trainingsprozesses wird ein Validierungssatz von Seiten beiseite gelegt und nicht zum Training der HTR verwendet, sondern um die Leistung des Modells zu bewerten.

Um Seiten zum Validierungsset hinzuzufügen, verwenden Sie diese Schaltfläche. Seiten, die Sie dem Validierungsset hinzufügen, werden automatisch aus dem Training Set ausgeschlossen. Wenn Sie möchten, können Sie diese Kontrollkästchen verwenden, um automatisch 2, 5 oder 10% der Daten als Validierungsset auszuwählen

Starten des Trainings

Starten Sie das Training, indem Sie auf die Schaltfläche "OK" klicken und die erscheinenden Fenster bestätigen.

Der Trainingsvorgang wird einige Zeit in Anspruch nehmen, je nachdem wie viele Seiten Teil des Trainings sind. Sie können Transkribus während des Trainings verlassen und später zurückkehren. In der Zwischenzeit können Sie den Fortschritt des Trainings mit der Schaltfläche Jobs überprüfen.

Fertiges Training

Nachdem das Training Ihres Modells abgeschlossen ist, steht es in Ihrer Collection zur Verfügung und Sie können es für die Erstellung von automatischen Transkripten verwenden.

Für weitere Informationen besuchen Sie unsere Anleitungen.