Einer der größten Vorteile von Transkribus ist die Möglichkeit Trainieren eines benutzerdefinierten Modells zur Erkennung von handgeschriebenem Texts. Diese einzigartige Funktion ermöglicht es Ihnen, die automatische Transkription auf die spezifische Handschrift oder den gedruckten Text in Ihren Dokumenten abzustimmen, was zu genaueren Transkriptionen führt.
Das Trainieren genauer Modelle ist jedoch eine Fähigkeit, für die man etwas Zeit braucht. Wenn Sie neu in der Modellschulung sind, können Sie schnell frustriert sein über die hohe Zeichenfehlerrate (CER) Ihres Modells. Dies ist eine Zahl zwischen 0% und 100%, die angibt, wie genau das Modell ist. Ein Modell mit einer CER von 100% wird eine sehr ungenaue Transkription erzeugen, während ein Modell mit einer CER von 0% eine perfekte, fehlerfreie Transkription liefert.
Im Allgemeinen sollten Sie einen CER von 10% oder weniger anstreben. Dies führt zu Transkriptionen, die für Suchzwecke und weitere Analysen genau genug sind. Wenn der CER-Wert Ihres Modells jedoch höher ist, brauchen Sie nicht zu verzweifeln - es gibt viele einfache Möglichkeiten, den CER-Wert zu senken und ein Modell zu erstellen, das gut zu Ihren Dokumenten passt. Werfen wir einen Blick auf die fünf einfachsten Möglichkeiten zur Verbesserung des CER Ihres Modells.
Was ist die CER?
Bevor wir beginnen, lassen Sie uns einen kurzen Blick darauf werfen, was der CER ist. Der CER ist der Prozentsatz der Zeichen, die während des Tests vom Texterkennungsmodell falsch transkribiert wurden. Wenn ein Modell einen CER von 5% hat, bedeutet dies, dass im Vergleich zur manuellen Transkription 5 von 100 Zeichen vom Modell falsch transkribiert wurden - eine relativ niedrige Zahl.
Aber wie wird der CER berechnet? Wenn Sie ein Modell erstellen, müssen Sie zwei Sätze genauer, manuell transkribierter Seiten bereitstellen: den Trainingssatz, der zum Trainieren des Modells verwendet wird, und den Validierungssatz, der in der Regel eine Auswahl von Seiten aus dem Trainingssatz enthält und zum Testen des Modells verwendet wird. Diese Trainingsdaten werden auch als Ground Truth bezeichnet.
Während des Trainings analysiert das Modell alle Seiten des Trainingssatzes und versucht, die Handschrift zu lernen. Anschließend testet es, was es gelernt hat, indem es versucht, die Seiten des Validierungssatzes automatisch zu transkribieren. Die automatische Transkription der Seiten durch das Modell wird mit der genauen manuellen Transkription verglichen, und die Anzahl der Fehler wird berechnet. Diese wird dann in einen Prozentsatz umgewandelt und Sie erhalten Ihre CER.
Wenn Ihr Modell diesen Prozess zum ersten Mal durchläuft - was als Epoche bezeichnet wird - können Sie davon ausgehen, dass Ihr CER recht hoch ist. Das Modell wird dann jedoch viele weitere Epochen durchlaufen, wobei es jedes Mal mehr und mehr lernt und immer weniger Fehler macht, wenn es sich selbst auf der Validierungsmenge testet. Mit der Zeit wird das Modell alles gelernt haben, was es kann, und jede Epoche wird den gleichen CER ergeben. Diese Zahl wird als der CER Ihres Modells betrachtet.
Noch eine Sache...
Bedenken Sie, dass der CER jede winzige Abweichung von den Trainingsdaten als Fehler berechnet, einschließlich Leerzeichen, Satzzeichen und Klein- statt Großbuchstaben. Es könnte sein, dass Ihr Modell einen hohen CER-Wert hat, die meisten Fehler aber nicht die eigentlichen Buchstaben betreffen und die Transkriptionen eigentlich recht genau sind. Daher lohnt es sich immer, das Modell nach dem Training an einigen Seiten zu testen, denn auch ein Modell mit einem höheren CER könnte Ihnen einen für Ihre Zwecke geeigneten durchsuchbaren Text liefern.
Fünf Möglichkeiten zur Verbesserung der CER für Ihr Modell
Wenn Ihr Modell viele Trainingsepochen absolviert hat und Sie immer noch einen recht hohen CER und ungenaue Transkriptionen erhalten, finden Sie hier fünf Dinge, die Sie tun können, um die Genauigkeit Ihres Modells zu verbessern.
1. Stellen Sie sicher, dass Ihre Schulungsdaten korrekt sind.
Ihre Trainingsdaten sind die manuell transkribierten Seiten, die Sie für Ihren Trainings- und Validierungssatz bereitstellen. Sie sollten 100% genau und völlig fehlerfrei sein.
Das ist wichtig, denn das Modell ist nur so genau wie die Trainingsdaten, die es erhalten hat. Wenn die Trainingsdaten Fehler enthalten, dann werden diese Fehler in allen Daten, die das Modell zu transkribieren versucht, reproduziert. Wenn Sie sehr hohe CERs erhalten, lohnt es sich, Ihre Trainingsdaten durchzugehen und zu überprüfen, ob sie so genau wie möglich sind.
2. Stellen Sie sicher, dass Ihre Trainingsdaten konsistent sind.
Ebenso sollten Ihre Trainingsdaten konsistent sein. Dies ist besonders wichtig, wenn Ihre Dokumente Abkürzungen, ungewöhnliche Zeichensetzung oder andere "nicht standardisierte" Sprachelemente enthalten. Wenn diese Art von Elementen in den Trainingsdaten nicht einheitlich transkribiert werden, besteht die Gefahr, dass das Modell verwirrt wird, was zu einem höheren CER führt.
Besuchen Sie unser Hilfe-Center für weitere Informationen zur Konsistenz mit Ihren Trainingsdaten.
3. Vergessen Sie die Grundlinien nicht.
Es ist zwar leicht, sich nur auf den Textteil der Transkription zu konzentrieren, aber vergessen Sie nicht das Layout. Vor jeder Texterkennung führt Transkribus eine Layout-Analyse durch. Auf diese Weise kann die Plattform die Position des Textes auf der Seite bestimmen, so dass sie weiß, was während der Texterkennung zu transkribieren ist.
Daher ist es wichtig, dass die Grundlinien (die farbigen Linien unter jeder Textzeile) in Ihren Trainingsdaten genau dargestellt sind. Auf diese Weise wird das Modell nur versuchen, Zeichen an den Stellen zu finden, an denen sie auch tatsächlich vorhanden sind, was zu genaueren Transkriptionen führt. Wie Sie die Grundlinien anpassen können, erfahren Sie in unserem Hilfe-Center.
4. Fügen Sie weitere Daten hinzu.
Wenn Sie Ihre Trainingsdaten durchgesehen haben und sicher sind, dass der Text und die Grundlinien völlig korrekt und konsistent sind, dann wäre der nächste Schritt, weitere Trainingsdaten hinzuzufügen.
Im Allgemeinen empfehlen wir, mindestens 25 Seiten an Trainingsdaten für ein Modell zu haben. Aber natürlich gilt: Je mehr Trainingsdaten Sie haben, desto mehr Informationen hat Ihr Modell zum Lernen und desto genauer wird es.
Dies gilt insbesondere dann, wenn Ihre Dokumente sehr heterogen sind, z. B. wenn sie viele verschiedene Arten von Handschriften aufweisen. In diesen Fällen können mehr Trainingsdaten erforderlich sein, um den CER des Modells zu senken.
5. Verwenden Sie ein Basismodell.
Dieser letzte Tipp kann nicht nur die CER Ihres Modells verbessern, sondern auch Zeit sparen. Beim Einrichten Ihres neuen Modells haben Sie die Möglichkeit, ein "Basismodell" auszuwählen. Dabei handelt es sich um ein bereits vorhandenes Modell, das als Grundlage für Ihr neues benutzerdefiniertes Modell verwendet wird. Ihr Basismodell sollte auf eine ähnliche Sprache, Handschrift und einen ähnlichen Zeitraum wie Ihre Dokumente trainiert sein.
Die Verwendung eines Basismodells bedeutet, dass Ihr neues Modell nicht von Grund auf neu trainiert werden muss. Stattdessen kann es die im Basismodell gespeicherten Informationen nutzen und sie mit Ihren Trainingsdaten erweitern. Dies führt in der Regel zu einem genaueren Modell, für das weniger Trainingsdaten erforderlich sind, was Ihnen Zeit und Mühe erspart.
Benötigen Sie weitere Informationen zum Training von Texterkennungsmodellen mit Transkribus? Sehen Sie sich den Abschnitt Training von Modellen in unserem Hilfe-Center.