Die Zukunft der Informationsextraktion - Nehmen Sie teil an TUC 2024! 15. und 16. Februar, persönlich und online. Holen Sie sich Ihr Ticket >>

>

Zeichenfehlerrate (CER)

Zeichenfehlerrate (CER)

Die Zeichenfehlerrate (CER) vergleicht für eine bestimmte Seite die Gesamtzahl der Zeichen (n), einschließlich Leerzeichen, mit der minimalen Anzahl von Einfügungen (i), Ersetzungen (s) und Löschungen (d) von Zeichen, die erforderlich sind, um die Ground Truth Ergebnis. Die Formel zur Berechnung des CER lautet wie folgt: CER = [ (i + s + d) / n ]*100

Jeder kleine Transkriptionsfehler ist statistisch ein vollwertiger Fehler. Das bedeutet, dass jedes fehlende Komma, ein "u" statt eines "v", ein zusätzliches Leerzeichen oder auch ein Großbuchstabe statt eines Kleinbuchstabens als Fehler in die CER eingehen.

Abb. 1 CER in der Trainingsgruppe und in der Validierungsgruppe

Starten Sie mit Transkribus

Machen Sie Ihre historischen Dokumente zugänglich