>

Text Region

Text Region

Um ein HTR-Transkript zu erstellen, müssen Sie Ihre Dokumente in Textbereiche segmentieren, Zeilen und Grundlinien. Standardmäßig ist ein Textbereich ein Rechteck, das den gesamten im Bild enthaltenen handschriftlichen Text umschließt. Es ist jedoch möglich, einen Textbereich entsprechend dem allgemeinen Layout zu bearbeiten, indem Sie Kontrollpunkte hinzufügen und somit ein Polygon erzeugen.

Normalerweise wird das automatische CITlab Advanced Layout-Analyse erkennt in seiner Standardeinstellung einen einzelnen Textbereich auf einem Bild mit den entsprechenden Grundlinien. 
Es gibt aber auch Layouts, bei denen die Verwendung von mehreren Text Regions empfehlenswert ist, z. B. wenn es Randnotizen oder Fußnoten und ähnliche wiederkehrende Elemente gibt. Solange diese inhaltlich und strukturell unterschiedlichen Textbereiche in einer einzigen Textregion enthalten sind, zählt die Layoutanalyse einfach die Zeilen von oben nach unten. Dies Leseauftrag berücksichtigt nicht, wo ein Text tatsächlich inhaltlich hingehört (z. B. eine Einblendung), sondern nur, wo er grafisch auf der Seite steht. Das Korrigieren einer automatisch generierten, aber unbefriedigenden Lesereihenfolge kann zeitaufwändig sein. Das Problem kann leicht umgangen werden, indem man mehrere Textregionen anlegt, in denen die zusammengehörigen Texte und Zeilen wie in einem Kasten gut aufgehoben sind.

Abbildung 1 Layout-Analyse - Textregionen finden
Abbildung 2 Layout-Struktur
FIgure 3 Textbereiche im Dokument

Starten Sie mit Transkribus

Machen Sie Ihre historischen Dokumente zugänglich