Um ein HTR-Transkript zu erstellen, müssen Sie Ihre Dokumente in Textbereiche segmentieren, Zeilen und Grundlinien. Standardmäßig ist ein Textbereich ein Rechteck, das den gesamten im Bild enthaltenen handschriftlichen Text umschließt. Es ist jedoch möglich, einen Textbereich entsprechend dem allgemeinen Layout zu bearbeiten, indem Sie Kontrollpunkte hinzufügen und somit ein Polygon erzeugen.
In der Regel erkennt die automatische Layoutanalyse in ihrer Standardeinstellung eine einzelne Textregion auf einem Bild mit den entsprechenden Grundlinien.
Es gibt aber auch Layouts, bei denen die Verwendung von mehreren Text Regions empfehlenswert ist, z. B. wenn es Randnotizen oder Fußnoten und ähnliche wiederkehrende Elemente gibt. Solange diese inhaltlich und strukturell unterschiedlichen Textbereiche in einer einzigen Textregion enthalten sind, zählt die Layoutanalyse einfach die Zeilen von oben nach unten. Dies Leseauftrag berücksichtigt nicht, wo ein Text tatsächlich inhaltlich hingehört (z. B. eine Einblendung), sondern nur, wo er grafisch auf der Seite steht. Das Korrigieren einer automatisch generierten, aber unbefriedigenden Lesereihenfolge kann zeitaufwändig sein. Das Problem kann leicht umgangen werden, indem man mehrere Textregionen anlegt, in denen die zusammengehörigen Texte und Zeilen wie in einem Kasten gut aufgehoben sind.