×

Text2Image Parameter

dreschen

          Threshold for text alignment. If the confidence of a text-to-image
           alignment above this threshold, an alignment is done (default = 0.0). A
            good value is between 0.01 and 0.05. Note that the confidence is stored
            in the pageXML anyway, so deleting text alignments with low confidence
            can also be made later.
       

Bindestrich

kann null, ein nicht-negativer Doppelwert oder ein json-string sein (Standard:
null). Wenn kein Wert gesetzt ist oder der Wert "Unendlich" ist, wird keine Silbentrennung vorgenommen.
Wenn Wert ein positiver Doppelwert ist, sind die Werte die zusätzlichen Kosten
um eine Silbentrennung zu erkennen. Die Standard-Silbentrennungszeichen am Ende von
der Zeile sind '¬', '-', ':', '='. Die Standard-Silbentrennzeichen an der
Anfang der Zeile sind leer. Es können Silbentrennungen zwischen allen
Buchstabenpaare. Wenn man die Silbentrennungsregeln für eine bestimmte
Sprache, dies kann über den Schlüssel 'hyphen_lang' konfiguriert werden.
Das Trennzeichen in der Grundwahrheit wird '¬' sein.
Wenn man mehr konfigurieren möchte, muss man einen j-son-String schreiben.
Tasten:
Präfixe: Liste der Silbentrennzeichen, die am
Anfang einer Zeile (Standard: leer)

Suffixe: Liste der Silbentrennzeichen, die als Bindestrich am Ende von
eine Zeile (Standard: leer)

skipSuffix: boolescher Wert, wenn Suffix optional (true) oder erzwungen (false) ist
(Voreinstellung: false)

skipPrefix: boolescher Wert, wenn Präfix optional (true) oder erzwungen (false) ist
(Voreinstellung: false)

hypCosts: nicht-negativer Wert, der zusätzliche Kosten verursacht für
eine Silbentrennung erkennen. (Standard: 0.0)

pattern: Sprachmuster (z. B. EN_GB, EN_US, DE, ES, FR, ...)
(Voreinstellung: leer)

Beispiel: “{

"skipSuffix":false,

"skipPrefix":true,

"Suffixe":["¬","-",":","\u003d"],

"Präfixe":[":","\u003d"],

"hypCosts":6.0,

"Muster": "EN_GB"

}”

eine der 4 Suffixe muss erkannt werden und eine der beiden
Präfixe erkannt werden können. Silbentrennungskosten von 6,0 werden hinzugefügt.
Die Silbentrennung ist nur wie für die Sprache EN_GB definiert möglich.

Bindestrich_lang

    if hyphen is given, hyphenation-rules from different languages can be
    applied. If value = null or empty, a linebreak between all letters is
    possible (unicode-characters of Category L). Otherwise, a rule is applied
    ( see https://github.com/mfietz/JHyphenator.git for details). The
    language have e.g. "DE" for German and "EN" for English. Default = null.
       

Wort_auslassen

    makes it possible to skip a word, for example if a baseline is too short
    (default: null). The value have to be a positive double value. It
    repesents the default delete-costs for each character. A good value is
    4.0. The higher the value, the less words were skipped. If value = 0, a
    word can be deleted without producing costs (destroys the algorithm), if
    value = Infinity, no characters can be deleted.
       

Überspringen_bl

    makes it possible to skip a baseline (default: null). Sometimes the LA
    finds a baseline in noise (aka false positive). It is possible to delete
    those baselines instead of "pressing" a sequence into the line. The value
    has to be positive double value. The lower the value, the easier a line
    is ignored. A good value is 0.2.
       

springen_bl

    makes it possible to handle wrong reading order in the LA (default: null)
    The value makes it possible to jump instead of the after a line to every
    other line. If value = 0, the reading order has no effect at all. If
    value = Infinity is the same like value = null. If you cannot trust the
    reading order, set value = 0.
       

beste_pfade

    if the number of confmats and references gets too large, one can only
    keep a specific number of paths at each reference. As default all paths
    are calculated (like setting value = Infinity). A good value is 200.0