threshold
Threshold for text alignment. If the confidence of a text-to-image alignment above this threshold, an alignment is done (default = 0.0). A good value is between 0.01 and 0.05. Note that the confidence is stored in the pageXML anyway, so deleting text alignments with low confidence can also be made later.
trattino
può essere null, un valore doppio non negativo o una stringa json (default:
null). Se nessun valore è impostato o il valore è "Infinity", non viene fatta alcuna sillabazione.
Se il valore è un valore doppio positivo, il valore sono i costi aggiuntivi
per riconoscere una sillabazione. I segni di sillabazione predefiniti alla fine di
la linea sono '¬', '-', ':', '='. I segni di sillabazione predefiniti
all'inizio della linea sono vuoti. Ci possono essere dei trattini tra tutte le
coppie di lettere. Se uno vuole usare le regole di sillabazione per una specifica
lingua, questo può essere configurato usando la chiave 'hyphen_lang'.
Il segno di sillabazione nella groundtruth sarà '¬'.
Se si vuole configurare di più, bisogna scrivere una stringa j-son.
Chiavi:
prefissi: elenco di segni di sillabazione che possono essere trattini al
inizio di una linea (predefinito: vuoto)
suffissi: elenco di segni di sillabazione che possono essere trattini alla fine di
una linea (predefinito: vuoto)
skipSuffix: booleano se il suffisso è opzionale (true) o forzato (false)
(predefinito: false)
skipPrefix: booleano se il prefisso è opzionale (true) o forzato (false)
(predefinito: false)
hypCosts: valore non negativo che produce costi aggiuntivi per
riconoscere un trattino. (predefinito: 0,0)
pattern: modello di lingua (per esempio EN_GB, EN_US, DE, ES, FR,...)
(predefinito: vuoto)
esempio: "{
"skipSuffix":false,
"skipPrefix":true,
"suffissi":["¬","-",":","\u003d"],
"prefissi":[":","\u003d"],
"hypCosts":6.0,
"modello": "EN_GB"
}”
uno dei 4 suffissi deve essere riconosciuto e uno dei due
prefissi può essere riconosciuto. I costi di sillabazione di 6,0 sono aggiunti.
La sillabazione è possibile solo come definito per la lingua EN_GB.
trattino_lang
if hyphen is given, hyphenation-rules from different languages can be applied. If value = null or empty, a linebreak between all letters is possible (unicode-characters of Category L). Otherwise, a rule is applied ( see https://github.com/mfietz/JHyphenator.git for details). The language have e.g. "DE" for German and "EN" for English. Default = null.
parola saltata
makes it possible to skip a word, for example if a baseline is too short (default: null). The value have to be a positive double value. It repesents the default delete-costs for each character. A good value is 4.0. The higher the value, the less words were skipped. If value = 0, a word can be deleted without producing costs (destroys the algorithm), if value = Infinity, no characters can be deleted.
salto_bl
makes it possible to skip a baseline (default: null). Sometimes the LA finds a baseline in noise (aka false positive). It is possible to delete those baselines instead of "pressing" a sequence into the line. The value has to be positive double value. The lower the value, the easier a line is ignored. A good value is 0.2.
saltare_bl
makes it possible to handle wrong reading order in the LA (default: null) The value makes it possible to jump instead of the after a line to every other line. If value = 0, the reading order has no effect at all. If value = Infinity is the same like value = null. If you cannot trust the reading order, set value = 0.
migliore_pathes
if the number of confmats and references gets too large, one can only keep a specific number of paths at each reference. As default all paths are calculated (like setting value = Infinity). A good value is 200.0