Die Text2Image (Text-to-Image) Werkzeug versucht vorhandene Transkriptionen auf Seitenebene mit einer Zeilensegmentierung abgleichen.
Vorhandene Transkriptionen können derzeit beim Hochladen des Dokuments als separate txt-Dateien in einem Unterordner namens 'txt' angegeben werden. Beachten Sie, dass jede txt-Datei den gleichen Basisnamen wie die entsprechende Bilddatei haben muss.
Diese Transkriptionen werden dann in "Dummy-Zeilen" gespeichert, d.h. Zeilen mit der Größe des Bildes.
Das Text2Image-Werkzeug startet zunächst (optional) eine neue Layout-Analyse auf den angegebenen Seiten und versucht dann, den angegebenen Text an dieses Layout anzupassen.
Der Benutzer kann festlegen, ob Zeilenumbrüche des gegebenen Textes werden beim Abgleich beachtet.
Die Schwellenwert Wert bestimmt, welche Abgleichsqualität gut genug ist, um einen Abgleich durchzuführen. Ein guter Wert liegt zwischen 0,02 und 0,05, aber auch der Standardwert von 0,0 ist eine gute Wahl, da fehlerhafte Übereinstimmungen im Nachhinein ohnehin korrigiert werden können.
Lesereihenfolge ignorieren bewirkt, dass die von der integrierten Layout-Analyse ermittelte Reihenfolge der Zeilen ignoriert wird. Wenn Sie dies aktivieren, kann die Anpassung für komplizierte Layouts (z. B. gemischte vertikale und horizontale Linien) und Rechts-nach-Links-Schreiben verbessert werden.
Das Tool Text2Image wurde von der CITlab-Gruppe aus Rostock implementiert, siehe auch https://github.com/CITlabRostock/CITlabModule