Transkribus LA - Layout-Analyseverfahren
Allgemeine Informationen
Transkribus LA ist ein Basiserkennungsalgorithmus, der ein ARU-Netz verwendet, wie es in der ersten Phase dieser Arbeit beschrieben wurde: https://arxiv.org/abs/1802.03345. Es funktioniert in etwa wie folgt:
- Stufe 1: Ein neuronales Netz (d. h. ein ARU-Netz) wird verwendet, um "Maskenbilder" zu erzeugen, die entweder Grundlinien oder Trennlinien von Grundlinien anzeigen (d. h. kleine vertikale Linien am Anfang/Ende jeder Grundlinie) - jeder Pixelwert dieser Bilder gibt die Genauigkeit an, mit der an diesem Punkt des Eingabebildes eine Grundlinie/Trennlinie vorhanden ist
- Stufe 2: Aus den in Stufe 1 erzeugten Maskenbildern werden die endgültigen Grundlinien als sortierte Punktmengen nach verschiedenen Heuristiken erstellt (z. B. dass eine Grundlinie nicht zu stark gekrümmt sein darf oder dass sie nur Punkte mit einer bestimmten Genauigkeit enthalten sollte). Dies wird auch als Nachbearbeitungsphase bezeichnet.
Anstatt jedoch die Nachbearbeitung des oben genannten Papiers zu verwenden (die in CITlabAdvancedLA implementiert war, aber aufgrund von Lizenzproblemen fallen gelassen werden musste), haben wir unsere eigene Nachbearbeitungsphase implementiert, um die endgültigen Grundlinien zu erstellen. Dies ist ein laufender Prozess, und wir hoffen, dass wir alle größeren Probleme so schnell wie möglich beheben können.
Einstellung des Neuronalen Netzes
Ermöglicht die Auswahl eines bestimmten neuronalen Netzes (d. h. eines trainierten ARU-Netzes), das für die Ermittlung der Basislinien verwendet werden soll.
Wählen Sie "Voreinstellung", wenn Sie sich über die Optionen nicht sicher sind oder wenn Sie mit einem neuen Datensatz arbeiten.
Beachten Sie, dass Textregionen derzeit nicht als Trainingsinformationen verwendet. Sie werden auf rein unüberwachte Weise erstellt, nachdem die endgültigen Grundlinien ermittelt wurden.
Nachbearbeitungseinstellungen
Diese Einstellungen gelten für die zweite Phase der Grundlinienerkennung, d. h. die Nachbearbeitungsphase der oben genannten Arbeit. Gegenwärtig können alle Parameter vom Benutzer frei geändert werden, wir wollen jedoch für bestimmte Arten von Dokumenten (z. B. Zeitungen, "normale" handschriftliche Dokumente usw.) optimale Parameter festlegen, um die Verwendung zu erleichtern.
Die aktuellen Parameter sind:
- Minimale Länge der Grundlinie:
- Die Mindestlänge für eine Grundlinie in Pixeln - erkannte Grundlinien unter dieser Länge werden verworfen.
- Baseline Genauigkeitsschwelle:
- Der Schwellenwert für die Binarisierung der Bilder der Grundlinienmaske. Höhere Werte erzwingen eine höhere Genauigkeit bei den erkannten Grundlinien. Der Bereich liegt zwischen 0 und 255.
- Versuchen Sie, den Schwellenwert zu verringern, wenn Sie Bilder mit geringer Auflösung haben und keine oder nur wenige Grundlinien erkannt werden. Beachten Sie jedoch, dass die Ergebnisse bei niedrigeren Schwellenwerten verrauscht werden können.
- Schwellenwert für Trennzeichen:
- Schwellenwert für die Verwendung der trainierten Separatorbilder. Der Bereich liegt zwischen 0 und 255. Wenn der Schwellenwert überschritten wird, werden nahegelegene Grundlinien zusammengeführt. Bei einem Wert von <= 0 werden keine Trennbilder verwendet.
- Bei den Trennbildern handelt es sich um kleine vertikale Linien, die während des Trainings neben jeder Basislinie gezeichnet werden und den Beginn und das Ende jeder Basislinie anzeigen. nicht mit tatsächlichen Trennlinien in gedruckten Dokumenten verwechselt werden.
- In der Regel reichen niedrige Werte aus, um eine Verbindung zwischen nahegelegenen Basislinien zu verhindern. Verwenden Sie z. B. 1, um Trennungsinformationen "manchmal" zu verwenden, und größere Werte, um sie so gut wie immer zu verwenden.
- Max-dist für die Zusammenführung:
- Überschreitet die Entfernung diesen Wert Fraktion der Breite des Bildes, werden die Grundlinien *nicht* zusammengeführt.
- Der Algorithmus erzeugt in der Anfangsphase eine Reihe kleinerer Grundlinien. Dann wird versucht, nahe beieinander liegende Grundlinien zusammenzuführen, aber nur, wenn der Abstand kleiner als der Schwellenwert ist.
- Max-dist für Clustering: ALPHA
- Überschreitet die Entfernung diesen Wert Fraktion der Breite des Bildes, werden die Grundlinien nicht werden zu Regionen geclustert. Bei einem Wert von <= 0 wird kein Regionsclustering durchgeführt.
- Dieser Parameter ist nur für die Erzeugung von Text-Regionen gültig, nachdem alle Grundlinien erkannt wurden. Nahe beieinander liegende Grundlinien werden nach dem Abstand ihres ganz linken Punktes geclustert. Größere Werte führen hier zu größeren Text-Regionen.
- Allgemeiner Hinweis zum Clustering von Textregionen: Der derzeit verwendete Algorithmus ist lediglich ein unüberwachtes Clustering der Grundlinien, d. h. er wurde nicht auf Benutzereingaben trainiert. Außerdem handelt es sich um einen sehr einfachen Ansatz, so dass die erzeugten Regionen möglicherweise gar nicht nützlich sind. Wir beabsichtigen, die Erkennung von Regionen in Zukunft durch den Einsatz graphischer neuronaler Netze zu verbessern.