Transkribus LA - Layout-Analyseverfahren

Allgemeine Informationen

Transkribus LA ist ein Basiserkennungsalgorithmus, der ein ARU-Netz verwendet, wie es in der ersten Phase dieser Arbeit beschrieben wurde: https://arxiv.org/abs/1802.03345. Es funktioniert in etwa wie folgt:

Stufe 1: Ein neuronales Netz (d. h. ein ARU-Netz) wird verwendet, um "Maskenbilder" zu erzeugen, die entweder Grundlinien oder Trennlinien von Grundlinien anzeigen (d. h. kleine vertikale Linien am Anfang/Ende jeder Grundlinie) - jeder Pixelwert dieser Bilder gibt die Genauigkeit an, mit der an diesem Punkt des Eingabebildes eine Grundlinie/Trennlinie vorhanden ist
Stufe 2: Aus den in Stufe 1 erzeugten Maskenbildern werden die endgültigen Grundlinien als sortierte Punktmengen nach verschiedenen Heuristiken erstellt (z. B. dass eine Grundlinie nicht zu stark gekrümmt sein darf oder dass sie nur Punkte mit einer bestimmten Genauigkeit enthalten sollte). Dies wird auch als Nachbearbeitungsphase bezeichnet.

Anstatt jedoch die Nachbearbeitung des oben genannten Papiers zu verwenden (die in CITlabAdvancedLA implementiert war, aber aufgrund von Lizenzproblemen fallen gelassen werden musste), haben wir unsere eigene Nachbearbeitungsphase implementiert, um die endgültigen Grundlinien zu erstellen. Dies ist ein laufender Prozess, und wir hoffen, dass wir alle größeren Probleme so schnell wie möglich beheben können.

Einstellung des Neuronalen Netzes

Ermöglicht die Auswahl eines bestimmten neuronalen Netzes (d. h. eines trainierten ARU-Netzes), das für die Ermittlung der Basislinien verwendet werden soll.

Wählen Sie "Voreinstellung", wenn Sie sich über die Optionen nicht sicher sind oder wenn Sie mit einem neuen Datensatz arbeiten.

Beachten Sie, dass Textregionen derzeit nicht als Trainingsinformationen verwendet. Sie werden auf rein unüberwachte Weise erstellt, nachdem die endgültigen Grundlinien ermittelt wurden.

Nachbearbeitungseinstellungen

Diese Einstellungen gelten für die zweite Phase der Grundlinienerkennung, d. h. die Nachbearbeitungsphase der oben genannten Arbeit. Gegenwärtig können alle Parameter vom Benutzer frei geändert werden, wir wollen jedoch für bestimmte Arten von Dokumenten (z. B. Zeitungen, "normale" handschriftliche Dokumente usw.) optimale Parameter festlegen, um die Verwendung zu erleichtern.

Die aktuellen Parameter sind:

Minimale Länge der Grundlinie:
- Die Mindestlänge für eine Grundlinie in Pixeln - erkannte Grundlinien unter dieser Länge werden verworfen.

Baseline Genauigkeitsschwelle:
- Der Schwellenwert für die Binarisierung der Bilder der Grundlinienmaske. Höhere Werte erzwingen eine höhere Genauigkeit bei den erkannten Grundlinien. Der Bereich liegt zwischen 0 und 255.
- Versuchen Sie, den Schwellenwert zu verringern, wenn Sie Bilder mit geringer Auflösung haben und keine oder nur wenige Grundlinien erkannt werden. Beachten Sie jedoch, dass die Ergebnisse bei niedrigeren Schwellenwerten verrauscht werden können.

Schwellenwert für Trennzeichen:
- Schwellenwert für die Verwendung der trainierten Separatorbilder. Der Bereich liegt zwischen 0 und 255. Wenn der Schwellenwert überschritten wird, werden nahegelegene Grundlinien zusammengeführt. Bei einem Wert von <= 0 werden keine Trennbilder verwendet.
- Bei den Trennbildern handelt es sich um kleine vertikale Linien, die während des Trainings neben jeder Basislinie gezeichnet werden und den Beginn und das Ende jeder Basislinie anzeigen. nicht mit tatsächlichen Trennlinien in gedruckten Dokumenten verwechselt werden.
- In der Regel reichen niedrige Werte aus, um eine Verbindung zwischen nahegelegenen Basislinien zu verhindern. Verwenden Sie z. B. 1, um Trennungsinformationen "manchmal" zu verwenden, und größere Werte, um sie so gut wie immer zu verwenden.

Max-dist für die Zusammenführung:
- Überschreitet die Entfernung diesen Wert Fraktion der Breite des Bildes, werden die Grundlinien *nicht* zusammengeführt.
- Der Algorithmus erzeugt in der Anfangsphase eine Reihe kleinerer Grundlinien. Dann wird versucht, nahe beieinander liegende Grundlinien zusammenzuführen, aber nur, wenn der Abstand kleiner als der Schwellenwert ist.

Max-dist für Clustering: ALPHA
- Überschreitet die Entfernung diesen Wert Fraktion der Breite des Bildes, werden die Grundlinien nicht werden zu Regionen geclustert. Bei einem Wert von <= 0 wird kein Regionsclustering durchgeführt.
- Dieser Parameter ist nur für die Erzeugung von Text-Regionen gültig, nachdem alle Grundlinien erkannt wurden. Nahe beieinander liegende Grundlinien werden nach dem Abstand ihres ganz linken Punktes geclustert. Größere Werte führen hier zu größeren Text-Regionen.
- Allgemeiner Hinweis zum Clustering von Textregionen: Der derzeit verwendete Algorithmus ist lediglich ein unüberwachtes Clustering der Grundlinien, d. h. er wurde nicht auf Benutzereingaben trainiert. Außerdem handelt es sich um einen sehr einfachen Ansatz, so dass die erzeugten Regionen möglicherweise gar nicht nützlich sind. Wir beabsichtigen, die Erkennung von Regionen in Zukunft durch den Einsatz graphischer neuronaler Netze zu verbessern.

Cookie	Beschreibung	Dauer
viewed_cookie_policy	Das Cookie wird vom GDPR Cookie Consent Plugin gesetzt und dient dazu, zu speichern, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine persönlichen Daten.	1 Stunde
PHPSESSID	Dieses Cookie ist in PHP-Anwendungen enthalten. Der Cookie wird verwendet, um die eindeutige Sitzungs-ID eines Benutzers zu speichern und zu identifizieren, um die Benutzersitzung auf der Website zu verwalten. Das Cookie ist ein Sitzungscookie und wird gelöscht, wenn alle Browserfenster geschlossen werden.	1 Jahr

Cookie	Beschreibung	Dauer
BESUCHER_INFO1_LIVE	Dieses Cookie wird von Youtube gesetzt. Wird verwendet, um die Informationen der eingebetteten Youtube-Videos auf einer Website zu verfolgen.	5 Monate
IDE	Wird von Google DoubleClick verwendet und speichert Informationen darüber, wie der Nutzer die Website und andere Werbung vor dem Besuch der Website nutzt. Dies wird verwendet, um Nutzern Anzeigen zu präsentieren, die für sie entsprechend dem Nutzerprofil relevant sind.	2 Jahre

Cookie	Beschreibung	Dauer
GPS	Dieses Cookie wird von Youtube gesetzt und registriert eine eindeutige ID für die Nachverfolgung von Benutzern basierend auf ihrem geografischen Standort	30 Minuten
tk_oder	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	5 Jahre
tk_r3d	Das Cookie wird von JetPack installiert. Wird für die internen Metriken für Benutzeraktivitäten verwendet, um die Benutzererfahrung zu verbessern	3 Tage
tk_lr	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	1 Jahr
_ga	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Besucher-, Sitzungs- und Camapign-Daten zu berechnen und die Nutzung der Website für den Analysebericht der Website zu verfolgen. Die Cookies speichern Informationen anonym und weisen eine zufällig generierte Nummer zu, um eindeutige Besucher zu identifizieren.	2 Jahre
_gid	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Informationen darüber zu speichern, wie Besucher eine Website nutzen, und hilft bei der Erstellung eines Analyseberichts darüber, wie sich die Website verhält. Die gesammelten Daten umfassen die Anzahl der Besucher, die Quelle, von der sie kommen, und die besuchten Seiten in anonymer Form.	1 Tag
matomo	Für die statistische Analyse verwenden wir auf dieser Website "Matomo". Dies ist ein Open-Source-Tool für die Webanalyse. Matomo überträgt keine Daten an Server außerhalb der Kontrolle von READ-COOP. Matomo ist deaktiviert, wenn Sie unsere Website besuchen. Nur wenn Sie aktiv zustimmen, wird Ihr Nutzungsverhalten anonymisiert erfasst.	1 Jahr

Cookie	Beschreibung	Dauer
YSC	Dieses Cookie wird von Youtube gesetzt und dient dazu, die Aufrufe von eingebetteten Videos zu verfolgen.	1 Jahr
_gat	Dieses Cookie wird von Google Universal Analytics installiert, um die Abfragerate zu drosseln und so die Datensammlung auf stark frequentierten Seiten zu begrenzen.	1 Minute

Hilfe zur Layout-Analyse

Transkribus LA - Layout-Analyseverfahren

Allgemeine Informationen

Einstellung des Neuronalen Netzes

Nachbearbeitungseinstellungen

Die COOP

Produkte & Dienstleistungen

Nützliche Informationen

Hilfreiche Ressourcen

Community