Die Layoutanalyse

Wenn Sie Ihr Dokument bereits in Transkribus hochgeladen haben und nun mit der Bearbeitung beginnen wollen, ist der nächste Schritt die Layout-Analyse, denn um es zu transkribieren, muss das Bild in Textbereiche und Zeilen unterteilt werden. Sie werden sehen, dass dies mit wenigen Klicks erledigt werden kann und in den meisten Fällen keine manuellen Korrekturen erfordert. Im folgenden Video erfahren Sie, wie Sie die Layout-Analyse-Funktion nutzen können.

In Transkribus Lite wird die Layout-Analyse automatisch ausgeführt, wenn Sie einen Texterkennungsauftrag starten.

Ausführen der Layout-Analyse

Um zum Layout-Analyse-Werkzeug zu gelangen, klicken Sie auf die Registerkarte "Werkzeuge". Den Bereich "Layoutanalyse" finden Sie ganz oben. Sie müssen nur die Seiten auswählen, für die Sie den Job ausführen möchten, und dann auf "Ausführen" klicken. Den Fortschritt können Sie mit dem "Jobs"-Button überprüfen. In der Beschreibungsspalte wird angezeigt, auf welcher Seite das Tool gerade arbeitet.

Ergebnisse

Sobald die Layout-Analyse beendet ist, werden die Textbereiche (grün) und die Grundlinien (blau) im Bild angezeigt. Um die Ergebnisse zu überprüfen, ist es sinnvoll, die Segmentierungsansicht bei den Betrachtungsprofilen zu aktivieren. Dadurch wird der Texteditor ausgeblendet, und wir haben mehr Platz für die Darstellung des Bildes. Der Textbereich verdeckt den Text. Bei komplexeren Layouts kann es auch mehr als einen Textbereich auf einer Seite geben.  

Die Grundlinie sollte am unteren Rand der Textzeile verlaufen, die Buchstaben sollten darauf sitzen und die Unterlängen darunter. Wenn Sie Änderungen an Zeilen vornehmen, ist es wichtig, dass Sie dies immer auf den Grundlinien tun. Das ist wichtig zu wissen, weil es für jede Zeile in Ihrem Dokument auch einen Zeilenbereich im Hintergrund gibt. Diese können Sie sich ansehen, indem Sie sie mit der Schaltfläche Elementsichtbarkeit einblenden. Diese Linienbereiche müssen nicht verändert werden, sie werden automatisch angepasst, wenn Sie etwas an der Grundlinie ändern. Es erscheint ein Pop-up mit der Frage, ob Sie auch die übergeordnete Linie ändern möchten, bitte bestätigen Sie dies.  

Änderungen vornehmen

Normalerweise arbeitet die Layout-Analyse mit einer hohen Genauigkeit. Sollten Änderungen erforderlich sein, können Sie das Canvas-Menü links neben dem Bild dazu verwenden.

Wenn es Abschnitte im Dokument gibt, die nicht Teil der Trainingsdaten sein müssen, können Sie die Basislinie einfach löschen, so dass sie nicht für das Modelltraining berücksichtigt wird. Klicken Sie darauf, um sie auszuwählen, und verwenden Sie dann die Schaltfläche "Löschen" im Canvas-Menü.

Sie können Basislinien und Textbereiche durch Ziehen dieser Punkte anpassen oder auch mit einer der Teilungsschaltflächen teilen.

Mit dieser Taste gelangen Sie wieder in den Auswahlmodus.

Zwei Textbereiche oder Basislinien, die eigentlich eins sein sollten, können zusammengeführt werden, indem Sie beide markieren, die Strg-Taste auf Ihrer Tastatur gedrückt halten und dann die Schaltfläche "Zusammenführen" verwenden.

Fertige Layout-Analyse

Sobald die Layout-Analyse abgeschlossen ist, können Sie mit der Transkription beginnen, um Trainingsdaten zu erstellen. Dazu müssen Sie die Transkriptionsansicht erneut aktivieren, um den Texteditor zu sehen.

Für die manuelle Transkription transkribieren Sie bitte Zeile für Zeile, Seite für Seite so nah wie möglich am Originaltext. 

Sobald Sie etwa 50 Seiten manuelle Transkription, wir nennen es Ground Truth, haben, können Sie mit dem Training eines Modells beginnen. Wenn Sie mit gedrucktem Material arbeiten oder ein Basismodell verwenden, das zu der Schrift in Ihrem Dokument passt, kann die Menge der Trainingsdaten sogar noch geringer sein.

Weitere Informationen zur Layout-Analyse finden Sie in unserem Anleitungen.