Einführung von Tabellenmodellen - Trainierbare Layout-KI in Transkribus

Nach dem Start der neuen und verbesserten Web-App können wir nun mehr über die neue Generation der trainierbaren Layout-Technologie verraten. Mit der zuvor eingeführten trainable FeldmodelleDie Verarbeitung von Dokumenten mit komplexerem Layout, wie z. B. Zeitungen, Zeitschriften, Logbüchern, Gerichtsakten oder Formularen, wird dadurch wesentlich erleichtert. 


Aber was ist mit der einzigartigen Struktur von Tabellen?
Um die Herausforderung der Erkennung und Transkription von Tabellen zu bewältigen, führen wir die trainierbaren Tabellenmodelle ein. Nach den Feldmodellen sind die Tabellenmodelle der nächste Schritt zu einer verbesserten und effizienteren Layout-Erkennung Ihrer historischen Dokumente. Wir werden zunächst das trainierbare Tabellenmodell und seine Vorteile vorstellen und dann erklären, wie man damit anfängt.

Die Macht der Tabellenmodelle

Bei der Arbeit mit Dokumenten, die Tabellen enthalten oder daraus bestehen, ist es oft wichtig, die Struktur des Tabellenlayouts sowie den Inhalt zu erkennen und zu erfassen. Tabellen sind eine gängige Methode zur Organisation von Daten in Dokumenten wie Registern, Konten, Aufzeichnungen, Inventaren oder Katalogen. Bei der Recherche in diesen Dokumenten beschränken sich die zu extrahierenden Daten in der Regel nicht auf einige wenige Seiten, sondern erstrecken sich über ein größeres Volumen von Seiten. Das optimale Hilfsmittel für unsere Nutzer wäre daher eine automatisierte, aber zuverlässige Layout-Erkennung. 

Das war das Ziel von Transkribus bei der Arbeit an den trainierbaren Layout-Modellen: den Field Models und den Table Models. Mit den trainierbaren Tabellenmodellen können unsere Nutzer nun ein individuelles Layout-Erkennungsmodell trainieren, das speziell auf die Erkennung des Layouts der Dokumente, an denen sie gerade arbeiten, zugeschnitten ist und auf die automatische Erkennung der gesamten Sammlung angewendet werden kann. Die neue Funktion eines trainierbaren Tabellenmodells wird zu einer zuverlässigeren Layout-Erkennung, einem effizienteren Transkriptionsprozess und einer einfacheren Analyse historischer Daten in einer strukturierten Umgebung führen.

Neue trainierbare Layout-Optionen mit Transkribus.

Der Nutzen von Tabellenmodellen

Die Verwendung der Standard-Layouterkennung führt nicht immer zu zufriedenstellenden Ergebnissen. Mit den neuen trainierbaren Tabellenmodellen können Sie jedoch diese anpassbare Technologie nutzen, die trainiert werden kann, um selbst unregelmäßige Tabellen genau zu erkennen und Layoutelemente in großem Umfang zu erkennen. Diese Modelle sind besonders nützlich für Dokumente mit mehreren Textregionen und ermöglichen Ihnen eine genauere Darstellung der Dokumente. 

Bei Tabellen kann die derzeitige Standardfunktion zur automatischen Layoutanalyse und Texterkennung den Text aus verschiedenen Tabellenzellen transkribieren. Allerdings entspricht die Lesereihenfolge des transkribierten Textes in den Textregionen oder -zeilen oft nicht dem ursprünglichen Tabellenlayout und wird auch nicht im Tabellenformat dargestellt. Während dies für die einfache Suche nach bestimmten Namen oder Begriffen in Ordnung ist, ist die Übertragung der Daten in eine strukturierte Form oft sehr schwierig, wenn überhaupt möglich. Es würde viel Zeit in Anspruch nehmen, die Transkription umzustrukturieren und zu organisieren, um sie für den Aufbau einer Datenbank nutzbar zu machen.

Carnegie Corporation Register der Anträge von Bildungseinrichtungen, 1911-1920. Über Carnegie-Gesellschaft von New York

Im Gegensatz zu den derzeit verfügbaren P2PaLA-Modellen benötigen die Tabellenmodelle weniger Trainingsdaten und sind gleichzeitig präziser. Die neuen Tabellenmodelle sind so konzipiert, dass sie mit einer begrenzten Menge an Trainingsmaterial effektiv trainiert werden können, wodurch der Prozess rationalisiert wird. Dieser Ansatz hat das Potenzial, den Zeitaufwand für das Erstellen oder Anpassen der Tabellen oder das Markieren verschiedener Layoutelemente auf jeder Seite zu verringern. Stattdessen können sich die Anwender auf die Erstellung der richtigen Layout-Formen konzentrieren, um das Modell zu trainieren, und Transkribus den Rest überlassen.

Es ist wichtig zu beachten, dass Tabellenmodelle keine allumfassende oder sofort einsetzbare Lösung sind. Um optimale Ergebnisse zu erzielen, müssen die Modelle ähnlich wie ein Texterkennungsmodell trainiert werden. In Kürze wird es möglich sein, ein benutzerdefiniertes Layoutmodell nicht nur für komplexe Feldlayouts, sondern auch für Tabellen in Transkribus zu trainieren.

Mit einem kleinen Datensatz können Sie die Tabellenmodelle bereits hier auf beta.transkribus.eu.

Transkribus Herausgeber: Carnegie Corporation Register of Applications from Educational Institutions, 1911-1920. Über Carnegie-Gesellschaft von New York

Trainingstabelle Modelle 

Die Digitalisierung von Tabellen stellt eine Reihe von Herausforderungen dar, die mit unseren neu entwickelten trainierbaren Tabellenmodellen gelöst werden sollen. Tabellen sind seit Jahrhunderten ein Standardmerkmal in Dokumenten, von mittelalterlichen Büchern bis hin zu modernen Tabellenkalkulationen. Sie haben verschiedene Formate und können wichtige Daten enthalten.

Diese neuen Tabellenmodelle können eine Vielzahl von Tabellentypen verarbeiten, auch solche mit unregelmäßigen Zeilenhöhen oder -breiten. Um diese Modelle effektiv zu trainieren, ist es wichtig, eine ausreichende Sammlung von Referenzseiten zu erstellen, um sicherzustellen, dass die Modelle die Tabellen korrekt interpretieren können.

Im Dokument-Editor können die Benutzer flexibel einstellen, wie Tabellen erkannt werden. Sie können vertikale und horizontale Spalten definieren und festlegen, welche Informationen innerhalb einer einzelnen Zeile oder Spalte ausgewählt werden sollen. Wenn das Originaldokument zum Beispiel nur vertikale Trennlinien oder Leerzeichen zwischen Einträgen wie Nachnamen und Vornamen enthält, können Sie den Prozess der Tabellenerstellung entsprechend anpassen. Indem Sie Spalten hinzufügen oder weglassen, stellen Sie sicher, dass die Tabellenmodelle das spezifische Layout und die benötigten Informationen erkennen.

Außerdem können sich diese Modelle im Laufe der Zeit an Veränderungen anpassen. Wenn sich die Struktur der Tabellen innerhalb einer Sammlung entwickelt, kann ein zweiter Satz von "Ground Truth"-Daten hinzugefügt werden, um die Tabellenmodelle weiter zu trainieren und so die kontinuierliche Genauigkeit und Nützlichkeit der digitalisierten Daten zu gewährleisten.

Wie geht es weiter?

Da die aktuelle Version der Layout-Erkennung bei komplexeren Layouts einige Herausforderungen aufweist, haben wir dies als Chance gesehen, nicht nur die aktuelle Layout-Analyse zu verbessern, sondern unseren Anwendern eine gezieltere Lösung anzubieten. Mit trainierbaren Layoutmodellen erweitert Transkribus den Einsatz der Layoutanalyse auf unterschiedliche Dokumentenformate und Layouttypen. Die kommenden trainierbaren Tabellenmodelle bieten Flexibilität bei der Anpassung der Layout-Erkennung und können sich an Layout-Änderungen anpassen, um eine genaue Interpretation und umfassende Datenextraktion auch aus Tabellen mit unregelmäßigen Formaten zu gewährleisten. 

Das Transkribus Table Models Feature ist bereit, auf einer kleinen Anzahl von Seiten hier auf beta.transkribus.eu. In den nächsten Wochen werden die trainierbaren Tabellenmodelle in unsere Benutzeroberfläche für den allgemeinen Gebrauch aufgenommen. Dieses Update wird es jedem Benutzer ermöglichen, sein eigenes Layoutmodell für Tabellen zu trainieren, was den Prozess der Dokumentendigitalisierung effizienter macht und noch mehr Potenzial innerhalb unserer Plattform freisetzt.

Vorschaubild:Carnegie Corporation Register der Anträge von Bildungseinrichtungen, 1911-1920. Über Carnegie-Gesellschaft von New York

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juli 3, 2024
News, Transkribus
Einige Transkribus-Projekte enden mit einer vollständig digitalisierten Sammlung in Transkribus. Andere nehmen diese digitalisierte Quelle und verwenden sie ...
Juni 12, 2024
News, Transkribus
Wenn man an karolingische (oder karolingische) Minuskeln denkt, kommen einem wahrscheinlich Karl der Große und sein riesiges karolingisches Reich in den Sinn. Während die ...
Mai 14, 2024
Uncategorized
Das Verstehen historischer Dokumente ist der Schlüssel zum Verständnis der Geschichte. Das Verstehen historischer Dokumente auf Polnisch kann jedoch eine Herausforderung sein. Nicht nur ...