Wenn Sie Transkribus oder maschinelles Lernen im Allgemeinen noch nicht kennen, dann ist Ihnen wahrscheinlich auch der Begriff "Ground Truth" neu. Kurz gesagt: Ground Truth sind die genauen und verifizierten Daten, die zum Trainieren von Machine-Learning-Modellen verwendet werden, z.B. für die automatische Transkription in Transkribus. Und diese Daten sind ziemlich wichtig für den Erfolg Ihres Modells, da maschinelles Lernen nur ein Werkzeug ist, das die von Ihnen gelieferten Daten statistisch repliziert. Je besser also Ihre Ground Truth-Daten sind, desto besser wird Ihr Modell sein.
In diesem Beitrag gehen wir näher darauf ein, was Ground Truth ist, warum es so wichtig für Handschrifterkennungssoftware ist und wie Sie Ground Truth-Daten auf Transkribus am besten aufbereiten können.
Eine grundlegende Definition von Ground Truth
In der Statistik und beim maschinellen Lernen sind Ground Truth Daten, von denen wir annehmen, dass sie wahr sind. Ein Beispiel: Sie haben zwei Bilder. Auf dem einen Bild ist ein Hund abgebildet, auf dem anderen eine Katze. Wir wissen, dass dies wahr ist, weil wir als Menschen die Fähigkeit haben, verschiedene Tiere zu erkennen. Wenn Sie tausend Menschen fragen, auf welchem Bild der Hund zu sehen ist, würden sie mit überwältigender Mehrheit dasselbe Bild zeigen.
Aber für einen Computer ist diese Aufgabe viel schwieriger. Ein Computer weiß nicht automatisch, welches Tier welches ist, man muss ihm das beibringen. Und hier kommt die Grundwahrheit ins Spiel. Wollte man einen Computer darauf trainieren, zu erkennen, auf welchen Fotos Hunde und auf welchen Katzen zu sehen sind, müsste man ihm zunächst einen großen Datensatz von Bildern zur Verfügung stellen, die jeweils als "Foto mit Hund" oder "Foto mit Katze" gekennzeichnet sind. Anhand dieser Ground-Truth-Etiketten kann der Computer lernen, wie Bilder mit Hunden und Bilder mit Katzen aussehen, und ein Modell mit diesen Informationen erstellen.
Sobald dieses Modell mit genügend Daten ausreichend trainiert ist, kann es mit einem brandneuen Bild konfrontiert werden und sollte in der Lage sein zu sagen, ob dieses Bild eine Katze oder einen Hund enthält, genau wie ein Mensch es tun würde. Deshalb nennt man es "künstliche Intelligenz": Computer werden darauf trainiert, intelligente Aufgaben zu erledigen, die Menschen auf natürliche Weise erledigen. Und die Grundwahrheit ist die Grundlage für diesen ganzen Prozess.
Getigerter Kater. Alvesgaspar. Öffentlicher Bereich, über Wikimedia Commons
Canis lupus familiaris (perro) en Monfero. Fernando Losada Rodríguez. Öffentlicher Bereich, über Wikimedia Commons
Für einen Menschen ist es leicht, zwischen Katzen und Hunden zu unterscheiden, für einen ungeschulten Computer jedoch fast unmöglich.
Wird Ground Truth nur zum Trainieren von Modellen verwendet?
Nein, es wird auch zum Testen von Modellen verwendet. Nehmen wir an, Sie haben Ihr Modell zur Unterscheidung zwischen Fotos von Katzen und Hunden bereits erstellt. Nun möchten Sie testen, wie gut dieses Modell tatsächlich funktioniert. Sie können dies tun, indem Sie dem Modell Ground Truth-Datensätze vorlegen, für die Sie eine "richtige Antwort" haben, und sehen, ob das Modell die gleiche Antwort geben kann.
Beim Katzen-/Hundemodell bedeutet das, dass Sie dem Modell eine Reihe von Bildern zeigen, die bereits als "Foto mit Hund" oder "Foto mit Katze" beschriftet wurden, und zählen, wie oft das Modell ein Foto richtig zuordnet. Auf diese Weise können Sie sehen, wie gut Ihr Modell abschneidet.
Wie werden Ground Truth-Daten in Texterkennungsmodellen verwendet?
Was wäre, wenn Sie kein Modell bräuchten, das zwischen Katzen und Hunden auf Fotos unterscheiden kann, sondern ein Modell, das historische Dokumente lesen und transkribieren kann? Diese Art von Modellen ist die Kerntechnologie hinter allen Plattformen zur Erkennung handgeschriebener Texte, und sie werden auf genau dieselbe Weise mit Ground Truth-Daten trainiert. In diesem Fall sind die Ground Truth-Daten keine Bilder von Katzen und Hunden, sondern Bilder von Texten mit genauen Transkriptionen. Mithilfe des maschinellen Lernens lernt der Computer aus den Daten, welche Zeichen im Bild welche Zeichen in der Transkription darstellen. Dann nimmt er, genau wie zuvor, diese Informationen und verwendet sie, um ein Modell zu erstellen.
Bei einigen Texterkennungsplattformen können Sie nur Modelle verwenden, die von den Entwicklern der Plattform trainiert wurden. Das Besondere an Transkribus ist, dass die Nutzer ihre eigenen Modelle erstellen und sie für das Lesen eines bestimmten Dokumententyps trainieren können. Da diese benutzerdefinierten Modelle auf sehr spezifischen Ground Truth-Daten trainiert werden, sind sie in der Regel genauer bei der Transkription von Dokumenten, die denen im Ground Truth-Datensatz ähneln. Dies ist ideal, wenn Sie sehr spezifische Dokumente haben, wie z.B. Briefe einer kleinen Gruppe von Personen, ein handgeschriebenes Tagebuch oder notarielle Dokumente aus einem bestimmten Zeitraum.
Ground Truth wird in Transkribus als "Trainingsdaten" bezeichnet. © Transkribus
Wie bereite ich Ground Truth für ein Transkribus-Modell vor?
Wie Sie vielleicht schon erraten haben, erfordert das Training Ihres eigenen benutzerdefinierten Modells die Erstellung von Ground Truth-Daten, mit denen es trainiert werden kann. In den meisten Fällen benötigen Sie mindestens 10.000 Wörter transkribierten handschriftlichen Textes oder 5.000 Wörter transkribierten gedruckten Textes zum Trainieren Ihr erstes Modell. Dies ist jedoch je nach Art des Materials und des Modells unterschiedlich.
Es gibt drei Hauptwege, um geeignete Ground Truth-Daten für Modelle in Transkribus zu finden:
- Sie können Dokumente manuell abschreiben. Dazu werden Bilder der Dokumente in Transkribus hochgeladen und die Transkription dann manuell in den Texteditor eingegeben. Mehr Informationen finden Sie unter manuelle Transkription in unserem Hilfe-Center.
- Sie können vorformulierte Textbeispiele zu finden. Wenn z.B. ein Kollege bereits mit Transkribus ähnliche Dokumente transkribiert hat wie Sie, kann er diese direkt mit Ihrer Transkribus-Sammlung teilen und Sie können sie dann als Ground Truth speichern.
- Sie können ein öffentliches Modell als Grundlage nehmen. Transkribieren Sie alle Ihre Dokumente mit dem am besten geeigneten öffentliches Modell und korrigieren Sie dann diese Transkriptionen, um sie genauer zu machen, und speichern Sie sie erneut als Ground Truth. Auf diese Weise wird das Modell auf Ihre spezifischen Dokumente zugeschnitten und spart eine Menge Zeit.
Die Verwendung eines öffentlichen Modells als Grundlage für Ihr eigenes Modell kann viel Zeit und Mühe sparen. © Transkribus
Was ist bei der Vorbereitung von Ground Truth zu beachten?
Der Erfolg Ihres Modells hängt von der Qualität Ihrer Ground Truth-Daten ab. Und wenn es um Qualität geht, sind die wichtigsten Aspekte Genauigkeit und Konsistenz.
Erstens sollten Ihre Transkriptionen so genau wie möglich sein. Beim maschinellen Lernen geht das Modell automatisch davon aus, dass die ihm übermittelten Ground Truth-Daten richtig sind. Das bedeutet, dass das Modell bei Ungenauigkeiten in Ihren Ground Truth-Daten davon ausgeht, dass diese Ungenauigkeiten korrekt sind, was sich auf die Genauigkeit der Dokumente auswirkt, die das Modell anschließend transkribiert.
Zweitens sollte Ihre Transkription einheitlich sein. Es gibt viele verschiedene Möglichkeiten, linguistische Merkmale wie diakritische Zeichen, Ligaturen oder S-Zeichen zu transkribieren. Die Art und Weise, wie Sie diese Merkmale in Ihrem Ground Truth transkribieren, diktiert die Art und Weise, wie Ihr Modell sie später transkribieren wird. Daher ist es sinnvoll, Ihre Ground Truth-Dokumente genau so zu transkribieren, wie Sie die übrigen Dokumente transkribieren möchten, damit das Modell Ihr System erlernen und auf spätere Dokumente anwenden kann.
Sie können mehr über sprachliche Merkmale erfahren, auf die Sie besonders achten sollten auf dieser Seite.
Wo kann ich mehr über die Vorbereitung von Ground Truth und Trainingsmodellen in Transkribus erfahren?
Die Vorbereitung von Ground Truth und Modellen in Transkribus ist ein umfangreiches Thema, und es lohnt sich, einige Nachforschungen anzustellen, bevor Sie Ihr erstes Modell in Angriff nehmen. Hier finden Sie einige Ressourcen, in denen Sie mehr über das Training von Texterkennungsmodellen mit Ground Truth-Daten erfahren können:
- Unser Hilfe-Center ist eine Fundgrube für Informationen über alle Aspekte von Transkribus. Sie können sich den Abschnitt über das Training von Texterkennungsmodellen ansehen hier erläutert.
- Die FAQs auf unserer Website geben Antworten auf die am häufigsten gestellten Fragen zu Modellen und Trainingsdaten.
- Wir haben auch das folgende Video als benutzerfreundliche Anleitung für die Ausbildung von Modellen in Transkribus vorbereitet: