Transkribus ist zwar bekannt für seine Fähigkeit, handschriftliche Dokumente zu transkribieren und anzureichern, aber wussten Sie, dass Sie Transkribus auch als OCR-Software verwenden können? OCR steht für Optical Character Recognition (optische Zeichenerkennung) und ist eine Technologie zur Transkription von Text in Bildern, wie sie auch Transkribus verwendet. Der Unterschied besteht jedoch darin, dass OCR-Systeme in der Regel nur gedruckte Texte transkribieren können, nicht aber handschriftliche Texte wie z.B. historische Dokumente.
Der Vorteil von Handschrifterkennungssystemen (HTR) wie Transkribus besteht darin, dass sie in der Lage sind, sowohl handschriftliche Texte zu transkribieren und gedruckte Texte. Es gab bereits mehrere Transkribus-Projekte, bei denen Bücher und andere gedruckte Texte in großem Umfang digitalisiert und transkribiert wurden. Wenn Sie also auch eine Sammlung von gedruckten Büchern digitalisieren wollen, finden Sie hier alles, was Sie über die Nutzung von Transkribus als OCR-Dienst wissen müssen.
Was ist OCR?
Wie bereits in der Einleitung erwähnt, gibt es eine wesentliche Gemeinsamkeit zwischen Plattformen zur optischen Zeichenerkennung (OCR) und zur Erkennung handgeschriebener Texte (HTR): Beide wandeln ein Bild eines Dokuments in Text um. Sie können eine gescannte Buchseite auf die Plattform hochladen, und diese wandelt die gedruckten Wörter in eine digitale Textdatei um.
Der Unterschied zwischen den beiden Systemen liegt in der Technologie, die hinter dem Textkonverter steht. Wie der Name schon sagt, basiert OCR auf der Zeichenerkennung. Herkömmliche Software zur optischen Zeichenerkennung ist im Grunde wie eine riesige Datenbank mit allen möglichen Zeichen in allen möglichen Schriftarten. Die OCR-Engine erkennt die Zeichen im Bild und durchläuft dann mit einer als Mustererkennung bezeichneten Technologie die extrahierten Zeichen in der Datenbank, um sie mit jedem gespeicherten Zeichen zu vergleichen und zu prüfen, wie ähnlich es ist. Sobald sie eine Übereinstimmung findet, wird dieses Zeichen in die Transkription eingefügt.
New Zealand Alpine Journal Nr. 12 (1922) , über Neuseeländischer Alpenverein
Warum sollten Sie HTR für gedruckte Texte verwenden?
Die OCR-Technologie eignet sich gut für gedruckten Text, für den es nur eine begrenzte Anzahl von Schriftarten und Zeichen gibt. Bei handgeschriebenem Text gibt es jedoch unendlich viele Möglichkeiten. Keine zwei Menschen schreiben auf genau dieselbe Art und Weise, und selbst ein und dieselbe Person kann in verschiedenen Situationen anders schreiben - zum Beispiel auf einem Formular im Gegensatz zu einer Einkaufsliste. Dies stellt eine Herausforderung für OCR-Algorithmen dar, da sie ständig mit Informationen konfrontiert werden, die sich von allem, was sie bisher gesehen haben, stark unterscheiden. Selbst OCR-Systeme mit intelligenter Zeichenerkennung oder fortgeschrittener optischer Worterkennung haben oft Schwierigkeiten mit handgeschriebenen Texten.
Hier kommt die Handschrifterkennung (HTR) ins Spiel. Die HTR-Technologie, wie Transkribus, ist eine fortgeschrittene Form der OCR, bei der maschinelles Lernen eingesetzt wird, um zu lernen, wie man verschiedene Arten von Handschriften liest, und um dann fundierte Vermutungen über Handschriften anzustellen, die man noch nie zuvor gesehen hat. Aber auch wenn Sie nicht brauchen HTR zur Verarbeitung gedruckter Texte hat gegenüber OCR mehrere Vorteile. So handelt es sich beispielsweise um eine ausgefeiltere und genauere Technologie, die mehrere verschiedene Strategien zur Entschlüsselung des Textes in Bildern einsetzt, anstatt ihn nur mit vorgegebenen Vorlagen zu vergleichen.
Der größte Vorteil von Transkribus gegenüber herkömmlichen OCR-Systemen ist jedoch, dass es durch den Einsatz von KI-Modellen auf Ihren spezifischen Text zugeschnitten werden kann. Diese Modelle wurden speziell für das Lesen bestimmter Arten von gedruckten Texten trainiert - zum Beispiel für deutsche Bücher, die in Fraktur gedruckt sind - und Sie können wählen, ob Sie Ihre Texterkennung mit einem von über hundert Modellen durchführen möchten. Da das System keinen Einheitsansatz verfolgt, können Sie die Plattform an die Art der gedruckten Texte, mit denen Sie arbeiten, anpassen, was zu genaueren Transkriptionen führt.
Wie man OCR mit Transkribus durchführt
Schritt 1: Scannen des Buches
Der erste Schritt im OCR-Prozess besteht darin, alle Seiten einzuscannen, die Sie transkribieren oder aus denen Sie Text extrahieren möchten. Es gibt verschiedene Möglichkeiten, dies zu tun, von der Verwendung eines hochwertigen Scanners bis hin zur einfachen Aufnahme eines Bildes mit Ihrem Smartphone.
Wenn Sie die letztgenannte Methode verwenden, können Sie die Option ScanTent. Dieses innovative Produkt bietet die optimale Lichtumgebung für die Erstellung hochwertiger Bilder von Büchern und Dokumenten. Legen Sie einfach das zu scannende Material in das Zelt, befestigen Sie Ihr Smartphone an der Halterung an der Oberseite und machen Sie wie gewohnt ein Bild.
Darüber hinaus können Sie die DocScan-App verwenden. Die App kann zwar für alle Arten von Dokumenten verwendet werden, ist aber besonders nützlich für Bücher, da sie automatisch registriert, wenn Sie eine Seite umblättern, und nach jedem Umblättern ein neues Bild aufnimmt. So können Sie ganze Bücher schnell scannen, ohne ständig Tasten auf dem Touchscreen Ihres Telefons drücken zu müssen.
Die Bibliothèque Nationale de France in Paris bietet jetzt allen Besuchern ScanTents an, mit denen sie ganz einfach Bilder von Materialien in der Bibliothek machen können. Mehr darüber erfahren Sie unter dieser Blogbeitrag.
Dürftig © Transkribus
Schritt 2: Hochladen gescannter Dokumente
Sobald Sie Ihre Scans haben, müssen Sie sie in Transkribus hochladen. Dazu müssen Sie zunächst ein Konto einrichten und melden Sie sich an. Dann müssen Sie eine Sammlung erstellen in der Sie Ihre Scans speichern. Wenn Sie ein größeres Projekt mit vielen verschiedenen Büchern durchführen, ist es sinnvoll, für jedes Buch eine eigene Sammlung anzulegen.
Sie können Scans im JPEG-, PNG- oder PDF-Format zu Transkribus hochladen. Wenn Sie die DocScan-App verwendet haben (siehe oben), können Sie Ihre Scans automatisch zu Transkribus hochladen, ohne sie vorher herunterladen zu müssen.
Wenn Sie mit privaten oder sensiblen Informationen arbeiten, wird es Sie freuen zu hören, dass alle in Transkribus hochgeladenen Dokumente standardmäßig privat. Sie werden auf den Servern von READ-COOP SCE (d. h. dem Unternehmen, das die Software entwickelt und pflegt) in einer GDPR-konformen Weise gespeichert. Die Server befinden sich alle in Innsbruck, Österreich, und die Daten können gemäß den folgenden Bestimmungen verarbeitet werden Bedingungen und Konditionen auf der READ-COOP SCE-Website.
Schritt 3: Auswahl eines öffentlichen Modells
Bevor Sie die Texterkennung mit Transkribus starten können, müssen Sie ein KI-Modell auswählen. Dieses Modell ist wie ein Leitfaden, der der Software sagt, wie die einzelnen Zeichen in jedem Dokument zu transkribieren sind. Das von Ihnen gewählte Modell hat also Einfluss darauf, wie Transkribus den Text in Ihren Büchern transkribiert.
Da gedruckte Texte für HTR-Plattformen relativ leicht zu transkribieren sind, gibt es glücklicherweise viele sehr effiziente öffentliche Modelle in verschiedenen Sprachen. Sie können alle öffentlichen Modelle sehen auf unserer Website und können nach Sprache und Textart (handschriftlich, maschinengeschrieben oder gedruckt) filtern. Damit sollten Sie alle relevanten Modelle für die OCR Ihrer Bücher finden.
Schritt 4: Ausführen der Texterkennung
Im letzten Schritt wird die Texterkennung selbst durchgeführt. Öffnen Sie das Dokument oder die Sammlung in Transkribus und wählen Sie in der linken Symbolleiste "Texterkennung". Wählen Sie dann das richtige Modell für Ihre Dokumente aus und klicken Sie auf "Start", um die Texterkennung zu starten.
Die Texterkennung kann je nach Größe und Art des Auftrags einige Zeit in Anspruch nehmen. Sie können den Status jedoch jederzeit einsehen, indem Sie in der linken Symbolleiste "Aufträge" auswählen. Eine vollständige Anleitung für die Texterkennung finden Sie hier erläutert.
Deutsche Historische Novellen (1789-1848), über Lesen & Suchen
Wie kann ich meine transkribierten Bücher online veröffentlichen?
Eine der Hauptmotivationen für die Digitalisierung und Transkription von gedruckten Büchern besteht darin, sie für jedermann online verfügbar zu machen.
Es gibt verschiedene Möglichkeiten, wie Sie Ihre digitalisierten Bücher online veröffentlichen können. Große Organisationen wie Universitäten und Bibliotheken verfügen oft über eigene Plattformen für die Veröffentlichung von digitalisiertem Material. Wenn Sie jedoch keinen Zugang zu einem solchen System haben, können Sie Ihre transkribierten Bücher auch veröffentlichen über read&search.
read&search ist eine einfach zu bedienende Plattform, die es Ihnen ermöglicht, Dokumente direkt von Transkribus aus zu veröffentlichen. Sie können einfach auswählen, welche Sammlungen Sie veröffentlichen möchten, und unser Team wird eine vollständig durchsuchbare Datenbank mit diesen Sammlungen einrichten. So können die Nutzer schnell nach den gewünschten Informationen suchen, ohne die gesamte Sammlung durchsuchen zu müssen. Mehrere gedruckte Büchersammlungen wurden bereits auf read&search veröffentlicht, darunter die NOSCEMUS-Kollektion wissenschaftlicher Texte und diese Sammlung von historische Romane auf Deutsch.
Wenn Sie daran interessiert sind, ein read&search für Ihre Sammlung einzurichten, dann können Sie sich an unser Team wenden hier erläutert.