So verwenden Sie Transkribus in 10 Schritten

Grundlegende Übersicht
Transkribus Expert Client
Letzte Aktualisierung Vor 1 Monat
Über Transkribus

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier

Inhaltsverzeichnis

Inhaltsverzeichnis

Dieses Dokument ist eine grundlegende Einführung in Transkribus. Es bietet einen einfachen Standard-Workflow für die Arbeit mit der Plattform. Wenn Sie eine ausführlichere Anleitung zu den Funktionen von Transkribus benötigen, schauen Sie bitte in unsere anderen Anleitungen.

1 - Einleitung

Transkribus kann für mehrere Zwecke verwendet werden. Die wichtigsten sind:

  • Transkribieren von Dokumenten für eine wissenschaftliche Edition
  • Erstellen Sie Trainingsdaten, um sie in das Handwritten Text Recognition (HTR+) System zu speisen, damit es lernen kann, Ihre historischen Dokumente zu entziffern.
  • Führen Sie die HTR+ auf Ihren Dokumenten aus und erhalten Sie automatisch generierte Transkripte.
  • Suchen Sie nach bestimmten Wörtern in Ihren Dokument Collections mit Keyword-Spotting die viel leistungsfähiger ist als die Standard-Volltextsuche.
  • Die Plattform lebt von der Community. Je mehr Daten auf Transkribus hochgeladen werden, desto leistungsfähiger wird das Programm und insbesondere die Handschrifterkennung

Transkribus ist eine Forschungsinfrastruktur, die im Rahmen des H2020-ProjektsREAD (Recognition and Enrichment of Archival Documents/ Erkennung und Anreicherung von Archivalien).

Nehmen Sie sich etwas Zeit, um Transkribus zu erkunden und sich mit seiner Funktionsweise vertraut zu machen. Um es Ihnen zu erleichtern, haben wir mehrere Anleitungen erstellt, die Anweisungen zu den verschiedenen Funktionen der Plattform geben. Sie finden diese in unserer Ressourcenbasis.

2 - Um Transkribus zu nutzen - registrieren Sie sich auf der Website

  • Gehen Sie auf unsere Transkribus-Seite
  • Lesen und akzeptieren Sie unsere Bedingungen und Konditionen und unsere Datenschutzrichtlinien.
  • Alle auf Transkribus hochgeladenen Dokumente sind "privat", d.h. niemand außer Ihnen hat Zugriff darauf.
  • Das Transkribus-Team unterstützt voll und ganz alle EU-Richtlinien zum Datenschutz und zur Privatsphäre. Wir werden Ihre Privatsphäre respektieren und die Daten nur zur Verbesserung unserer Dienste und zur Unterstützung der Forschung in den Geisteswissenschaften und der Informatik verwenden!

3 - Transkribus von der Website herunterladen

  • Gehen Sie zur Transkribus Download-Seite
  • Transkribus läuft auf Windows, MacOS und Linux. Wenn Sie Hilfe bei der Installation der Plattform benötigen, schauen Sie hier.
  • Wenn Sie MacOS verwenden, kann beim ersten Versuch, Transkribus zu öffnen, eine Fehlermeldung erscheinen. Um dies zu beheben:
    • Klicken Sie mit der rechten Maustaste auf das Track Pad, um das Kontextmenü zu öffnen und eine Sicherheitsausnahme für Transkribus hinzuzufügen.
  • Nachdem Sie Transkribus heruntergeladen haben, entpacken Sie die Datei unbedingt. Das Programm kann nicht aus der gezippten Datei gestartet werden.

4 - Transkribus öffnen

  • Starten Sie das Tool und verwenden Sie die Schaltfläche "Login" in der Registerkarte "Server".

Abbildung 1 Anmeldung

  • Sie haben Zugriff auf Ihre private Sammlung, die nach Ihrer E-Mail-Adresse benannt ist. Diese Sammlung enthält einige Testdokumente, mit denen Sie experimentieren können.
  • Sie finden sie, indem Sie auf die Schaltfläche "Collections" im Register "Server" klicken.

Abbildung 2 Testdokumente in Ihrer Collection

5 - Laden Sie Ihre Dokumente hoch

  • In Transkribus können Sie mit Ihren eigenen Dokumenten arbeiten, entweder lokal oder durch Hochladen auf den Server.
  • Automatisierte Prozesse können nur durchgeführt werden, wenn die Dokumente auf die Transkribus-Plattform hochgeladen werden. Die Plattform kann PDF-, JPEG-, PNG- und TIFF-Dateien verarbeiten. JP2-Dateien werden leider nicht unterstützt.
  • Sie können Dokumente hochladen, die Sie selbst eingescannt haben. Sie können auch unser DocScan-App für Android-Smartphones, um Bilder aufzunehmen und direkt in Transkribus hochzuladen. Für mehr Informationen: https://scantent.cvl.tuwien.ac.at/en
  • Sie können auch Dokumente aus dem Internet herunterladen und in Transkribus hochladen. Viele Bibliotheken und Archive verfolgen eine Open-Access-Politik und fördern damit die weitere Nutzung ihrer Bestände - fragen Sie Archive und Bibliotheken direkt, ob Sie Bilder ihrer Dokumente in Transkribus hochladen können!
  • Klicken Sie auf die Schaltfläche "Import document(s)", um die Bilder von Ihrem Computer auf die Plattform zu übertragen. Hinweis: Die Bilder müssen sich in einem separaten Ordner auf Ihrem Computer befinden, bevor Sie sie in Transkribus hochladen!

Abbildung 3 Laden Sie Ihre Dokumente in Transkribus hoch

  • Sie können Ihre Dokumente zu einer Ihrer bestehenden Collections hinzufügen oder eine neue erstellen, indem Sie auf die Schaltfläche "Add to collection" unten im Feld "Document ingest/upload" und dann auf "Create" klicken.

Abbildung 4 Dokumente zu einer der vorhandenen Collections hinzufügen oder eine neue erstellen

Abbildung 5 Erstellen Sie Ihre eigene Collection

  • Um auf Ihre Dokumente zuzugreifen, klicken Sie in der Registerkarte "Server" auf die Schaltfläche "Collections" und wählen Ihre Collection aus. Doppelklicken Sie dann auf die Dokumente in der Box unten auf der Registerkarte "Server", um sie zu öffnen.

Abbildung 6 Öffnen Sie die Dokumente in Ihrer Collection

  • Alle auf Transkribus hochgeladenen Dokumente sind standardmäßig privat. Sie können anderen Benutzern die Berechtigung erteilen, Ihre Dokumente anzusehen, wenn Sie dies wünschen. Verwenden Sie die Schaltfläche "Benutzerverwaltung" im Register "Server", um Benutzer zu Ihrer Sammlung hinzuzufügen. Sie können Sammlungen nur mit Benutzern teilen, die ein Transkribus-Konto haben.

Abbildung 7 Schaltfläche "User Manager" zur Verwaltung des Zugriffs auf Ihre Sammlung

6 - Segmentieren Sie Ihre Dokumente in Zeilen

  • Um die HTR-Engine mit Trainingsdaten füttern zu können, müssen die Dokumente in Zeilen segmentiert werden. Dies kann in Transkribus automatisch erfolgen.
  • Öffnen Sie die Registerkarte "Werkzeuge".
  • Vergewissern Sie sich, dass "Textregionen suchen" ausgewählt ist, und drücken Sie "Ausführen".
  • Sie können wählen, ob Sie die aktuelle Seite oder einen Stapel von Seiten segmentieren möchten.
  • Die Linien und Textbereiche in Ihrem Dokument werden automatisch erkannt.

Bild 8 Segmentierung

7 - Starten Sie die Transkription

  • Sobald die Grundlinien in Ihrem Bild sichtbar sind, können Sie Text in das Texteditor-Feld schreiben.
  • Klicken Sie auf die Schaltfläche "Profile anzeigen" und wählen Sie die Ansicht "Transkription".
  • Für jede Basislinie wird es eine entsprechende Zeile im Texteditor. Transkribieren Sie den Text Zeile für Zeile, genau wie er im Bild erscheint.

Abbildung 9 Transkriptionsansicht

  • Sonderzeichen finden sich in der "Virtuelle Tastaturen" in der Symbolleiste des Texteditors.

Abbildung 10 Schaltfläche "Virtuelle Tastaturen

Abbildung 11 Virtuelle Tastaturen

  • Wenn Sie in einem Team arbeiten, ist es vielleicht einfacher, die Transkription in die Transkribus-Webschnittstelle. Dies ist eine Lite-Version von Transkribus, die einfach zu bedienen ist: https://transkribus.eu/r/read/projects/

8 - Speichern und Exportieren der Transkription

Abbildung 12 Speichern Sie die Änderungen in Ihrem Dokument

  • Drücken Sie die Schaltfläche "Speichern" im Hauptmenü, um das Dokument in Transkribus zu speichern.
  • Wenn Sie in der Registerkarte "Server" auf die Schaltfläche "Versionen" klicken, sehen Sie, dass ein neue Version erstellt worden ist. Das bedeutet, dass Sie bei Bedarf immer auf frühere Versionen eines Dokuments zugreifen können.

Abbildung 13 Klicken Sie auf die Schaltfläche "Versionen", um auf frühere Versionen Ihres Dokuments zuzugreifen

  • Sie können auch das gesamte Dokument exportieren an jeder Stelle des Prozesses durch Klicken auf die Schaltfläche "Dokument exportieren".

Abbildung 14 Schaltfläche "Dokument exportieren

9 - Verwenden Sie die Handschrifterkennung (HTR) für Ihre Dokumente

  • Es ist einfach, Ihre Dokumente vom Computer erkennen zu lassen. Sie können mit dem Training eines Modells mit etwa 5.000 transkribierten Wörtern gedruckten Textes oder 15.000 Wörtern handschriftlichen Textes beginnen.
  • Sobald ein HTR-Modell für Ihre Dokumente trainiert wurde, kann sie über die Schaltfläche "Ausführen" im Bereich "Texterkennung" auf der Registerkarte "Werkzeuge" angewendet werden. Sie können eine oder mehrere Seiten Ihrer Dokumente auswählen und die Erkennung starten.

Abbildung 15 Handschriftliche Texterkennung ausführen

Abbildung 16 Modellübersicht und Lernkurve

  • Wenn Sie auf "Ausführen" und dann auf "HTR-Modell auswählen" klicken, können Sie das Modell für die Erkennung auswählen und weitere Informationen darüber erhalten.
  • Auf der linken Seite des Fensters sehen Sie eine Übersicht über die verfügbaren Modelle.
  • Auf der rechten oberen Seite des Fensters werden die Details des Modells angezeigt.
  • Die Grafik unten rechts kennzeichnet die Genauigkeit Ihres Modells mit der Zeichenfehlerrate (CER), d.h. dem Prozentsatz der Zeichen, die von HTR falsch transkribiert wurden. Die blaue Linie stellt den Fortschritt des Trainings dar. Die rote Linie stellt den Fortschritt der Auswertungen auf dem Testdatensatz dar, der während des Trainingsprozesses beiseite gelegt wurde.
  • Nach Abschluss des HTR erscheinen die Ergebnisse direkt auf einer neuen Version Ihres Dokuments innerhalb von Transkribus. Es ist möglich die Genauigkeit bewerten der automatischen Transkription mit der "Compute Accuracy"-Funktion in der Registerkarte "Tools".

Abbildung 17 Berechnen Sie die Genauigkeit des HTR

10 - Keyword Spotting

  • Sobald Sie ein HTR-Modell für Ihre Dokumente haben, können Sie diese mit der Keyword-Spotting-Funktion durchsuchen. Falls vorhanden, können Sie dafür natürlich auch eines der öffentlichen Modelle verwenden.
  • Führen Sie zunächst das HTR-Modell auf Ihren Dokumenten aus, um eine automatische Abschrift zu erstellen.
  • Öffnen Sie dann die Funktion Keyword-Spotting mit der in Abbildung 18 gezeigten Schaltfläche des Fernglases.

Abb. 18 Öffnen Sie das Fenster "Suchen nach...", um die Keyword-Spotting-Funktion zu verwenden

  • Wählen Sie in dem sich öffnenden Fenster die Registerkarte "KWS".

Abbildung 19 Fenster zur Verwendung der Keyword-Spotting-Funktion

  • Geben Sie einfach das Wort, nach dem Sie suchen möchten, in das Feld "Schlüsselwort 1" ein und drücken Sie die Schaltfläche "Suchen".
  • Es öffnet sich ein Bestätigungsfenster. Klicken Sie auf "Yes", um Ihre Keyword-Spotting-Abfrage zu starten

Abbildung 20 Bestätigungsfenster

  • Wenn Ihre Suchanfrage beendet ist, doppelklicken Sie auf das Datum und den Zahlenwert in der Spalte "Erstellt", um Ihre Suchergebnisse aufzurufen

Abbildung 21 Keyword-Spotting-Ergebnisse

  • Das Fenster "Keyword-Spotting-Ergebnisse" zeigt Ihnen eine Liste der Stellen, an denen dieses Schlüsselwort vorkommt.

Abbildung 22 Informationen über Ihre Keyword-Spotting-Ergebnisse

Credits

Wir möchten uns bei den vielen Anwendern bedanken, die mit ihrem Feedback zur Verbesserung der Transkribus-Software beigetragen haben.

Transkribus und die dahinter stehende Technologie werden über die folgenden Projekte und Seiten zur Verfügung gestellt:

Kontakt

http://transcriptorium.eu/figs/jaune.jpg

Die Transkribus-Plattform wird zur Verfügung gestellt von der Europäischen Genossenschaft READ-COOP SCE.

Bis Juni 2019 wurde Transkribus im Rahmen des Horizon 2020 READ-Projekts unter der Fördervereinbarung Nr. 674943 finanziert.