Anreicherung transkribierter Dokumente mit Markup

Anreicherung transkribierter Dokumente mit Markup

Metadaten
Transkribus Expert Client
Letzte Aktualisierung Vor 7 Monaten
Über Transkribus

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier

Inhaltsverzeichnis

Inhaltsverzeichnis

Diese Anleitung zeigt Ihnen, wie Sie in Transkribus bereits transkribierte Dokumente mit Markierungen versehen können. So haben Sie die Möglichkeit, Personen, Orte und Abkürzungen zu definieren. Sie können eigene Markierungskategorien hinzufügen und nach einzelnen Tags in Ihren Dokumenten suchen. Zusätzlich können die Tags in verschiedenen Formaten exportiert werden. Weitere Informationen über den Export von Tags finden Sie in der Anleitung für den Export von Dokumenten aus Transkribus.

Einführung

Mit der Tagging-Schnittstelle in Transkribus können Sie

  • wichtigen Wörtern oder Ausdrücken in Ihrem Dokument Tags zuweisen.
  • nach einzelnen Tags oder Tag-Kategorien suchen.
  • die von Ihnen hinzugefügten Tags in verschiedene Dateiformaten exportieren, so dass Sie auch außerhalb von Transkribus damit weiterarbeiten können.

Tagging-Schnittstelle

  • Die Tagging-Oberfläche finden Sie, wenn Sie auf die Registerkarte "Metadata" und dann auf die Registerkarte "Textual" klicken.

Abbildung 1 Die Registerkarte "Textual"

  • Wenn Sie unten auf der Registerkarte "Textual" ein Häkchen bei "Show all" setzen, werden alle vordefinierten Tags angezeigt. Sie können sofort mit diesen arbeiten.

Abbildung 2 Alle vordefinierten Tags anzeigen

Abbildung 3 Vordefinierte Tags in Transkribus

Erstellen Sie Ihre eigenen Tags

  • Um eigene Tag-Kategorien zu erstellen, klicken Sie in der Registerkarte "Tags" auf die Schaltfläche "Customize". Es öffnet sich das Fenster "Tag Configuration".

Abbildung 4 Eigene Tags erstellen

  • Mit der Schaltfläche "Create new tag" können Sie eigene Tags hinzufügen.
  • Wenn Sie einen neuen Tag erstellt haben, wird er angezeigt, wenn Sie auf die Schaltfläche "Show all" klicken.
  • Im Fenster "Tag Configuration" werden vordefinierte Tags kursiv dargestellt, benutzerdefinierte Tags ohne Kursivierung.

Hinzufügen von Tags

  • Wenn Sie ein Wort oder eine Phrase markieren möchten, gibt es (mindestens) drei Möglichkeiten, dies zu tun:
    • Markieren Sie den Text im Texteditor-Feld und klicken Sie anschließend auf die grüne +-Schaltfläche des Tags, den Sie anwenden möchten.

Abbildung 5 Markieren Sie das zu kennzeichnende Wort

Abbildung 6 Auswählen des richtigen Tags

  • Alternativ können Sie das Wort oder die Phrase markieren und dann einen Rechtsklick mit der Maus machen. Unter "All Tags" kann dann das passende ausgewählt werden.

Abbildung 7 Markieren eines Wortes oder einer Phrase mit rechtem Mausklick

  • Wenn es schließlich Tag-Kategorien gibt, die Sie häufig verwenden, können Sie eine Verknüpfung für diese erstellen, um Ihre Arbeit zu beschleunigen. Klicken Sie dazu innerhalb der Registerkarte "Textual" auf die Schaltfläche "Customize" im Register "Tags". Im Bereich "Tag Specifications" können Sie nun in der Spalte "Shortcut" Ihre bevorzugte Abkürzung hinzufügen.

Abbildung 8 Abkürzungen für häufig verwendete Tags hinzufügen

  • Sie können auch ein Tastenkürzel hinzufügen, das sich auf die Eigenschaften Ihrer Tags bezieht, z. B. zum Erweitern von Abkürzungen oder zum Hinzufügen eines standardisierten Ländernamens zu einem Orts-Tag.
    • Klicken Sie auf die Schaltfläche "Customize" in der Registerkarte "Tags".
    • Klicken Sie im Fenster "Tag Configuration" auf den gewünschten Tag. Die Details zu diesem Tag werden im Bereich "Properties" angezeigt.
    • Klicken Sie auf "Add property", um die gewünschte Eigenschaft hinzuzufügen.
    • Klicken Sie dann auf "Add tag specification".
    • Jetzt erscheint Ihr Tag und seine Eigenschaft (z. B. eine Erweiterung für eine Abkürzung) im Abschnitt "Tag specification" des Fensters.
    • Fügen Sie das gewünschte Tastenkürzel hinzu.
    • Jetzt können Sie das Tag und seine Eigenschaft hinzufügen, indem Sie einfach das Wort oder die Phrase im Texteditor-Feld markieren und dann die Tastenkombination drücken.

Abbildung 9 So fügen Sie eine feste Abkürzung hinzu

  • Wenn Sie etwas versehentlich markiert haben, können Sie dies rückgängig machen, indem Sie das Wort oder den Ausdruck erneut markieren, mit der rechten Maustaste anklicken und dann die Schaltfläche "Delete" drücken. Das Programm gibt Ihnen zwei Optionen:
    • Nur den markierten Tag löschen
    • Alle Tags für die aktuelle Sammlung löschen
  • Hinweis: Tags können auf Text auf Regions-, Zeilen-, Wort- oder sogar Zeichenebene angewendet werden. Um Tags auf ein Segmentierungselement anzuwenden, klicken Sie im Canvas-Bildbetrachter auf einen Text- oder Zeilenbereich und befolgen Sie die obigen Anweisungen.
  • Benutzer können so viele Tags wie nötig auf den Text anwenden.
  • Im Reiter "Textual" gibt Ihnen Transkribus einen Überblick über die Tags, die Sie in Ihrem Dokument gesetzt haben.

Abbildung 10 Übersicht der Tags

Historische Buchstaben und Abkürzungszeichen

  • In modernen Dokumenten ist die Handhabung von Abkürzungen weniger wichtig, aber in historischen Dokumenten ist sie eine komplexe und anspruchsvolle Aufgabe.
  • In früheren Zeitabschnitten wurden Wörter oft stark abgekürzt, in der Hoffnung, schneller zu schreiben oder Papier zu sparen. In manchen Dokumenten werden mehr als 20 oder 30% aller Wörter abgekürzt, wie in der Abbildung unten gezeigt:

https://upload.wikimedia.org/wikipedia/commons/thumb/8/83/Latin-breve.svg/681px-Latin-breve.svg.png Abbildung 11 Beispiele für typische Abkürzungen in lateinischen Texten des Mittelalters
(vgl. Wikipedia: https://en.wikipedia.org/wiki/Scribal_abbreviation)

  • Auch hier gibt es zwei Hauptoptionen, um abgekürzten Text zu transkribieren:
    • Option 1: Erweitern Sie Abkürzungen auf die übliche Weise. Neuronale Netze sind oft in der Lage zu lernen, Expansionen zu erkennen und wiederzugeben. Z.B. werden lateinische Präfixe und Suffixe wie "cum", "con" oder "us" und "orum" von der Maschine leicht gelernt. Das bedeutet, dass Sie in Ihrer Transkription lediglich eine erweiterte Version des Textes bereitstellen müssen.
    • Option 2: Halten Sie sich an die oben genannte Regel - solange Sie das Grundzeichen erkennen können -. das Basiszeichen umschreiben. Diese Regel eignet sich besonders für Historiker und Personen, die sich für den "Inhalt" eines Dokuments interessieren und die Trainingsdaten für die HTR-Engine bereitstellen wollen.
      • Hinweis: Wenn es um das HTR-Training geht, sind Tags noch nicht relevant. Entwicklungen in der Named-Entity-Recognition-Technologie sollen in Zukunft die automatisierte Erkennung von Tags möglich machen.
    • Daher wäre die korrekte Transkription für die obigen Beispiele einfach:
      • pdor - qq - cus - qr
      • Hinweis: In Zukunft können HTR-Engines auch lernen, diese Abkürzungen automatisch zu erweitern (oder die richtige Abkürzung für eine Erweiterung zu liefern), so dass eine computergestützte Transkription unterstützt werden kann.
    • Option 3: Wenn Sie auch an der Verwendung von Unicode-Zeichen interessiert sind, die ähnlich den speziellen Graphemen des Originaldokuments sind, dann können Sie den Text unter Ausnutzung der vollen Leistungsfähigkeit von Unicode transkribieren.
    • In diesem Fall könnte die Transkription von oben wie folgt aussehen:
      • pˀ: LATEINISCHER KLEINBUCHSTABE P, DER OGONEK OBEN KOMBINIERT
      • ᵭ: LATEINISCHER KLEINBUCHSTABE D MIT MITTLERER TILDE
      • o: LATEINISCHER KLEINBUCHSTABE O
      • : LATEINISCHER KLEINBUCHSTABE RUM ROTUNDA. Auch LATIN SMALL LETTER R ROTUNDA kann verwendet werden, um diesen Buchstaben darzustellen.
    • Hinweis: In realen Fällen ist es oft schwer zu entscheiden, welches Diakritikum, welcher Modifizierungsbuchstabe oder welches Unicode-Zeichen das richtige sein könnte. Sie können die MUFI-Website konsultieren, um weitere Informationen zu diesem Thema zu erhalten (vgl. Abschnitt "Referenzen"): http://folk.uib.no/hnooh/mufi/
    • Unicode und andere Sonderzeichen finden Sie in der Schaltfläche "Virtuelle Tastaturen" im Menü des Texteditors.

Abbildung 12 Schaltfläche "Virtuelle" Tastaturen

Abbildung 13 Fenster "Virtuelle Tastaturen

  • Natürlich sind gemischte Modelle oft nützlich. So können z.B. häufig vorkommende historische Zeichen mit ihrem korrekten Unicode-Buchstaben transkribiert werden, während Zeichen, die nur von einem bestimmten Schreiber verwendet wurden, mit ihrem Basiszeichen transkribiert werden können. Solche redaktionellen Entscheidungen sollten Sie in der "Editorial Declaration" in der Registerkarte "Document", innerhalb der Registerkarte "Metadata" festlegen, damit Ihre Transkriptionsregeln für andere Benutzer transparent sind.
    • Beispiel: LATEINISCHER KLEINBUCHSTABE RUM ROTUNDA wird regelmäßig in mittelalterlichen und frühneuzeitlichen Texten verwendet. Daher könnte es sinnvoll sein, diesen Buchstaben in ein HTR-Modell einzuführen, das sich ausschließlich mit mittelalterlichen Dokumenten befasst und für die Verarbeitung großer Mengen solcher Dokumente bestimmt ist.

Unleserlicher Text

  • Text, der nicht transkribiert werden kann, weil er unleserlich ist, kann mit den Tags "unklar" oder "Lücke" gekennzeichnet werden.
  • Wenn der Text unklar ist, markieren Sie ihn im Texteditor-Feld und kennzeichnen Sie ihn als "unklar".
  • Wenn der Text nicht lesbar ist, klicken Sie mit dem Cursor an die Stelle, an der der Text im Texteditor-Feld erscheint, und fügen Sie das Tag "Lücke" hinzu.
  • Sie können auch Alternativen oder Vorschläge für das unlesbare Wort im Abschnitt "Properties" des Tags hinzufügen.

Löschungen

  • Wenn Sie gelöschten Text entdecken, haben Sie mehrere Möglichkeiten:
    • Option 1: Der Text, der gelöscht wird, ist noch lesbar, oder zumindest große Teile davon. In diesem Fall transkribieren Sie den Text so gut wie möglich und markieren ihn als durchgestrichen. Die Schaltfläche "Durchstreichen" finden Sie im Menü des Texteditors.

Abbildung 14 Durchstreichtaste

    • Hinweis: HTR-Maschinen sind in der Lage, durchgestrichenen Text zu entschlüsseln, und je mehr Beispiele sie haben, desto besser.

Text schwärzen

  • Das "Schwärzen"-Tag kann verwendet werden, um sensible Informationen in den Exportformaten zu schwärzen. Typischerweise wird dies verwendet, um persönliche Daten in einem Dokument zu verbergen, das öffentlich zugänglich gemacht wird.
  • Das Schwärzungs-Tag wird in Verbindung mit dem Bereich "Schwärzung" verwendet, der mit den Segmentierungswerkzeugen hinzugefügt werden muss.
  • Zum Schwärzen eines Teils des Textes:
    • Verwenden Sie das Einblendmenü auf der Schaltfläche "+..." des Segmentierungselements im Menü "Canvas" und wählen Sie "Schwärzung". Verwenden Sie den Bereich "Schwärzung", um das Wort oder den Abschnitt zu markieren, den Sie ausblenden möchten.
    • Hinweis: Klicken Sie im Hauptmenü auf die Schaltfläche "Objektsichtbarkeit" und wählen Sie "Schwärzungen rendern", um die geschwärzten Bereiche auf einer Seite anzuzeigen.
    • Markieren Sie das entsprechende Wort im Texteditor-Feld und wählen Sie das Tag "Schwärzung". Beim Export des Dokuments wird der Text durch ersetzt: […].
    • Stellen Sie beim Exportieren Ihres Dokuments sicher, dass "Schwärzen" ausgewählt ist.
    • Hinweis: In METS- und TEI-Dateien wird das Wort oder die Phrase geschwärzt, aber die Informationen hinter dem geschwärzten Abschnitt bleiben erhalten. In anderen Dateiformaten wird der Text hinter dem geschwärzten Abschnitt vollständig unkenntlich gemacht.

Abb. 15 Wählen Sie "Schwärzen", um Bildbereiche und Text in exportierten Dateien auszublenden

Suche nach Tags

  • Wenn Sie nach bestimmten Tags suchen möchten, klicken Sie auf die Schaltfläche "Fernglas" in der Registerkarte "Textual".

Abbildung 16 Schaltfläche Fernglas für Tag-Suche

  • In dem sich öffnenden Fenster können Sie Ihre Suche definieren
    • Wählen Sie, wo Sie suchen möchten (aktuelle Kollektion, aktuelle Seite...)
    • Zeilen- oder Wortebene
    • Geben Sie in das Feld "Name" den Namen des Tags ein
    • Geben Sie in das Feld "Text" den geschriebenen Text ein
    • Drücken Sie die Schaltfläche "Search!
    • Die Suchergebnisse werden am unteren Rand des Fensters angezeigt.

Abbildung 17 Fenster "Search for..." für die Tag-Suche

  • Zum schnellen Hinzufügen einer Erweiterung oder einer anderen Eigenschaft zu einem Wort, das mehrmals im Text vorkommt:
    • Sortieren Sie die Suchergebnisse nach "Value". Dies geschieht durch einfaches Anklicken von "Value".
    • Markieren Sie die ähnlichen Wörter, indem Sie sie anklicken, während Sie die "Steuerung"-Taste auf Ihrer Tastatur gedrückt halten.
    • Klicken Sie dann auf die Schaltfläche "Assign tag values..." und geben Sie die Eigenschaft ein, die hinzugefügt werden soll.

Abbildung 18 Beschleunigung der Arbeit durch gleichzeitiges Hinzufügen von Eigenschaften zu mehreren Wörtern oder Sätzen

Metadaten

  • Wir unterstützen derzeit nur eine sehr einfache Beschreibung von Dokumenten, da wir davon ausgehen, dass bei einer Digitalen Edition die meisten Metadaten auf einem externen Server liegen und mit dem Dokument verknüpft werden. Jedes Dokument hat seine eindeutige ID und kann auch über die von der Transkribus-Plattform bereitgestellten REST-Dienste angesprochen werden (https://transkribus.eu/wiki/).
  • Die folgenden Felder sind derzeit in der Registerkarte "Document", innerhalb der Registerkarte "Metadata", verfügbar:
    • Titel
    • Autor
    • Hochgeladen
    • Genre
    • Schreiber
    • Sprache
    • Skript-Typ
    • Datum des Schreibens
    • Beschreibung

Editorial Declaration

  • Da es immer mehrere Möglichkeiten gibt, eine korrekte Transkription eines Textes zu erstellen, ist es wichtig, transparent zu machen, auf welche Weise die Transkription vorgenommen wurde.
  • Zu diesem Zweck haben wir in Transkribus eine spezielle Funktion eingebaut, die "Editorial Declaration". Diese finden Sie im Reiter "Document", innerhalb der Registerkarte "Metadata".
  • Wie das Tagging-System bietet auch die "Editorial Declaration" eine Reihe von vordefinierten Funktionen und Optionen. Darüber hinaus haben Sie die Möglichkeit, eigene Beschreibungen zu erstellen und diese zusammen mit Ihrem Dokument zu speichern.
  • Es ist besonders wichtig, Sonderzeichen und deren Verwendung in der Redaktionserklärung mit dem Formular aufzuführen:
    • Zeichensatzerweiterung: LATEINISCHER KLEINBUCHSTABE LANG S (U+017F)

Bild 19 Erstellen Sie Ihre Redaktionserklärung

Credits

Wir möchten uns bei den vielen Anwendern bedanken, die mit ihrem Feedback zur Verbesserung der Transkribus-Software beigetragen haben.