Transkribus Transkriptionskonventionen

Transkribus Transkriptionskonventionen

Grundlegende Übersicht
Transkribus Expert Client
Letzte Aktualisierung Vor 2 Jahren
Über Transkribus

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier erläutert

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier erläutert

Inhaltsverzeichnis

Inhaltsverzeichnis

Dieser Leitfaden enthält eine detaillierte Transkriptionsanleitung für die Transkription in Transkribus mit Hinweisen zu Funktionen wie Abkürzungen, Diakritika und Tags.

Benutzer sollten mit dieser Anleitung fortfahren, nachdem sie zuerst unsere grundlegende Transkriptionsanleitung gelesen haben: Wie man Dokumente transkribiert mit Transkribus - Einführung.

Einführung

In den letzten Jahren wurden unsere Transkriptionsrichtlinien überarbeitet und vereinfacht, um den Erkenntnissen darüber Rechnung zu tragen, was die Handwritten Text Recognition (HTR)-Technologie lernen kann, zu verarbeiten.

Dieser Leitfaden bietet eine standardisierte Anleitung zur Transkription von historischen Dokumenten in Transkribus.

Unser Ziel ist es, Anwendern zu helfen, schnell und effizient Transkripte zu erstellen, als Basis für starke HTR-Modelle, die Text mit hoher Genauigkeit erkennen können.

Anwender möchten vielleicht eine einfache Transkription erstellen, die nur dazu dient, die HTR-Technologie für die Erkennung ihrer Dokumente zu trainieren.

In diesem Fall ist die wichtigste Überlegung, ein konsistentes Transkript zu erstellen, das die Wörter in Ihrem Dokument genau wiedergibt.

Alternativ können Benutzer auch eine umfangreiche Transkription mit zusätzlichen Tags und Metadaten erstellen, die für eine wissenschaftliche Ausgabe geeignet wäre.

In diesem Leitfaden werden gängige historische Konventionen für die wissenschaftliche Transkription dargelegt, die die Benutzer entsprechend ihren Bedürfnissen und den Besonderheiten ihrer Dokumente anpassen können. Sie müssen bestehende Transkriptionen, die Sie bereits abgeschlossen haben, nicht unbedingt ändern. Möglicherweise finden Sie auch andere effektive Möglichkeiten, mit Transkriptionsproblemen umzugehen, die in diesem Leitfaden nicht behandelt werden.

Transkribus-Anwender können Dokumente demnächst auch in der Transkribus-Web-Oberfläche transkribieren, wodurch das Transkribieren von Dokumenten im Team erleichtert wird.

Bevor Sie beginnen, überprüfen Sie bitte, ob Sie mit der neuesten Version des Transkribus-Expertenclients arbeiten:

  • Klicken Sie auf die Schaltfläche "☰" und dann auf "Nach Updates suchen".
  • Sie können auch die "Snapshot"-Versionen ausprobieren, die Vorabversionen der offiziellen Versionen der Plattform sind

Abbildung 1 Prüfen auf die neueste Version von Transkribus

Segmentierung

  • Um Ihre Dokumente in Transkribus transkribieren zu können, müssen diese in Textregionen, Zeilen und Baselines segmentiert werden.
  • Mit den Optionen in der Registerkarte "Extras" können Sie Ihre Dokumente automatisch segmentieren.
  • Die Basislinien sind das wichtigste Segmentierungselement
  • Grundlinien sollten immer bündig mit der Textzeile abschließen und nicht über den Textbereich hinausgehen.
  • Die Zeichen sollten auf der Basislinie "sitzen", eventuelle Unterlängen sollten unter diese reichen.
  • Wenn das Layout Ihrer Dokumente sehr anspruchsvoll ist, müssen Sie möglicherweise eine manuelle Korrektur der Basislinien vornehmen.
  • Weitere Informationen zur Segmentierung von Dokumenten finden Sie unter: Wie man Dokumente mit Transkribus transkribiert - Einführung.

Transkription

Diplomatische Transkription

Der Text muss Zeichen für Zeichen transkribiert werden, entsprechend dem, was auf dem Bild zu sehen ist. Da es in der Vergangenheit keine einheitlichen Rechtschreibregeln gab, ist die orthografische und grammatikalische Korrektheit von untergeordneter Bedeutung.

Wörter kombinieren

Wörter sollten entsprechend dem Originaltext getrennt oder kombiniert werden, auch wenn dies nicht der gängigen Praxis entspricht.

Groß- und Kleinschreibung

Auch hier sollte der Originaltext die Grundlage für Ihre Entscheidung sein. Wenn ein Anfangsbuchstabe nicht eindeutig als Groß- oder Kleinbuchstabe (Majuskel oder Minuskel) identifiziert werden kann, liegt die Entscheidung bei Ihnen, sollte aber auf der Grundlage der aktuellen Rechtschreibregeln erfolgen.

Wörter mit Bindestrich

Wenn Wörter mit Silbentrennung am Ende der Zeile erscheinen, sollten sie entsprechend dem Original transkribiert und aufgelöst werden.

Sie müssen nicht mehr mit einem "-" oder einem "Häkchen" gekennzeichnet werden.

Wenn Wörter mit Silbentrennung in der Mitte einer Zeile erscheinen, sollten sie entsprechend dem Originaltext transkribiert werden.

Durchgestrichene Textpassagen

Durchgestrichene Textpassagen sollten mit dem "Tag as strikethrough"-Button im Text Editor Feld markiert werden.

Schaltfläche im Feld Texteditor.

Hochgestellte Textpassagen

Hochgestellte Textpassagen (einschließlich Interpunktionszeichen) sollten als hochgestellt mit der "Tag as superscript"-Schaltfläche im Text Editor Feld markiert werden.

"Als hochgestellt markieren" im Texteditor-Feld.

Zeichensetzung

Interpunktion sollte mit den Tasten Ihrer Tastatur transkribiert werden, wobei Sie sich so nah wie möglich am Original halten sollten.

Für Dokumente des 16. Jahrhunderts und später: Die Transkription sollte dem Originaltext folgen, auch wenn ein Satzzeichen auf eine Weise verwendet wurde, die nicht dem modernen Sprachgebrauch entspricht.

Für Transkriptionen von mittelalterlichen Texten: Versuchen Sie nicht, moderne Interpunktion zu verwenden. Es wäre besser, entweder alle Satzzeichen wegzulassen oder bestimmte Symbole zu verwenden (z. B. Middle Dot, U+00B7).

Nach Zahlen und Überschriften stehen oft Punkte - und die sollten transkribiert werden.

Manchmal verwenden historische Dokumente "/:" anstelle von Klammern. In diesen Fällen sollte das "/:" transkribiert werden.

transkribiert.

Unterstrichene Textpassagen

Unterstrichene Textpassagen werden mit der Schaltfläche "Als unterstrichen markieren" im Texteditor-Feld gekennzeichnet.

Schriftarten

Andere Schriftarten wie Kurrent oder Antiqua sind nicht besonders gekennzeichnet.

Ergänzungen und Lesereihenfolge

Zusätze zwischen den Zeilen werden als separate Zeilen segmentiert und normal transkribiert, müssen aber nicht besonders gekennzeichnet werden. Wichtig ist, dass der Zusatz gemäß der Lesereihenfolge an der richtigen Stelle im Text steht. In solchen Fällen muss die Lesereihenfolge eventuell überprüft und überarbeitet werden.

Die Lesereihenfolge sollte wie folgt sein, entsprechend der natürlichen Lesereihenfolge eines menschlichen Lesers:

  • Seitenzahl
  • Kopfzeile
  • Erster Abschnitt oben links
  • Erster Abschnitt oben rechts
  • Etc.

Um die Optionen für die Lesereihenfolge einzublenden, klicken Sie im Hauptmenü auf die Schaltfläche "Shape Visibility".

Abbildung 2 Prüfen der Lesereihenfolge

Wählen Sie "Show baselines reading order" und die Nummern, die den einzelnen Basislinien entsprechen, werden in Ihrem Dokumentbild angezeigt. Klicken Sie auf die einer Basislinie zugeordnete Nummer, um ihren Platz in der Lesereihenfolge zu aktualisieren.

Wenn interlineare Zusätze erscheinen, ist die richtige Lesereihenfolge: Text - Zusatz - Text.

Abbildung 3 Ändern der Lesereihenfolge

Konventionen für Sonderzeichen

Abkürzungen

In der Regel werden Abkürzungen entsprechend dem Originaltext transkribiert, d.h. nicht erweitert. Dazu gehören historische Abkürzungen und Abkürzungen, die auch heute noch verwendet werden (z. B. zeitgenössische Währungsangaben, Titel und Anreden). Nur wenn die Erweiterung nur ein oder zwei zusätzliche Buchstaben umfasst, sollte sie durchgeführt werden.

Abbildung 4 Beispiel für eine Abkürzung: Wort mit einer nasalen Abkürzung auf dem m oder n: Zim̄ er

Diakritische Zeichen

Einfache Transkriptionen: diakritische Zeichen (z. B. Akzente, Zirkumflexe, Cedillen, Bindestriche, Tilden) können ignoriert werden, mit Ausnahme der modernen deutschen Umlaute.

Ausführlichere Transkriptionen: diakritische Zeichen werden entsprechend den geschriebenen Zeichen auf der Seite transkribiert.

Äquivalent von i/j oder I/J

Die Buchstaben "i" und "j" können austauschbar verwendet werden. Auch hier sollte Ihnen der Originaltext als Entscheidungshilfe dienen. Die beiden Buchstaben werden als solche transkribiert, auch wenn es nicht den Regeln der modernen Rechtschreibung entspricht. Da sie oft schwer voneinander zu unterscheiden sind (vor allem bei Großbuchstaben), ist hier Ihr eigenes Ermessen oder die heute gebräuchliche Schreibweise entscheidend.

Alternative Praxis: Es ist praktikabel, nur "i" zu verwenden, außer bei konsonantischer Verwendung des Buchstabens.

Äquivalent von u/v oder U/V

Die historischen Entsprechungen von "u" und "v" existieren nicht mehr, da die Buchstaben heute getrennt verwendet werden. Bitte passen Sie daher die Transkription entsprechend dem aktuellen Sprachgebrauch an.

Alternative Praxis: Es ist möglich, "u" und "v" so zu verwenden, wie sie gelesen werden würden.

Ligaturen

Ligaturen sind gemeinsame Kombinationen von Buchstaben, um ein neues Zeichen zu bilden.

"St"- und "Sch"-Ligaturen sowie die Ligaturen am Ende von Wörtern oder Abkürzungen sollten vollständig transkribiert werden. Sie brauchen nicht als Abkürzungen gekennzeichnet zu werden.

Zum Beispiel sollte die Ligatur "præs" als "praes" transkribiert werden.

S-Zeichen

Der Buchstabe "s" kann in verschiedenen Formen auftreten. Normales und langes "s" (mit Unterlänge) können beide als normales "s" oder entsprechend ihrer Form als "s" oder "I" transkribiert werden (U-017F). Doppeltes "s" oder "ß" (scharfes "s" oder "Eszett") werden entsprechend dem Originaltext transkribiert.

Strukturelle Tags

In der Registerkarte "Metadata"/"Structural" haben Sie die Möglichkeit, die Struktur Ihrer Dokumente zu kennzeichnen. Die Struktur des Textes wird bei der Segmentierung auf Basislinienebene zugewiesen. Sie können Elemente wie Seitenzahlen, Überschriften und Marginalien auszeichnen und dieses Layout auch mit dem P2PaLA-Tool trainieren.

Weitere Informationen dazu finden Sie in der So verwenden Sie die Funktion "Strukturelle Markierung .

Tagging

Es können Personennamen, Orte oder Plätze, Daten verschiedener Art sowie Organisationen, Institutionen oder abstrakte Identitäten mit den entsprechenden Tags markiert werden.

Alle Tags finden Sie in der Registerkarte "Metadata/Textual".

Hinweis: Wenn es um das HTR-Training geht, sind Tags noch nicht relevant. Entwicklungen in der Named-Entity-Recognition-Technologie sollten in Zukunft die automatische Erkennung von Tags möglich machen.

Weitere Informationen zum Anreichern Ihrer Dokumente mit Tags finden Sie unter: Anreichern von transkribierten Dokumenten mit Markup.

Ein paar Grundsätze

  • Bitte markieren Sie nur das Nötigste; die Zeichen und Wörter, die wirklich zu dem entsprechenden Tag gehören.
  • Z. B. "d. d." für "de dato" gehört nicht zum Datum selbst und sollte daher nicht

als solches gekennzeichnet werden.

  • Jedes Tag sollte separat auf jedes Wort angewendet werden. Wenn mehrere (unterschiedliche) Namen oder Abkürzungen nebeneinander stehen, markieren Sie diese bitte einzeln. Andernfalls funktionieren die Suche und die Normalisierung nicht.
  • Bei Bedarf können demselben Wort mehrere Tags zugewiesen werden, z. B. Abkürzung, Name, Ort usw.

Persönliche Namen

  • Kennzeichnen Sie bei Namen keine Attribute (z. B. Beruf, Herkunft, Familie, Hofnamen, Titel) vor oder nach dem Namen.
  • AUSNAHME: z.B. "Physikus Herr XY". In solchen Fällen kennzeichnen Sie bitte alles als einen Namen, da dieser gemeint ist, auch wenn der "Herr" in der Mitte steht.
  • Auch Wörter, die sich auf eine einzelne Person beziehen, aber keinen Namen enthalten, sollten als Personen gekennzeichnet werden (z. B. der Bürgermeister, der Kaiser usw.).
  • Unbestimmte Begriffe wie "derselbe" werden ignoriert.
  • Wenn zunächst ein Name genannt wird und anschließend auf diese Person mit einer unpersönlichen Bezeichnung (z.B. der Bäcker) verwiesen wird,

dann wird dieser unbestimmte Name nicht markiert.

Kennzeichnung von Abkürzungen

  • Abgekürzte Wörter sollten mit dem Tag "abbreviation" gekennzeichnet werden.
  • Wenn zwei oder mehr Abkürzungen hintereinander erscheinen, kennzeichnen Sie bitte jede Abkürzung mit einem separaten Tag.
    • Z.B.: Joh. Jak.
  • Bei festen Phrasen, in denen zwei Abkürzungen hintereinander vorkommen, können diese jedoch mit einem einzigen Abkürzungs-Tag gekennzeichnet werden.
    • z.B. d. d. für de dato
    • v. M. (ultimo), d. M. (diesen Monat)
    • l. J., k. k., p. C. usw.
  • Wenn ein Wort in irgendeiner Weise abgekürzt ist, können Sie entweder das ganze Wort markieren, auch wenn nur ein Buchstabe am Anfang/Ende/Mitte abgekürzt ist, oder Sie können den abgekürzten Teil markieren. Bitte seien Sie so konsequent wie möglich.

Organisationen

  • Als Organisation oder Institution wird alles gekennzeichnet, was kein Individuum ist, aber dennoch als Subjekt, Agent oder Rechtspersönlichkeit auftritt. Beispiele wären Bruderschaften, Ämter oder Kaufleute.

Daten

  • Nicht-numerische Daten, die auf den ersten Blick nicht vollständig erscheinen, sollten markiert werden, z. B. Mariä Geburt, der Monat September, das erste Quartal 1792 usw.
  • Markieren Sie aber bitte keine Zeiträume als Datum, z.B. drei Monate.

Lücken

  • Wenn das Dokument an irgendeiner Stelle aufgrund von schwieriger Handschrift oder Durchstreichen unlesbar ist, wird dies durch die entsprechende Markierung als Lücke angezeigt.
  • Klicken Sie mit dem Cursor an die Stelle, an der der unleserliche Text erscheint, und fügen Sie das Tag "Lücke" hinzu.
  • Wenn ein oder mehrere unleserliche Zeichen erraten werden können, können die entsprechenden Zeichen einfach transkribiert werden (ohne eckige Klammern). Obwohl es gängige Praxis ist, fehlende Zeichen innerhalb eckiger Klammern hinzuzufügen, ist dies leider kontraproduktiv, wenn es um das Training der HTR-Engine geht.
  • Gelieferter Text, auch einzelne Zeichen, sollte mit dem Tag "supplied" gekennzeichnet werden.

Unwägbarkeiten

  • Eventuelle Unklarheiten können mit dem Tag "unklar" markiert und, wenn möglich, später behoben werden.

Status

Bitte markieren Sie die bearbeiteten oder fertiggestellten Seiten mit dem entsprechenden Attribut in der Statusleiste im Hauptmenü.

Abbildung 5 Festlegen des Status des Dokuments

Die folgenden Zustände können zugewiesen werden:

In Progress: noch zu transkribierende Seiten

Done: Seiten, die bereits transkribiert wurden, aber noch überprüft werden müssen.

Final: transkribierte Seiten, die als "Final" geprüft wurden

Ground Truth: transkribierte Seiten, die vollständig vom Projektadministrator als

"Ground Truth"-Daten gekennzeichnet wurden und die für das HTR-Training geeignet sind. Sobald dieser Status einer Seite zugewiesen wurde, sollte sie

nicht mehr geändert werden.

Danksagung

Wir möchten uns bei den vielen Anwender*innen bedanken, die mit ihrem Feedback zur Verbesserung der Transkribus-Software beigetragen haben.

Transkribus wird der Öffentlichkeit im Rahmen des H2020 e-Infrastruktur-Projekts READ (Recognition and Enrichment of Archival Documents) zur Verfügung gestellt, das von der Europäischen Kommission unter der Fördervereinbarung Nr. 674943 gefördert wurde.