Wie man Dokumente mit Transkribus transkribiert - Einführung

Grundlegende Übersicht
Transkribus Expert Client
Letzte Aktualisierung Vor 4 Tagen
Über Transkribus

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier

Transkribus ist eine umfassende Lösung für die Digitalisierung, KI-gestützte Texterkennung, Transkription und Suche von historischen Dokumenten. Erfahren Sie mehr über Transkribus hier

Inhaltsverzeichnis

Inhaltsverzeichnis

Dieser Leitfaden erklärt, wie Sie Dokumente mit Transkribus transkribieren

  • Zum Trainieren der Technologie zur Erkennung von handgeschriebenem Text
  • für wissenschaftliche Editionen

Transkribus ist eine Plattform für die automatisierte Erkennung, Transkription und Suche von historischen Dokumenten unter Verwendung der Handwritten Text Recognition (HTR+) Technologie.

Mit Transkribus erstellte Transkripte können:

  • verwendet werden, um ein neuronales Netzwerk ("Modell") zu trainieren, das in der Lage ist, gedruckte oder handschriftliche Dokumente automatisch zu erkennen
  • angereichert und markiert werden, um als Grundlage für digitale Ausgaben von Dokumenten zu dienen.

Diese Einführung ermöglicht es Ihnen, entweder schnell Trainingsdaten für die automatische Erkennung Ihrer spezifischen Dokumente zu erstellen oder eine Transkription für eine wissenschaftliche Ausgabe zu erstellen.

Wenn Sie bereits über transkribierte Dokumente verfügen und diese als Trainingsdaten für HTR verwenden möchten, konsultieren Sie bitte unsere So verwenden Sie vorhandene Transkriptionen Anleitung.

Einführung

Diese Anleitung erklärt den Prozess der Transkription von Dokumenten in Transkribus.

Diese Transkriptionen können verwendet werden:

  • Als Trainingsdaten für ein Handwritten Text Recognition (HTR+) Modell, das in der Lage ist, Ihre Dokumente automatisch zu transkribieren.
  • Als Basis für eine digitale wissenschaftliche Ausgabe.

Es gibt einen einfachen dreistufigen Prozess, um ein Dokument in Transkribus zu transkribieren:

Schritt 1: Hochladen

  • Laden Sie Ihre Dokumente auf die Transkribus-Plattform hoch

Schritt 2: Segmentierung

  • Führen Sie das automatische Segmentierungswerkzeug aus, um Basiszeilen für Ihr Dokument zu erstellen.

Schritt 3: Transkription

  • Transkribieren Sie den Text in den segmentierten Zeilen.

Diese Form der einfachen Transkription ist für das Training der HTR-Technologie ausreichend. Hinweis: HTR kann sowohl mit handschriftlichen als auch mit gedruckten Dokumenten arbeiten. Die Effizienz eines Modells hängt von der Qualität des Trainingsmaterials (Ihrer manuellen Transkription), der Qualität der Bilder und davon ab, wie ordentlich oder unordentlich die Schrift ist.

Es gibt auch erweiterte Transkriptionsoptionen für diejenigen, die an wissenschaftlichen Ausgaben arbeiten. Sie können die Lesereihenfolge des Textes anpassen, historische Zeichen verwenden, Tags und Metadaten hinzufügen, Abkürzungen erweitern und mehr.

Dokumente auf Transkribus hochladen

  • Um die notwendigen Tools auf Ihren Dokumenten ausführen zu können, müssen diese auf dem Transkribus-Server liegen. Das bedeutet, dass Sie sie hochladen müssen auf Transkribus.
    • Hinweis: Alle Sammlungen und Dokumente in Transkribus sind privat. Nur von Ihnen autorisierte Benutzer können Ihre Dokumente sehen. Sie werden nicht der Öffentlichkeit zugänglich gemacht.
  • Zum Hochladen klicken Sie im Hauptmenü auf die Schaltfläche "Import Documents".

Abbildung 1 Dateien in Ihre persönliche Sammlung laden

Abbildung 2 Wählen Sie "Upload single document" für Dokumente bis zu 500 MB

  • Sie haben vier Möglichkeiten, Dokumente hochzuladen:
    • Einzeldokument hochladen aus einem lokalen Ordner:
      • Mit dieser Option können Sie Dokumente bis zu 500 MB hochladen
      • Um diese Option zu wählen, wählen Sie "Upload Single Document"
      • Bitte stellen Sie sicher, dass sich die hochzuladenden Dateien in einem extra Ordner befinden. Bei der Auswahl der Dateien für den Upload werden Sie die Dateien im Ordner nicht sehen können. Das ist in diesem Fall normal. Markieren Sie einfach den Ordner und bestätigen Sie mit "OK".
    • Hochladen über FTP
      • Dies ist geeignet, wenn Sie mehrere große Dokumente hochladen möchten
      • Sie können sowohl Bilddateien als auch PDF-Dokumente mit dieser Option hochladen
      • Bitte stellen Sie sicher, dass sich die PDF-Dateien beim FTP-Upload nicht in einem Ordner befinden
    • Hochladen über URL von DFG-Viewer METS
      • Damit können Sie Dokumente direkt aus Repositorien hochladen, die den DFG (Deutsche Forschungsgemeinschaft) Viewer unterstützen
    • Bilder aus PDF extrahieren und hochladen
      • Diese Option ist für Bilder geeignet, die Sie hochladen möchten und die sich in einem PDF-Dokument befinden.
      • Wenn die PDF-Dokumente sehr groß sind, verwenden Sie bitte den FTP-Upload.
      • Auch wenn Sie JP2000-Bilder in Ihren PDFs haben, ist es sinnvoll, die FTP-Option zu wählen.

 

  • Hinzufügen von Seiten zu einem bereits bestehenden Dokument in Transkribus:
    • Laden Sie das Dokument, dem Sie Seiten hinzufügen möchten, in Transkribus
    • Öffnen Sie den Dokumentenmanager
    • Wählen Sie das Dokument erneut aus, indem Sie im "Document Manager"-Fenster auf seinen Namen klicken
    • Klicken Sie auf das grüne Kreissymbol neben "Add new page(s)"
    • Suchen und Hinzufügen der neuen Seiten über das Verzeichnis
  • Löschen Sie Dokumente aus Ihrer Sammlung:
    • Wählen Sie das Dokument in der Collection Übersicht im "Server"-Register aus
    • Klicken Sie auf das Ordnersymbol mit dem kleinen roten Kreis "Delete the selected documents from Transkribus".
    • Das/die gelöschte(n) Dokument(e) verbleiben für zwei Wochen im Papierkorb (Symbol "contains deleted documents"). Wenn Sie ein Dokument versehentlich gelöscht haben, können Sie sich mit uns in Verbindung setzen (info@readcoop.eu) und wir können das Dokument innerhalb dieser zwei Wochen reaktivieren. Danach wird das Dokument unwiderruflich gelöscht.

Segmentierung - Layout-Analyse

  • Sobald Sie Ihre Dokumente in Transkribus hochgeladen haben, können Sie mit der Segmentierung beginnen.
  • Um Ihre Dokumente in Transkribus transkribieren zu können, müssen diese in Textbereiche, Zeilen und Basislinien segmentiert werden.
  • Damit die HTR funktionieren kann, müssen Text und Bild verbunden werden.
  • Alle segmentierten Elemente, wie z. B. Druckbereich, Textbereich, Zeilenbereich oder Grundlinie, werden mit ihren Koordinaten in der PAGE-Datei gespeichert.

Anzeigen von Profilen

  • Zur Unterstützung bei den Aufgaben der Segmentierung und Transkription stehen Ansichtsprofile zur Verfügung.
  • Sie können wählen zwischen der Anzeige von Profilen für "Segmentierung" und "Transkription", indem Sie im Hauptmenü auf die Schaltfläche "Profiles" klicken.
  • Das Profil "Segmentierung" bedeutet, dass die Basislinien rot dargestellt werden, so dass Fehler, die durch die automatische Segmentierung entstehen, leichter zu erkennen sind.
  • Das Profil "Transkription" bedeutet, dass das Texteditor-Feld angezeigt wird, mit dem Sie Ihr Dokument transkribieren können.
  • Natürlich können Sie einfach das "Standard"-Profil verwenden, um beide Aufgaben zu erfüllen.

Abbildung 3 Ansichtsprofile für Segmentierungs- und Transkriptionsaufgaben

Automatisches Erkennen von Textbereichen, Linien und Grundlinien

  • Wählen Sie im Hauptmenü das Ansichtsprofil "Segmentierung".
  • Wählen Sie auf der linken Seite des Bildschirms die Registerkarte "Tools" und gehen Sie zum Abschnitt "Layout Analysis".
  • Wählen Sie unter "Method:" "CITlab Advanced" (bereits vorgewählt).
  • Wählen Sie aus, ob Sie die Layout-Analyse nur für die aktuelle Seite, für einzelne Seiten oder für das gesamte Dokument durchführen möchten.
  • Stellen Sie sicher, dass "Find Text Regions" ausgewählt ist.
  • Klicken Sie auf die Schaltfläche "Run".

Abbildung 4 Automatische Segmentierung im Register "Tools" durchführen

  • Wenn Sie die Textregionen von Hand einzeichnen und dann in diesen Regionen nach den Grundlinien suchen möchten, deaktivieren Sie die Option "Find Text Regions", bevor Sie die Layoutanalyse starten. Wie Sie Textregionen einzeichnen, wird weiter unten im Text erklärt.

Korrigieren der Ergebnisse der automatischen Segmentierung

  • Hinweis: Wenn Sie ein HTR-Modell trainieren, muss die Position der Textregionen nicht ganz exakt sein und die Lesereihenfolge des Textes ist nicht relevant.
  • Wenn Sie an einer wissenschaftlichen Ausgabe arbeiten, bei der ein höherer Grad an Genauigkeit erforderlich ist, ist es möglich, den Text manuell zu korrigieren, wie in den unten stehenden Beispielen.
  • Alle Werkzeuge für Korrekturen an der Layout-Analyse finden Sie im "Canvas"-Menü links neben dem Bild. Sie können ihre Funktionalität überprüfen, indem Sie mit dem Mauszeiger über das Symbol fahren.

Eine Zeile wurde vergessen oder versehentlich hinzugefügt

Abbildung 5 Hinzufügen einer Linie zu einem bestehenden Textbereich

  • Im obigen Beispiel wurde die erste Zeile vom Programm übersehen. Wenn Sie sie in den vorhandenen Textbereich einfügen möchten:
    • Klicken Sie in den Bereich, so dass er hervorgehoben wird.
    • Ziehen Sie den Rand des Textbereichs nach Bedarf.

Eine Randnotiz muss in einen separaten Textbereich aufgeteilt werden

Abbildung 6 Aufteilen eines Textbereichs

  • Wenn Sie einen Bereich in zwei Bereiche aufteilen müssen, können Sie dies mit den Schaltflächen im Menü "Canvas" tun.
  • Wie in Abbildung 6 gezeigt, teilt die "H-Taste" einen Textbereich horizontal auf.
  • Mit der Schaltfläche "V" wird ein Textbereich vertikal geteilt.
  • Mit der "L-Taste" können Sie einen Textbereich mit einer einstellbaren Linie aufteilen.

Entfernen eines nicht benötigten Bereichs

Abbildung 7 Bereich entfernen

    • Im obigen Beispiel überschneiden sich zwei Bereiche, so dass eine davon gelöscht werden kann.
    • Klicken Sie auf den Textbereich, den Sie löschen möchten, und klicken Sie auf die rote Schaltfläche "Remove a shape".

Zwei Regionen zusammenführen

  • Manchmal erzeugt das Programm zwei Textbereiche, wo nur einer benötigt wird. In diesem Fall können Sie die beiden einfach zusammenführen.
    • Halten Sie die Taste "STRG" auf Ihrer Tastatur gedrückt und klicken Sie auf beide Textbereiche.
    • Klicken Sie im Canvas-Menü auf die Schaltfläche "MErge the selected shapes".

Abbildung 8 Zwei Textbereiche zusammenführen

Basislinien korrigieren

  • Natürlich ist es auch möglich, die Grundlinien in Ihrem Dokument zu korrigieren.
  • Wie bei den Textbereichen klicken Sie auf eine Grundlinie und können die Teile der Linie ziehen, eine Linie in zwei teilen oder zwei Linien zusammenführen.
  • Sie können auch eine Grundlinie löschen und eine neue Grundlinie von Grund auf zeichnen. Klicken Sie im Menü "Canvas" auf die Schaltfläche "+BL". Klicken Sie einmal, um mit dem Zeichnen Ihrer Grundlinie zu beginnen, und doppelklicken Sie, um die Linie zu beenden.
  • Hinweis: Grundlinien sind für die HTR am wichtigsten; Linienbereiche müssen nicht korrigiert werden.

Einfache Transkription - für HTR+ Training

  • Wählen Sie im Hauptmenü das Ansichtsprofil "Transkription".
  • Unter dem Bild sehen Sie das Feld Texteditor: Für jede Zeile/Basislinie im Bild finden Sie eine entsprechende Zeile im Texteditor. Das Bild und der Text sind auf diese Weise verbunden.

Abbildung 9 Transkribieren Sie Ihr Dokument

  • Transkribieren Sie den Text entsprechend der Sprache Ihres Quelldokuments. Verwenden Sie die Zeichen Ihrer Tastatur.
  • Sie können mehr als eine Person an einem Dokument arbeiten lassen, aber sie sollten nicht gleichzeitig an derselben Seite arbeiten. Sie können anderen Transkribus-Benutzern Ihre Dokumente zugänglich machen, indem Sie im Reiter "Server" auf die Schaltfläche "User Manager" klicken.

Trainieren eines HTR-Modells

  • Wenn Sie ein HTR-Modell zur Erkennung Ihrer Dokumente trainieren wollen, reicht diese einfache Transkription aus.
  • Wir empfehlen Ihnen, den Trainingsprozess mit 5.000 bis 15.000 Wörtern (ca. 25-75 Seiten) transkribiertem Material zu beginnen. Wenn Sie mit gedrucktem und nicht mit handschriftlichem Text arbeiten, ist in der Regel eine geringere Menge an Trainingsdaten erforderlich.
  • Auch die Verwendung eines Basismodells kann das benötigte Trainingsmaterial reduzieren. Als Basismodell können Sie eines der öffentlich verfügbaren Modelle in Transkribus verwenden (bitte achten Sie darauf, dass der Schriftzug dem in Ihren Dokumenten mindestens ähnlich ist) oder eines Ihrer zuvor trainierten Modelle - sofern es gut genug ist, um als Basismodell zu dienen.

Erweiterte Transkription - für eine wissenschaftliche Ausgabe

Lesereihenfolge

  • Nachdem ein Dokument in Textregionen, Zeilen und Grundlinien segmentiert wurde, müssen Sie sich eventuell Gedanken über die Lesereihenfolge des Textes machen (dies ist nicht relevant, wenn die Transkription nur als Trainingsmaterial dienen soll).
  • Viele handschriftliche Dokumente enthalten Korrekturen und Ergänzungen vom Autor oder einer anderen Person hinzugefügt.
  • In einer wissenschaftlichen Ausgabe wollen Sie die Lesereihenfolge beibehalten und vielleicht auch zum Ausdruck bringen, dass dieser Text eine Ergänzung war.
  • Zu diesem Zweck können alle Segmentierungselemente nach einem benutzerdefinierte Reihenfolge.
  • Die Standard-Lesereihenfolge folgt der Topologie der Text- oder Linienbereiche. Alle Formen sind nach den Koordinaten der linken oberen Ecke einer Text- oder Linienregion geordnet.

Abbildung 10 Lesereihenfolge der Textbereiche - Zahlen können neu sortiert werden

  • Diese mechanische Lesereihenfolge kann geändert werden:
    • Klicken Sie im Hauptmenü auf die Schaltfläche "Elementsichtbarkeit", und Sie können dann wählen, ob Sie die Lesereihenfolge von Textbereichen, Zeilen, Grundlinien (oder Wörtern) anzeigen möchten.

Abbildung 11 Schaltfläche "Elementsichtbarkeit" zeigt die logische Reihenfolge der Segmentierungselemente an

    • Wenn Sie sich dafür entscheiden, die Lesereihenfolge von Textbereichen oder Zeilen anzuzeigen, werden die Zahlen im Bild Ihres Dokuments angezeigt.
    • Durch Klicken auf eine der Zahlen, die die Lesereihenfolge markieren, ist es möglich, eine neue Zahl einzugeben und die Lesereihenfolge entsprechend zu ändern. Das Gleiche kann durch Verschieben der Segmentierungselemente im Register "Layout" erfolgen.

Abbildung 12 Bearbeiten der Lesereihenfolge durch Anklicken der Ziffer und Eingabe einer neuen Zahl

  • In Fällen, in denen die Lesereihenfolge einer Seite völlig falsch ist, ist es möglich, den Text neu anzuordnen
    • Machen Sie die Zeilenlesereihenfolge wie oben beschrieben sichtbar
    • Klicken Sie auf die Registerkarte "Layout" auf der linken Seite des Bildschirms
    • Wählen Sie die Seite oder den Textbereich, den Sie neu anordnen möchten
    • Klicken Sie auf die "R"-Taste
    • Die Lesereihenfolge wird entsprechend den Koordinaten der linken oberen Ecke eines Text- oder Zeilenbereichs neu geordnet. Danach sollten die Zeilen in der richtigen Reihenfolge sein.
    • Es kann zu Problemen mit der Lesereihenfolge von Zeitungsspalten und ähnlichen Dokumenten kommen. Das Programm weist z. B. eine Lesereihenfolge zu, die auf dem horizontalen Layout der Zeilen auf einer Seite basiert, anstatt die Zeilen nach Spalten zu ordnen. Um dieses Problem zu beheben, verwenden Sie die Schaltfläche "V" im Canvas-Menü, um den Textbereich auf der Seite in separate Bereiche für jede Spalte aufzuteilen. Sobald es für jede Spalte einen separaten Textbereich gibt, sollte die Lesereihenfolge automatisch aktualisiert werden und korrekt sein.

Abbildung 13 Lesereihenfolge nach Koordinaten einstellen

Lesereihenfolge: Zwischenzeilenergänzungen

  • Zwischenzeilenzusätze sind eine häufige Art und Weise, wie Text zu einem Dokument hinzugefügt wird.
  • Um die korrekte Lesereihenfolge zu erzeugen, müssen die folgenden Schritte manuell durchgeführt werden:
    • Klicken Sie im Hauptmenü auf die Schaltfläche "Artikelsichtbarkeit".
    • Wählen Sie "Zeilen-Lesereihenfolge anzeigen"

Abbildung 14 Klicken Sie auf die Schaltfläche "Shape Visibility" (Sichtbarkeit der Form) und wählen Sie dann, ob Grundlinien und die Lesereihenfolge der Linien angezeigt werden sollen.

    • Wählen Sie die Basislinie unterhalb des Zusatzes (wenn die Addition oberhalb der Linie liegt).
    • Teilen Sie den Linienbereich mit der Schaltfläche "V" im Canvas-Menü genau dort, wo die Addition logisch platziert werden soll

Abbildung 15 Schaltfläche "V" anwenden, um den Linienbereich zu teilen

  • Bearbeiten Sie die Lesereihenfolge so, dass sie korrekt ist. Klicken Sie auf die Nummer, die mit jedem Zeilenbereich verbunden ist, und geben Sie dann die richtige Nummer ein.

Abbildung 16 Richtige Lesereihenfolge hinzufügen: 4 (=erster Teil der Zeile)
wird 3,3 (=Zeilenaddition) wird 4 und 5 (zweiter Teil der Zeile) bleibt als 5.

Abbildung 17 Korrekte Lesereihenfolge nach manueller Bearbeitung

Lesereihenfolge: Ergänzungen als zusätzliche Hinweise

  • Ergänzungen, die erscheinen als zusätzliche Hinweise (z. B. an den Rändern einer Seite) sollten ähnlich wie Zwischenzeilen-Zusätze behandelt werden.
    • Hinweis: Oft sind solche zusätzlichen Notizen (oder Marginalien) nicht Teil der Leseordnung, sondern sind "Kommentare" und befinden sich als solche auf einer anderen Ebene als die primäre Leseordnung.
    • Es reicht daher aus, sie im Register "Metadaten" als "Marginalien" zu markieren. Eine Anleitung zum Markieren von Text finden Sie im Kapitel Anreicherung transkribierter Dokumente mit Markup Anleitung.
  • Wenn die zusätzliche Notiz jedoch wirklich eine Ergänzung zum laufenden Text ist und in der Lesereihenfolge hinzugefügt werden muss, kann dies auf folgende Weise geschehen:
    • Option 1: Der Textbereich kann so erweitert werden, dass alle Grundlinien der Addition auch Teil des jeweiligen Textbereichs sind.
      • Hinweis: Sie können entweder relativ große Textbereiche oder polygonale Textbereiche verwenden. Wählen Sie dazu die Schaltfläche "Punkt zu ausgewählter Form hinzufügen" aus dem Menü "Canvas".

Abbildung 18 Punkt zur ausgewählten Form hinzufügen

      • Der Bewegung des Mauszeigers folgend, können Sie dem ursprünglichen Textbereich Punkte hinzufügen und die Form so erweitern, dass sie auch die Hinzufügung umfasst.
      • Anschließend können die zusätzlichen Zeilen/Grundlinien entsprechend ihrer korrekten Lesereihenfolge neu nummeriert werden.
    • Option 2: Sie können nur einen großen Textbereich für die gesamte Seite erzeugen und die Zeilen-/Basisliniensegmentierung manuell in der richtigen Reihenfolge vornehmen. Auf diese Weise erhalten Sie von Anfang an die richtige Lesereihenfolge.
      • Hinweis: Dies kann die beste Option sein, wenn Sie es mit einem Dokument zu tun haben, das ein komplexes Layout mit vielen Ergänzungen, Notizen und Löschungen aufweist.
    • Option 3: Sie können den zusätzlichen Textbereich, der den Zusatz enthält, mit der Zeile verbinden, zu der der Zusatz gehört. Markieren Sie dazu beide Textbereiche und klicken Sie dann auf die Schaltfläche "Zwei Formen verbinden" in der Registerkarte "Struktur", innerhalb der Registerkarte "Metadaten".
      • Hinweis: Die Verlinkung wird Teil der XML-Datei sein, wird aber derzeit in den Exportformaten nicht unterstützt.

Abbildung 19 Zwei Formen verbinden

Transkription und virtuelle Tastaturen

  • Eine Transkription, die als Grundlage für eine wissenschaftliche Edition sollte dem Benutzer mehr Daten explizit machen und mehr Kontextdaten anbieten als eine einfache Transkription. In diesem Fall nicht nur Maschinenlesbarkeit (d. h. Trainingsdaten für den HTR-Motor), sondern auch menschliche Lesbarkeit des Textes wird eine wichtige Rolle spielen.
  • Sie können Sonderzeichen und Unicode-Symbole mit dem Befehl "Virtuelle Tastaturen" im Feld Texteditor hinzufügen.
  • Mit der Schaltfläche "Bearbeiten..." ist es möglich, Abkürzungen für häufig verwendete Zeichen hinzuzufügen und neue Unicode-Zeichen hinzuzufügen.
  • Um einen Tastaturbefehl zu erstellen, müssen Sie ihn nur in die Spalte "Tastaturbefehl" eingeben.
  • Um neue Unicode-Zeichen hinzuzufügen, verwenden Sie die grüne Plustaste.
  • Im Texteditor können Sie mit "Backspace" den Text eine Zeile nach oben und mit "Strg" + "Return" eine Zeile nach unten verschieben.

Abbildung 20 Virtuelle Tastatur

Abbildung 21 Hinzufügen von Unicode-Zeichen und Tastenkombinationen

Diakritische Zeichen und Ligaturen

  • Die korrekte Transkription von Diakritika und Ligaturen erfordert einiges an Fachwissen. Es gibt zwei Hauptoptionen für die Handhabung der korrekten Transkription dieser Zeichen:
  • Option 1: Leichte Normalisierung laut Wörterbuch
    • Die Hauptregel, die hier anzuwenden ist, ist die folgende: Solange Sie das Basiszeichen einer Glyphe deutlich sehen können und solange das Basiszeichen auch dasjenige ist, das im Wörterbuch verwendet wird, um diese Glyphe auszudrücken, halten Sie sich an das Basiszeichen.
    • Beispiel 1: Der lateinische KLEINBUCHSTABEN Y erscheint in vielen Dokumenten mit einem zusätzlichen diakritischen Zeichen, das auf die Herkunft dieses Zeichens von ii oder ij hinweist. Daher finden Sie zwei Punkte oder etwas ähnlich aussehendes über dem "y".

Abbildung 22 Deutsche Kurrentschrift: "bey". Hinweis: y wird als LATIN SMALL LETTER Y geschrieben, da das Grundzeichen noch deutlich sichtbar ist

    • In einfachen Abschriften werden Sie dies als LATIN SMALL LETTER Y transkribieren, da das Grundzeichen deutlich sichtbar ist.
    • Beispiel 2: LATIN SMALL LETTER S wird in den meisten europäischen historischen Schriften mit zwei Graphemen ausgedrückt. Wir finden daher eine klare Unterscheidung zwischen LATIN SMALL LETTER S und LATIN SMALL LONG S.

Abbildung 23 "Thatbestand." vs. "Kammergerichts": LATIN SMALL LETTER LONG S vs. LATIN SMALL LETTER S

    • Aber obwohl es eine klare Unterscheidung gibt, würde eine einfache Transkription in beiden Fällen LATIN SMALL LETTER S verwenden.
  • Option 2: Paläographisch Transkription
    • Philologen oder Paläographen sind nicht nur an der korrekten Transkription interessiert, sondern auch an der historischen Erscheinung und Entwicklung der Grapheme. Daher könnte es auch interessant sein, die obigen Beispiele mit voller Unterstützung des Unicode-Zeichensatzes oder sogar unter Ausnutzung des privaten Bereichs von Unicode zu transkribieren.

Abbildung 24 Paläographische Transkription: Thatbeſtand vs. Kammergerichts

    • Hinweis: Bitte beachten Sie, dass dies eine wichtige Entscheidung und wird die Verwendbarkeit des Textes in vielerlei Hinsicht beeinträchtigen. Wenn Sie sich für eine paläografische Transkription entscheiden, verursacht dies viel mehr Arbeit als bei einer leicht normalisierten Transkription.
  • Hinweis: In gedruckten Texten (die auch in Transkribus transkribiert werden können) kann die Transkription von Ligaturen eine Rolle spielen. Auch hier kann die gleiche Regel angewendet werden: Obwohl bestimmte Buchstabenkombinationen, wie z. B. "ft", mit einem bestimmten Graphem ausgedrückt werden, bei dem zwei Grapheme zusammenpassen, und obwohl solche Ligaturen auch mit bestimmten Unicode-Buchstaben ausgedrückt werden können, empfehlen wir, sie gemäß dem Wörterbuch zu transkribieren.

Interpunktionszeichen

  • Satzzeichen werden auf die gleiche Weise transkribiert wie Zeichen. Verwenden Sie das entsprechende Zeichen auf Ihrer Tastatur und normalisieren Sie nicht und fügen Sie keine Satzzeichen hinzu. Typische Interpunktionszeichen sind:
    • moderne Zeichen wie Punkt, Komma, Semikolon, Doppelpunkt: “.”, “,”, “;”:”
    • historische Zeichen wie Virgule (Schrägstrich) oder Zeilenfüller usw.
    • Hinweis: Doppelpunkte werden in historischen Texten oft verwendet, um abgekürzte Wörter zu markieren. Diese sollten mit einem Doppelpunkt transkribiert werden.
  • Im Gegensatz zu vielen Transkriptionsregeln, bei denen Satzzeichen nach modernem Verständnis hinzugefügt und weggelassen werden, empfehlen wir, sich an die Original-Satzzeichen zu halten.
  • Wenn Sie Satzzeichen hinzufügen möchten, die im Originaldokument nicht vorkommen, können Sie im Register "Metadaten" auf der Registerkarte "Markierung" das Tag "mitgeliefert" verwenden, um anzugeben, dass das Satzzeichen von Ihnen selbst hinzugefügt wurde.

Referenzen

Um einen Überblick über die Skripte von Unicode zu erhalten: http://www.unicode.org/charts/

Für historische Transkriptionen sind die folgenden Erweiterungen von Interesse:

Lateinisch Extended-B: http://www.unicode.org/charts/PDF/U0180.pdf

  • Enthält z. B.:
    • Außereuropäisches und historisches Latein
    • Phonetische und historische Buchstaben
    • Zusätze für Slowenisch und Kroatisch
    • usw.

Lateinisch Extended-C: http://www.unicode.org/charts/PDF/U2C60.pdf

  • Enthält z. B.:
    • Orthographische lateinische Ergänzungen
    • usw.

Lateinisch Extended-D: http://www.unicode.org/charts/PDF/UA720.pdf

  • Enthält z. B.:
    • Mediävistische Ergänzungen
    • Insulare und keltische Buchstaben
    • Antike römische epigraphische Briefe
    • usw.

MUFI (Medieval Unicode Font Initiative)

Credits

Wir möchten uns bei den vielen Anwendern bedanken, die mit ihrem Feedback zur Verbesserung der Transkribus-Software beigetragen haben.