Dieser Leitfaden erklärt, wie man mit Transkribus Dokumente transkribiert, um Trainingsdaten für die automatische Erkennung Ihrer spezifischen Dokumente oder zur Erstellung einer Transkription für eine wissenschaftliche Ausgabe.
Wenn Sie sich einen allgemeinen Überblick verschaffen wollen, gehen Sie zu unserer 10-Schritte-Anleitung.
Transkribus ist eine Plattform für die automatisierte Erkennung, Transkription und Suche von historischen Dokumenten mit Hilfe der Handwritten Text Recognition (HTR) Technologie.
Mit Transkribus erstellte Transkripte können verwendet werden:
- Für die Ausbildung eines Handwritten Text Recognition (HTR) Modell, das in der Lage ist, gedruckte oder handschriftliche Dokumente automatisch zu erkennen;
- Als Grundlage für digitale wissenschaftliche Editionen.
Wenn Sie bereits über transkribierte Dokumente verfügen und diese als Trainingsdaten für HTR verwenden möchten, konsultieren Sie bitte unsere Anleitung zur Verwendung vorhandener Transkriptionen .
Einführung
Es gibt einen einfachen dreistufigen Prozess, um ein Dokument in Transkribus zu transkribieren:
- Hochladen: Laden Sie Ihre Dokumente auf die Transkribus-Plattform hoch;
- Segmentierung: Führen Sie das automatische Segmentierungstool aus, um Grundlinien für Ihr Dokument zu erstellen;
- Transkription: Transkribieren Sie den Text in den segmentierten Zeilen.
Diese Form der einfachen Transkription ist ausreichend für das Training der Handwritten Text Recognition (HTR) Technologie. Beachten Sie, dass HTR sowohl mit handschriftlichen als auch mit gedruckten Dokumenten arbeiten kann. Die Effizienz eines Modells hängt von der Qualität des Trainingsmaterials (Ihrer manuellen Transkription), der Qualität der Bilder und davon ab, wie ordentlich oder unordentlich die Schrift ist.
Es gibt auch erweiterte Transkriptionsoptionen für diejenigen, die an wissenschaftlichen Editionen arbeiten. Sie können die Lesereihenfolge des Textes anpassen, historische Zeichen verwenden, Tags und Metadaten hinzufügen, Abkürzungen erweitern und mehr.
1. Hochladen von Dokumenten in Transkribus
Um die notwendigen Tools auf Ihren Dokumenten ausführen zu können, müssen diese auf dem Transkribus-Server liegen. Das bedeutet, dass Sie auf Transkribus hochladen müssen.
Alle Sammlungen und Dokumente in Transkribus sind privat. Nur von Ihnen autorisierte Benutzer*innen können Ihre Dokumente sehen. Sie werden nicht der Öffentlichkeit zugänglich gemacht.
Zum Hochladen klicken Sie im Hauptmenü auf die Schaltfläche "Import Documents".
Sie haben fünf Möglichkeiten, Dokumente hochzuladen:
- Einzeldokument hochladen aus einem lokalen Ordner:
Mit dieser Option können Sie Dokumente bis zu 500 MB hochladen. Um diese Option zu wählen, wählen Sie "Einzelnes Dokument hochladen". Bitte achten Sie darauf, dass sich die hochzuladenden Dateien in einem extra Ordner befinden. Wenn Sie die Dateien für den Upload auswählen, werden Sie die Dateien im Ordner nicht sehen können. Das ist in diesem Fall normal. Markieren Sie einfach den Ordner und bestätigen Sie mit "OK". - Hochladen über FTP:
Dies eignet sich, wenn Sie mehrere große Dokumente hochladen möchten. Sie können mit dieser Option sowohl Bilddateien als auch PDF-Dokumente hochladen. Bitte stellen Sie sicher, dass sich die PDF-Dateien nicht innerhalb eines Ordners befinden, wenn Sie den FTP-Upload verwenden. - Upload über URL des DFG-Viewers METS:
Damit können Sie Dokumente direkt aus Repositorien hochladen, die den DFG-Viewer unterstützen. - Hochladen über die URL des IIIF-Manifests:
Geben Sie die URL des IIIF-Manifests in das vorgesehene Feld ein und klicken Sie auf "Hochladen". - Extrahieren und Hochladen von Bildern aus PDF-Dateien:
Diese Option eignet sich für Bilder, die Sie hochladen möchten und die sich in einem PDF-Dokument befinden. Wenn diese PDF-Dokumente sehr groß sind, verwenden Sie bitte den FTP-Upload. Auch wenn Sie JP2000-Bilder in Ihren PDFs haben, ist es sinnvoll, die FTP-Option zu wählen.
So fügen Sie Seiten zu einem bereits bestehenden Dokument in Transribus hinzu: Laden Sie das Dokument, dem Sie Seiten hinzufügen möchten, in Transkribus. Öffnen Sie den Dokumenten-Manager und wählen Sie das Dokument erneut aus, indem Sie auf das Dokument Name im Fenster "Dokumentenmanager". Klicken Sie auf das grüne Kreissymbol neben "Neue Seite(n) hinzufügen" und suchen und fügen Sie die neuen Seiten über das Verzeichnis hinzu.
So löschen Sie Dokumente aus Ihrer Sammlung: sWählen Sie das Dokument in der Sammlungsübersicht unter dem Reiter "Server" aus. Klicken Sie auf das Ordnersymbol mit dem kleinen roten Kreis "Die ausgewählten Dokumente aus Transkribus löschen". Das gelöschte Dokument bzw. die gelöschten Dokumente befinden sich zwei Wochen lang im Papierkorb (Symbol "enthält gelöschte Dokumente"). Wenn Sie ein Dokument versehentlich gelöscht haben, können Sie sich an uns wenden (info@readcoop.eu), und wir können das Dokument innerhalb dieser zwei Wochen reaktivieren. Danach wird das Dokument endgültig gelöscht.
2. Segmentierung - Layout-Analyse
Sobald Sie Ihre Dokumente in Transkribus hochgeladen haben, können Sie mit der Segmentierung beginnen. Um Ihre Dokumente in Transkribus transkribieren zu können, müssen sie in Textregionen und Grundlinien segmentiert werden und foder des HTR zu arbeiten, muss der Text und Bild verbunden werden..
Alle segmentierten Elemente, wie z. B. der Druckraum, Textbereich, Zeilenbereich oder Grundlinie, werden in der PAGE-Datei mit ihren Koordinaten gespeichert.
Ansichtsprofile
Zur Unterstützung bei der Segmentierung und Transkription stehen Ansichtsprofile zur Verfügung. Sie können wählen zwischen der Anzeige von Profilen für "Segmentierung" und "Transkription", indem Sie im Hauptmenü auf die Schaltfläche "Profiles" klicken.
Im Profil "Segmentation" werden die Baselines rot dargestellt, sodass Fehler, die durch die automatische Segmentierung entstehen, leichter zu erkennen sind.
Im Profil "Transcription" wird das Texteditor-Feld angezeigt, mit dem Sie Ihr Dokument transkribieren können. Natürlich können Sie einfach das "default"-Profil verwenden, um beide Aufgaben zu erfüllen.
Automatisches Erkennen von Textregionen, Zeilen und Baselines
Um die Layoutanalyse automatisch auszuführen, gehen Sie auf die Seite "Werkzeuge" in der Verwaltungs- und Werkzeugleiste (auf der linken Seite des Bildschirms). Der Abschnitt, an dem wir interessiert sind, heißt "Layoutanalyse".
Unter "Methode" können Sie die Methode zur Erkennung der Grundlinie auswählen. Standardmäßig ist "Transkribus LA" ausgewählt und funktioniert mit den meisten Layouts gut. Sie können es mit der Standardeinstellung anwenden oder auf "Konfigurieren" klicken und die Konfigurationseinstellungen ändern.
Im Fenster Konfiguration der Layoutanalyse können Sie folgende Einstellungen vornehmen:
- Modell: Belassen Sie das Modell "Voreinstellung", wenn Sie kein spezifisches Grundlinienmodell auf das Layout Ihrer Dokumente trainiert haben.
Das voreingestellte Transkribus-LA-Modell eignet sich für die meisten Dokumenttypen. Nur wenn Ihre Dokumente ein komplexes Layout haben und das voreingestellte Modell nicht zufriedenstellend ist, können Sie ein Baselines-Modell trainieren, das speziell auf Ihre Dokumententypologie zugeschnitten ist, wie erläutert hier erläutert.
- Minimale Länge der Grundlinie: Sie gibt die Mindestlänge der Grundlinien in Pixeln an. Baselines, die kürzer als diese Länge sind, werden nicht erkannt.
- Baseline GenauigkeitsschwelleIn der ersten Stufe der Layout-Analyse wird jedes Pixel als Grundlinie, Trennlinie oder Sonstiges gekennzeichnet. Der Schwellenwert für die Grundliniengenauigkeit gilt für die Kennzeichnung der Grundlinien in dieser Phase. Er liegt zwischen 0 und 255, wobei höhere Werte eine höhere Genauigkeit bei den erkannten Grundlinien erzwingen.
Wenn Sie Bilder mit niedriger Auflösung haben und keine oder nur wenige Grundlinien erkannt werden, versuchen Sie, den Wert zu verringern. Beachten Sie jedoch, dass die Ergebnisse bei niedrigeren Schwellenwerten verrauscht werden können.
- Schwellenwert für TrennzeichenTrennlinien sind kleine vertikale Linien, die neben jeder Grundlinie gezeichnet werden; sie markieren den Anfang und das Ende jeder Grundlinie (nicht zu verwechseln mit den tatsächlichen Trennlinien in gedruckten Dokumentenbildern). Wie der Schwellenwert für die Grundliniengenauigkeit bezieht sich auch der Schwellenwert für die Trennlinien auf die erste Phase, in der die Pixel beschriftet werden.
Der Schwellenwert für Trennlinien liegt zwischen 0 und 255: 0 bedeutet, dass überhaupt keine Trennlinien verwendet werden; bei einem höheren Wert werden Trennlinien verwendet, so dass nahe beieinander liegende Grundlinien nicht zusammengeführt werden.
Normalerweise reichen niedrige Werte aus, um eine Verbindung zwischen nahe beieinander liegenden Grundlinien zu verhindern. Verwenden Sie z. B. 1, um Trenninformationen "manchmal" zu verwenden, und größere Werte, um sie so gut wie immer zu verwenden, z. B. wenn Textzeilen nahe beieinander liegen, aber getrennt werden müssen, weil sie zu verschiedenen Spalten gehören.
- Max-dist für die ZusammenführungIn der zweiten Stufe versucht der Algorithmus, nahe beieinander liegende Grundlinien zusammenzuführen, aber nur, wenn ihr Abstand kleiner als der festgelegte Wert ist. Der Wert wird nicht in Pixeln gemessen, sondern ist ein Bruchteil der Bildbreite. Standardmäßig ist er auf 0,01 eingestellt: Wenn zwei Grundlinien näher beieinander liegen als der 0,01-fache Wert der Bildbreite, werden sie zusammengeführt; sind sie weiter voneinander entfernt als dieser Wert, werden sie nicht zusammengeführt. Je nach Layout und Bildbreite können Sie den Wert für den Bruchteil erhöhen, um weiter entfernte Linien zusammenzuführen, oder ihn verringern, um zu verhindern, dass nahe beieinander liegende Grundlinien zusammengeführt werden.
- Max-dist für Clustering: Dieser Wert bezieht sich auf die Erstellung von Textregionen: Nachdem die Grundlinien erkannt wurden, werden sie auf der Grundlage ihres Abstands in Textregionen geclustert. Der maximale Abstand für das Clustering ist ein Bruchteil der Bildbreite: Grundlinien, die näher als dieser Bruchteil sind, werden in einer Textregion zusammengefasst.
Wenn mit den Standardeinstellungen zu viele Textregionen erstellt werden, können Sie versuchen, den Wert zu erhöhen, so dass mehr Grundlinien zusammen geclustert werden. Wenn der Wert auf -1 gesetzt wird, wird keine Clusterung der Regionen durchgeführt und nur eine Textregion als Begrenzungsrahmen für alle Linien erzeugt.
Weitere Informationen über den Algorithmus und die Einstellungen von Transkribus LA finden Sie unter diese Seite.
Um die automatische Layout-Analyse zu starten, wählen Sie aus, ob Sie nur die aktuelle Seite, einzelne Seiten oder das gesamte Dokument bearbeiten möchten. Vergewissern Sie sich, dass "Textregionen suchen" ausgewählt ist und cKlicken Sie auf die Schaltfläche "Ausführen".
Wenn Sie die Textregionen von Hand einzeichnen und dann nach den Grundlinien in diesen Regionen suchen möchten, deaktivieren Sie die Option "Textregionen suchen", bevor Sie die Layoutanalyse starten.
Korrigieren der Ergebnisse der automatischen Segmentierung
Es kann vorkommen, dass die automatische Layout-Analyse eine manuelle Korrektur erfordert, weil einige Grundlinien fehlen oder Sie die Textbereiche zusammenführen/verschieben möchten.
Wenn Sie ein HTR-Modell trainieren, müssen die Textbereiche nicht korrigiert werden, und die Lesereihenfolge des Textes ist nicht relevant. Wichtig ist, dass die Zeichen der Zeile auf der Grundlinie liegen und die Unterlängen darunter verlaufen und dass eine Übereinstimmung zwischen der Zeile im Bild und der transkribierten Zeile besteht.
Alle Werkzeuge für Korrekturen an der Layoutanalyse finden Sie im "Canvas"-Menü links neben dem Bild. Sie können ihre Funktion überprüfen, indem Sie mit dem Mauszeiger über das Symbol fahren.
Eine Zeile wurde vergessen oder versehentlich hinzugefügt
Im obigen Beispiel wurde die erste Zeile vom Programm übersehen. Wenn Sie sie in den vorhandenen Textbereich einfügen möchten, cklicken Sie in den Bereich, damit er hervorgehoben wird, und dZiehen Sie den Rand des Textbereichs nach Bedarf nach. Um die Grundlinie zu zeichnen, klicken Sie auf die Schaltfläche "+BL" im Canvas-Menü: Klicken Sie einmal, um mit dem Zeichnen der Grundlinie zu beginnen, und doppelklicken Sie, um die Linie zu beenden.
Eine Randnotiz muss in eine separate Textregion aufgeteilt werden
Wenn Sie einen Bereich in zwei Bereiche aufteilen müssen, können Sie dies mit den Schaltflächen im Canvas-Menü tun. Die "H-Schaltfläche" teilt einen Textbereich horizontal auf; tMit der Taste "V" wird ein Textbereich vertikal geteilt; mit der Taste "L" können Sie einen Textbereich mit einer anpassbaren Linie teilen. Denken Sie daran, immer zuerst den Textbereich zu markieren, den Sie teilen möchten.
Entfernen einer nicht benötigten Region
Im obigen Beispiel überschneiden sich zwei Regionen, so dass eine davon gelöscht werden kann. Klicken Sie auf die Textregion, die Sie löschen möchten, und klicken Sie auf die rote Schaltfläche "Remove a shape".
Zwei Regionen zusammenführen
Manchmal erstellt das Programm zwei Textbereiche, wo nur einer benötigt wird. In diesem Fall können Sie die beiden Bereiche einfach zusammenführen. Halten Sie die Taste "CTRL" auf Ihrer Tastatur gedrückt und klicken Sie auf beide Textbereiche. Klicken Sie im Canvas-Menü auf die Schaltfläche "Ausgewählte Formen zusammenführen".
Baselines korrigieren
Natürlich ist es auch möglich, die Grundlinien in Ihrem Dokument zu korrigieren. Wie bei den Textregionen klicken Sie auf eine Baseline und können dann entweder die Teile der Linie verschieben, eine Linie in zwei teilen oder zwei Linien zusammenführen.
Sie können auch eine Grundlinie löschen und eine neue Grundlinie zeichnen. Klicken Sie im Canvas-Menü auf die Schaltfläche "+BL". Klicken Sie einmal, um mit dem Zeichnen der Grundlinie zu beginnen, und doppelklicken Sie, um die Linie zu beenden..
3. Umschrift
Einfache Transkription - für die HTR-Ausbildung
Um Ihr Dokument zu transkribieren, wählen Sie im Hauptmenü das Anzeigeprofil "Transkription". Unter dem Bild sehen Sie das Feld Texteditor.
Für jede Linie/Basislinie im Bild finden Sie eine entsprechende Zeile im Texteditor. Das Bild und der Text sind auf diese Weise verbunden.
Sie können mehrere Personen an einem Dokument arbeiten lassen, aber sie sollten nicht gleichzeitig an derselben Seite arbeiten. Sie können anderen Transkribus-Benutzer*innen Ihre Dokumente zugänglich machen, indem Sie im Reiter "Server" auf die Schaltfläche "User Manager" klicken.
Wenn Sie ein HTR-Modell zur Erkennung Ihrer Dokumente trainieren wollen, reicht diese einfache Transkription aus. Wir empfehlen, den Trainingsprozess mit 5.000 bis 15.000 Wörtern (ca. 25-75 Seiten) transkribiertem Material zu beginnen. Wenn Sie mit gedrucktem und nicht mit handschriftlichem Text arbeiten, ist in der Regel eine geringere Menge an Trainingsdaten erforderlich. Lesen Sie hier erläutert wie Sie Ihr HTR-Modell trainieren.
Erweiterte Transkription - für eine wissenschaftliche Edition
Sobald ein Dokument in Textbereiche, Zeilen und Grundlinien unterteilt wurde, müssen Sie sich Gedanken über die Lesereihenfolge des Textes (dies ist nicht relevant, wenn die Transkription nur als Übungsmaterial dienen soll). Viele handschriftliche Dokumente enthalten Korrekturen und Ergänzungen, vom Autor hinzugefügt oder jemand anderes. In einer wissenschaftlichen Ausgabe wollen Sie die Lesereihenfolge beibehalten und vielleicht auch zum Ausdruck bringen, dass dieser Text eine Ergänzung war. Zu diesem Zweck, können alle Segmentierungselemente nach einem benutzerdefinierte Reihenfolge angeordnet werden.
Die Standard-Lesereihenfolge folgt der Topologie der Text- oder Zeilenregionen. Alle Formen sind nach den Koordinaten der linken oberen Ecke einer Text- oder Zeilenregion geordnet.
Diese mechanische Lesereihenfolge kann geändert werden: cKlicken Sie auf die Schaltfläche "Sichtbarkeit der Elemente" im Hauptmenü, und Sie können die Lesereihenfolge von Textbereichen, Zeilen, Grundlinien (oder Wörtern) anzeigen lassen.
Abbildung 11 Die Schaltfläche "item visibility" zeigt die logische Anordnung der Segmentierungselemente an
Wenn Sie sich dafür entscheiden, die Lesereihenfolge von Textregionen oder Zeilen anzuzeigen, werden Zahlen im Bild Ihres Dokuments angezeigt. Durch Klicken auf eine der Zahlen, die die Lesereihenfolge markieren, ist es möglich, eine neue Zahl einzugeben und die Lesereihenfolge entsprechend zu ändern. Das Gleiche kann durch Verschieben der Segmentierungselemente im Register "Layout" erfolgen.
In Fällen, in denen die Lesereihenfolge einer Seite völlig falsch ist, ist es möglich, den Text neu zu ordnen:
- Machen Sie die Zeilenlesereihenfolge wie oben beschrieben sichtbar.
- Klicken Sie auf die Registerkarte "Layout" auf der linken Seite des Bildschirms.
- Wählen Sie die Seite oder die Textregion, die Sie neu anordnen möchten.
- Klicken Sie auf die "R"-Schaltfläche.
- Die Lesereihenfolge wird entsprechend den Koordinaten der linken oberen Ecke eines Text- oder Zeilenbereichs neu geordnet. Danach sollten die Zeilen in der richtigen Reihenfolge sein.
- Es kann Probleme mit der Lesereihenfolge von Zeitungsspalten und ähnlichen Dokumenten geben. So weist das Programm beispielsweise eine Lesereihenfolge auf der Grundlage der horizontalen Anordnung der Zeilen auf einer Seite zu, anstatt die Zeilen nach Spalten zu ordnen. Um dieses Problem zu beheben, verwenden Sie die Schaltfläche "V" im Canvas-Menü, um den Textbereich auf der Seite in separate Bereiche für jede Spalte aufzuteilen. Sobald es für jede Spalte einen separaten Textbereich gibt, sollte die Lesereihenfolge automatisch aktualisiert werden und korrekt sein.
Interline-Ergänzungen sind eine häufige Art und Weise, wie Text zu einem Dokument hinzugefügt wird. Um die korrekte Lesereihenfolge zu erzeugen, müssen die folgenden Schritte manuell durchgeführt werden:
- Klicken Sie im Hauptmenü auf die Schaltfläche "Sichtbarkeit der Artikel" und wählen Sie "Zeilen in der Reihenfolge anzeigen" (wie oben beschrieben).
- Wählen Sie die Baseline unterhalb der Ergänzung (, wenn die Ergänzung oberhalb der Zeile liegt).
- Teilen Sie die Zeilenregion mit der Schaltfläche "V" im Canvas-Menü genau dort, wo die Ergänzung logisch platziert werden soll.
- Bearbeiten Sie die Ablesereihenfolge so, dass sie korrekt ist. Klicken Sie auf die Nummer, die jeder Basislinie zugeordnet ist, und geben Sie dann die richtige Nummer ein.
Ergänzungen, die erscheinen als zusätzliche Anmerkungen (z. B. an den Rändern einer Seite) sollten ähnlich wie Zwischenzeilen behandelt werden. Es gibt drei Optionen für den Umgang mit Randbemerkungen:
- Option 1: Der Textbereich kann so erweitert werden, dass alle Grundlinien des Zusatzes auch Teil des jeweiligen Textbereichs sind. Sie können entweder relativ große rechteckige Textbereiche oder polygonale Textbereiche verwenden. Wählen Sie dazu die Schaltfläche "Punkt zu ausgewählter Form hinzufügen" aus dem Canvas-Menü. Wenn Sie den Mauszeiger bewegen, können Sie dem ursprünglichen Textbereich Punkte hinzufügen und die Form so erweitern, dass sie auch die Ergänzung enthält.
Anschließend können die zusätzlichen Zeilen/Grundlinien entsprechend ihrer korrekten Lesereihenfolge neu nummeriert werden. - Option 2: Sie können nur einen großen Textbereich für die gesamte Seite erstellen und die Zeilen-/Basisliniensegmentierung manuell in der richtigen Reihenfolge vornehmen. Auf diese Weise erhalten Sie von Anfang an die richtige Lesereihenfolge. Dies kann die beste Option sein, wenn Sie es mit einem Dokument zu tun haben, das ein komplexes Layout mit vielen Hinzufügungen, Notizen und Löschungen aufweist.
- Option 3: Sie können den zusätzlichen Textbereich, der den Zusatz enthält, mit der Zeile verbinden, zu der der Zusatz gehört. Markieren Sie dazu beide Textbereiche und klicken Sie dann auf die Schaltfläche "Zwei Formen verbinden" auf der Registerkarte "Struktur" innerhalb der Registerkarte "Metadaten". Beachten Sie, dass die Verknüpfung Teil der XML-Datei (PAGE) ist, aber in den anderen Exportformaten derzeit nicht unterstützt wird.
Wenn solche zusätzlichen Notizen (oder Marginalien) nicht Teil der Leseordnung sind, sondern "Kommentare" und als solche auf einer anderen Ebene als die primäre Leseordnung stehen, reicht es daher aus, sie auf der Registerkarte "Metadaten" als "Marginalien" zu kennzeichnen. Anweisungen zur Markierung von Text finden Sie in der Anreicherung transkribierter Dokumente mit Markup .
Eine Transkription, die als Grundlage für eine wissenschaftliche Edition dient, sollte dem*r Benutzer*in mehr Daten explizit machen und mehr Kontextdaten anbieten als eine einfache Transkription. In diesem Fall ist nicht nur Maschinenlesbarkeit (d. h. Trainingsdaten für die HTR-Engine), sondern auch menschliche Lesbarkeit des Textes eine wichtige Rolle.
Sie können Sonderzeichen und Unicode-Symbole mit dem "Virtual keyboards"-Button im Texteditor-Feld hinzufügen.
Mit der Schaltfläche "Bearbeiten..." ist es möglich, Abkürzungen für häufig verwendete Zeichen hinzuzufügen und neue Unicode-Zeichen hinzuzufügen. Um ein Kürzel zu erstellen, müssen Sie es nur in die Spalte "Kürzel" eingeben. Um neue Unicode-Zeichen hinzuzufügen, verwenden Sie die grüne Plus-Taste.
Im Texteditor können Sie mit "Backspace" den Text eine Zeile nach oben und mit "Strg" + "Return" eine Zeile nach unten verschieben.
Diakritische Zeichen und Ligaturen
Die korrekte Transkription von Diakritika und Ligaturen erfordert einiges an Fachwissen. Es gibt zwei Hauptoptionen für die Handhabung der korrekten Transkription dieser Zeichen:
- Leichte Normalisierung gemäß dem Wörterbuch:
Die Hauptregel, die hier anzuwenden ist, ist die folgende: Solange Sie das Basiszeichen einer Glyphe deutlich sehen können und solange das Basiszeichen auch dasjenige ist, das im Wörterbuch verwendet wird, um diese Glyphe auszudrücken, halten Sie sich an das Basiszeichen.
Beispiel 1: LATEINISCHER KLEINBUCHSTABE Y erscheint in vielen Dokumenten mit einem zusätzlichen diakritischen Zeichen, das auf die Herkunft dieses Zeichens von ii oder ij hinweist. Daher finden Sie zwei Punkte oder etwas ähnlich aussehendes über dem "y".
In einfachen Abschriften transkribieren Sie dies als LATIN SMALL LETTER Y, da das Grundzeichen deutlich sichtbar ist.
Beispiel 2: LATEINISCHER KLEINBUCHSTABE S wird in den meisten europäischen historischen Schriften mit zwei Graphemen ausgedrückt. Es besteht also ein klarer Unterschied zwischen LATEINISCHER KLEINBUCHSTABE S und LATEINISCHER KLEINBUCHSTABE LANG-S.
Aber obwohl es eine klare Unterscheidung gibt, würde in einer einfachen Transkription in beiden Fällen LATEINISCHER KLEINBUCHSTABE S verwendet werden.
Hinweis: Bitte bedenken Sie, dass dies eine wichtige Entscheidung ist, die sich in vielerlei Hinsicht auf die Nutzbarkeit des Textes auswirken wird. Wenn Sie sich für eine paläografische Transkription entscheiden, wird dies viel mehr Arbeit verursachen als eine leicht normalisierte Transkription.
Satzzeichen
Satzzeichen werden auf die gleiche Weise transkribiert wie Zeichen. Verwenden Sie das entsprechende Zeichen auf Ihrer Tastatur, normalisieren Sie diese nicht und fügen Sie keine Satzzeichen hinzu. Typische Satzzeichen sind:
- moderne Zeichen wie Punkt, Komma, Strichpunkt, Doppelpunkt: “.”, “,”, “;”:”
- historische Zeichen wie Virgeln (Schrägstrich) oder Zeilenfüller usw.
Beachten Sie, dass Doppelpunkte in historischen Texten häufig zur Kennzeichnung abgekürzter Wörter verwendet werden. Diese sollten mit einem Doppelpunkt transkribiert werden.
Im Gegensatz zu vielen Transkriptionsregeln, bei denen Satzzeichen nach modernem Verständnis hinzugefügt oder weggelassen werden, empfehlen wir, sich an die ursprünglichen Satzzeichen zu halten.
Wenn Sie Satzzeichen hinzufügen möchten, die im Originaldokument nicht vorkommen, können Sie auf der Registerkarte "Metadaten" im Register "Markierung" das Tag "geliefert" verwenden, um anzugeben, dass das Satzzeichen von Ihnen hinzugefügt wurde.
Arbeiten im Team - Hinzufügen anderer Benutzer*innen zu Ihrer Sammlung
In Transkribus ist es auch möglich, Sammlungen und Dokumente gemeinsam mit anderen Transkribus-Nutzern zu bearbeiten. Über den "User Manager", den Sie im "Server Tab" finden, können Sie einen anderen Benutzer zu Ihrer Sammlung hinzufügen. Zunächst müssen Sie den anderen Benutzer über E-Mail oder Name unten rechts suchen, dann die rechte Zeile oben auswählen, dann unten links "Benutzer hinzufügen" wählen und schließlich die mit der Benutzerrolle einhergehenden Berechtigungen hinzufügen. In der folgenden Abbildung können Sie die Rechte der einzelnen Benutzerrollen überprüfen:
Referenzen
Um einen Überblick über die Schriftsysteme von Unicode zu erhalten: http://www.unicode.org/charts/
Für historische Transkriptionen sind die folgenden Erweiterungen von Interesse:
Lateinisch, erweitert B: http://www.unicode.org/charts/PDF/U0180.pdf
- Enthält z. B.:
- Außereuropäisches und historisches Latein
- Phonetische und historische Buchstaben
- Zusätze für Slowenisch und Kroatisch
- usw.
Lateinisch, erweitert C: http://www.unicode.org/charts/PDF/U2C60.pdf
- Enthält z. B.:
- Orthographische lateinische Ergänzungen
- usw.
Lateinisch, erweitert D: http://www.unicode.org/charts/PDF/UA720.pdf
- Enthält z. B.:
- Mediävistische Ergänzungen
- Insulare und keltische Buchstaben
- Altrömische epigraphische Buchstaben
- usw.
MUFI (Medieval Unicode Font Initiative)
- Diese Initiative hat etwa 1.512 Zeichen gesammelt und systematisiert, die sich besonders für die Transkription mittelalterlicher Dokumente anbieten. Hinweis: Einige von ihnen befinden sich noch im "privaten" Bereich von Unicode, sind also nicht offiziell verfügbar.
- http://folk.uib.no/hnooh/mufi/
- http://folk.uib.no/hnooh/mufi/specs/MUFI-Alphabetic-4-0.pdf
Danksagung
Wir möchten uns bei den vielen Anwender*innen bedanken, die mit ihrem Feedback zur Verbesserung der Transkribus-Software beigetragen haben.