Transkribus in der Bibliotheca Hertziana - Max-Planck-Institut für Kunstgeschichte

Digitale Publikationen sind die jüngste Ergänzung des DH Labs der Bibliotheca Hertziana - Max-Planck-Institut für Kunstgeschichte in Rom (https://www.biblhertz.it). Ziel ist es, die Open-Access-Inhalte des Instituts online zu veröffentlichen.

Da es sich bei vielen kunsthistorischen Quellen um antike Bücher handelt und die Bibliothek unseres Instituts viele Ressourcen in das Scannen unserer "Rara"-Büchersammlung (http://dlib.biblhertz.it) gesteckt hat, lag es nahe, sich eine Möglichkeit vorzustellen, auf diese nicht nur als digitalisierte Bilder, sondern auch als transkribierte Inhalte zuzugreifen. Dies wird es den Autoren ermöglichen, sie direkt zu zitieren, aber auch Querverweise, die Überprüfung des Inhalts und die Zugänglichkeit für Personen, die auf TTS-Tools angewiesen sind, zu verbessern.

Ältere Bücher stellen mehrere Herausforderungen für die Standard-OCR dar, die Technologie, die normalerweise zur Texterkennung in Büchern verwendet wird. Nicht nur sind einige Zeichen und Ligaturen schwer zu trainieren (denken Sie nur an den leichten Unterschied zwischen dem Buchstaben "f" und dem verlängerten s "ſ" oder die Verwendung von "u" als "v" in Kleinbuchstaben und "V" als "U" in Großbuchstaben), sondern es gibt auch Abkürzungen und Symbole mit einer besonderen Bedeutung. Tatsächlich enthielten die meisten Bücher, vor allem im fünfzehnten und sechzehnten Jahrhundert, genau die schriftsprachlichen Abkürzungen, die in Manuskripten üblich waren.

Das bedeutet, dass die Annäherung an die Transkription Zeichen für Zeichen, wie es bei OCR der Fall ist, einfach eine riesige Fehlerquote und keine Möglichkeit zur Suche nach abgekürzten Wörtern erzeugen würde. Im Gegenteil, auch wenn HTR für Handschrift gedacht ist, kann es perfekt darauf trainiert werden, sich dem Kontext anzupassen und Abkürzungen zu erweitern oder zwischen Buchstaben zu unterscheiden, die scheinbar oder tatsächlich identisch sind.

Aus diesem Grund haben wir uns mit dem READ-COOP zusammengetan und eine komplette neuronale Texterkennung unserer bestehenden Digitalisierungen geplant. Ziel ist es, neue Modelle zu erstellen, die nicht nur in der Lage sind, den gesamten Inhalt zu transkribieren, sondern auch die Hauptstruktur eines Buches zu erkennen: die Liste der Bilder zu extrahieren, zwischen Haupttext und Kommentaren zu unterscheiden, und vieles mehr. Die Transkriptionen werden im IIIF-Viewer verfügbar sein, aber auch in einem Online Read&Search Plattform können sie zusammen mit den digitalisierten Büchern des Kunsthistorischen Instituts in Florenz und des Max-Planck-Instituts für Wissenschaftsgeschichte in Berlin durch maschinelles Lernen für Data Mining durchsucht und analysiert werden.

Ein weiteres Projekt, das sich auf Transkribus ist eine digitale Edition von Manuskripten, bei der neben der manuellen Transkription des Inhalts auch das Tagging von Informationen erforderlich ist. Dank der einfachen Tag-Verwaltung, die im Expert-Client verfügbar ist, kann das Team zusammenarbeiten und den Text bearbeiten, semantische Informationen einfügen und relevante benannte Entitäten wie Personen, Orte, Daten oder Kunstwerke, die im Text erwähnt werden, identifizieren. Dank direktem TEI-Export oder XSLT-Konvertierung kann die digitale Ausgabe nahezu ohne weitere Nachbearbeitung erstellt werden.

Bevor ich mit diesem Projekt begann, nutzte ich Transkribus bereits für meine eigenen Recherchen, und jetzt ermutige ich Hertziana-Forscher, es so oft wie möglich zu nutzen, wenn der Zugriff auf Inhalte wichtig ist oder wenn sie an einer digitalen Ausgabe arbeiten.

Cookie	Beschreibung	Dauer
viewed_cookie_policy	Das Cookie wird vom GDPR Cookie Consent Plugin gesetzt und dient dazu, zu speichern, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine persönlichen Daten.	1 Stunde
PHPSESSID	Dieses Cookie ist in PHP-Anwendungen enthalten. Der Cookie wird verwendet, um die eindeutige Sitzungs-ID eines Benutzers zu speichern und zu identifizieren, um die Benutzersitzung auf der Website zu verwalten. Das Cookie ist ein Sitzungscookie und wird gelöscht, wenn alle Browserfenster geschlossen werden.	1 Jahr

Cookie	Beschreibung	Dauer
BESUCHER_INFO1_LIVE	Dieses Cookie wird von Youtube gesetzt. Wird verwendet, um die Informationen der eingebetteten Youtube-Videos auf einer Website zu verfolgen.	5 Monate
IDE	Wird von Google DoubleClick verwendet und speichert Informationen darüber, wie der Nutzer die Website und andere Werbung vor dem Besuch der Website nutzt. Dies wird verwendet, um Nutzern Anzeigen zu präsentieren, die für sie entsprechend dem Nutzerprofil relevant sind.	2 Jahre

Cookie	Beschreibung	Dauer
GPS	Dieses Cookie wird von Youtube gesetzt und registriert eine eindeutige ID für die Nachverfolgung von Benutzern basierend auf ihrem geografischen Standort	30 Minuten
tk_oder	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	5 Jahre
tk_r3d	Das Cookie wird von JetPack installiert. Wird für die internen Metriken für Benutzeraktivitäten verwendet, um die Benutzererfahrung zu verbessern	3 Tage
tk_lr	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	1 Jahr
_ga	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Besucher-, Sitzungs- und Camapign-Daten zu berechnen und die Nutzung der Website für den Analysebericht der Website zu verfolgen. Die Cookies speichern Informationen anonym und weisen eine zufällig generierte Nummer zu, um eindeutige Besucher zu identifizieren.	2 Jahre
_gid	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Informationen darüber zu speichern, wie Besucher eine Website nutzen, und hilft bei der Erstellung eines Analyseberichts darüber, wie sich die Website verhält. Die gesammelten Daten umfassen die Anzahl der Besucher, die Quelle, von der sie kommen, und die besuchten Seiten in anonymer Form.	1 Tag
matomo	Für die statistische Analyse verwenden wir auf dieser Website "Matomo". Dies ist ein Open-Source-Tool für die Webanalyse. Matomo überträgt keine Daten an Server außerhalb der Kontrolle von READ-COOP. Matomo ist deaktiviert, wenn Sie unsere Website besuchen. Nur wenn Sie aktiv zustimmen, wird Ihr Nutzungsverhalten anonymisiert erfasst.	1 Jahr

Cookie	Beschreibung	Dauer
YSC	Dieses Cookie wird von Youtube gesetzt und dient dazu, die Aufrufe von eingebetteten Videos zu verfolgen.	1 Jahr
_gat	Dieses Cookie wird von Google Universal Analytics installiert, um die Abfragerate zu drosseln und so die Datensammlung auf stark frequentierten Seiten zu begrenzen.	1 Minute

Transkribus in der Bibliotheca Hertziana - Max-Planck-Institut für Kunstgeschichte

Die COOP

Produkte & Dienstleistungen

Nützliche Informationen

Hilfreiche Ressourcen

Community