Erfolgsgeschichte
Veröffentlicht: Vor 10 Monaten

Von der Schrift zum Digitalen - Transformation der Forschung zu osmanisch-türkischen Texten mit Suphan Kirmizialtin

Die Arbeit mit historischen Dokumenten, die in osmanischem Türkisch verfasst sind, war lange Zeit eine schwierige Aufgabe. Nicht nur, dass es heute als "tote" Schrift gilt, sondern auch die Zugänglichkeit und Lesbarkeit stellen diejenigen, die versuchen, osmanische türkische Texte zu erforschen, vor große Herausforderungen. Das Team der Digitalen Osmanischen Korpora hat sich jedoch diesen Herausforderungen gestellt und Sammlungen osmanischer türkischer Drucke transkribiert, digitalisiert und analysiert, um osmanische türkische Quellen für die Forschung besser zugänglich zu machen. Wir sprachen mit Suphan Kirmizialtin, der uns mehr über das Projekt "Digital Ottoman Corpora" und die Veröffentlichung des ersten Texterkennungsmodells für osmanische türkische Drucke erzählte.

Das Projekt der digitalen osmanischen Korpora

Suphan Kirmizialtin, ein auf das Osmanische Reich spezialisierter Historiker, der die Überschneidung von Geschlecht und Modernisierung im Nahen Osten erforscht, leitet das Team für digitale osmanische Korpora in diesem Projekt. In den letzten Jahren hat sich Kirmizialtins Arbeit auf digitale Crowdsourcing-Projekte im Bereich des kulturellen Erbes sowie auf Texterkennung und Textanalyse in historischen Archiven verlagert. Dies bringt uns zu dem heutigen Projekt des Digitale osmanische Korporawo wir über die Bewahrung und das Verständnis der osmanischen Geschichte durch Technologie sprechen.

Der Zugang zu historischen Quellen ist entscheidend für ein tieferes Verständnis der Vergangenheit. Die Frage der Zugänglichkeit wird bei osmanisch-türkischen Archiven recht komplex, da diese Sprache in den späten 1920er Jahren durch eine latinisierte und türkisierte Version ersetzt wurde. Heute ist das osmanische Türkisch, das inzwischen als "tote" Schrift gilt, nur noch für Spezialisten zugänglich, es sei denn, die Dokumente werden ins "moderne Türkisch" transkribiert. Vor diesem Hintergrund haben sich die Digital Ottoman Corpora folgende Ziele für ihr Projekt gesetzt:

  1. Verbesserung des Zugangs zu den historischen Archiven der osmanischen Türkei sowohl für Forscher als auch für die Öffentlichkeit
  2. Hilfe bei der Schaffung einer digitalen Forschungsinfrastruktur für osmanisches Türkisch.
Offizielles Logo von Digital Ottoman Corpora. © Digital Ottoman Corpora

Die Umwandlung handgeschriebener oder gedruckter historischer Dokumente in ein transkribiertes und digitales Format ermöglicht es Forschern, große Mengen historischer Texte leicht zu durchsuchen, zu analysieren und wertvolle Informationen zu extrahieren. Insgesamt kann ich sagen, dass das Projekt "Digitale osmanische Korpora" Teil einer größeren Anstrengung ist, computergestützte Methoden zur Verbreitung und Analyse historischer Texte einzusetzen. Indem wir diese wichtigen Ressourcen einer breiteren Öffentlichkeit zugänglich machen, hoffen wir, zu einem tieferen Verständnis der Vergangenheit und ihrer Bedeutung für die heutige Gesellschaft beizutragen", erklärt Suphan Kirmizialtin. In Verbindung mit der Textanalyse können transkribierte und digitalisierte Texte Muster, Trends und Diskussionen aufzeigen, die unser Verständnis historischer Ereignisse, sozialer Dynamiken und kultureller Phänomene verbessern.

Herausforderungen der osmanisch-türkischen Schrift

Für Forscher und Wissenschaftler, die nach wertvollen Informationen in historischen Dokumenten suchen, ist das osmanische Türkisch, eine in arabischer Schrift geschriebene und stark vom Arabischen und Persischen beeinflusste Literatursprache, faszinierend, aber auch kompliziert. Im Jahr 1928 wurde es durch das "moderne Türkisch" ersetzt, wobei die gemischte Schrift, das Vokabular und die grammatikalischen Strukturen in eine lateinische Schrift umgewandelt wurden. Bei diesem Übergang wurden auch persische und arabische Lehnwörter durch türkische Entsprechungen ersetzt, wodurch sich die Textausrichtung und das Schriftsystem veränderten.

Originale osmanische türkische Dokumente wurden von rechts nach links geschrieben und gelesen, aber Transkriptionen im modernen Türkisch folgen einem Format von links nach rechts. Abgesehen von der Richtungsänderung stellt die Umstellung des Schriftsystems eine große Herausforderung für Historiker dar, die osmanisches Türkisch transkribieren. Im Vergleich zum modernen Türkisch ist das Schriftsystem des osmanischen Türkisch komplex; die Aussprache von Wörtern wird nicht explizit angegeben, sondern nur angedeutet.

Osmanische türkische Zeitschriften des späten 19. und frühen 20. Jahrhunderts. © Digitale osmanische Korpora

Da der Transkriptionsprozess eher auf fundierten Entscheidungen darüber beruht, wie dieses sprachliche Rätsel zu lösen ist, beschreibt Kirmizialtin die Transkription des osmanischen Türkisch eher als eine Kunstform denn als eine akademische Übung. Angesichts all dieser Herausforderungen, die die Sprache und damit auch die historischen Dokumente mit sich bringen, haben sich die Digitalen Osmanischen Korpora zum Ziel gesetzt, die Forschung zu osmanisch-türkischen Texten zu verändern und diese Art von Materialien für ein breiteres Publikum zugänglicher und verfügbarer zu machen.

Die Erschließung der osmanisch-türkischen historischen Archive

Ohne digitalen Zugang, ohne einen Dokumentenkatalog oder eine Struktur wird die Suche nach wertvollen Informationen in Archiven und Dokumenten fast zu einer Sisyphusarbeit. Da Suphan Kirmizialtin die meiste Zeit damit verbracht hat, jedes Dokument manuell durchzugehen, um relevantes Forschungsmaterial für ihre Dissertation zu identifizieren, war sie nur zu gut damit vertraut, wie zeitaufwändig und ineffizient die Analyse und Transkription historischer Dokumente sein kann.

Anerkanntes Layout der osmanisch-türkischen Periodika. © Digitale osmanische Korpora

Kirmizialtin war neugierig darauf, wie dieser Prozess zeitsparender gestaltet werden kann, und suchte nach Möglichkeiten, ihn zu verbessern. Als er Transkribus entdeckte, erkannte Kirmizialtin, dass es nicht nur das Potenzial hat, einzelnen Forschern Zeit zu ersparen, sondern auch die Möglichkeit bietet, mehrere Bedürfnisse zu erfüllen, was die Art und Weise, wie Forschung in der Osmanistik betrieben wird, verändern könnte. "Osmanisches Türkisch ist in den textuellen digitalen Geisteswissenschaften nicht auf sinnvolle Weise vertreten, vor allem aufgrund des Mangels an maschinenlesbaren Korpora in dieser Sprache. [...] unser Ziel ist es, durchsuchbare und berechenbare historische Textsammlungen in osmanischem Türkisch zu erstellen, die dann mit Werkzeugen zur Textanalyse und Datenvisualisierung untersucht werden können."

Vorbereiten des Materials

Das Team der Digitalen Osmanischen Korpora hat sich mit den Herausforderungen auseinandergesetzt und mit der KI-gestützten Texterkennungssoftware von Transkribus gearbeitet, um maschinenlesbare und zugängliche Texte zu erstellen. Mit dem Ziel, ein Texterkennungsmodell mit Transkribus zu trainieren und zu veröffentlichen, hofft das Team, "das Bewusstsein für HTR in der osmanischen Gemeinschaft zu schärfen und mehr Wissenschaftler zu ermutigen, sich an dem Projekt zur Erstellung digitaler Korpora für das osmanische Türkisch zu beteiligen".

Der erste Schritt war die Auswahl und Vorbereitung des Textmaterials für den Transkriptionsprozess. Das für das Training des automatischen Texterkennungsmodells ausgewählte Material bestand aus sechs osmanisch-türkischen Zeitschriften aus dem späten 19. und frühen 20. Diese Zeitschriften behandelten Themen aus den Bereichen Politik, Literatur und Kultur und boten "wertvolle Einblicke in die Sozial- und Geistesgeschichte des späten Osmanischen Reiches".

Wie bereits erwähnt, stellt der Übergang von der arabischen Schrift des osmanischen Türkisch zur lateinischen Schrift des modernen Türkisch eine große Herausforderung dar, ebenso wie der Unterschied in der Schreibrichtung (von rechts nach links bzw. von links nach rechts). Um dies zu überwinden, hat das Team ein standardisiertes Transkriptionsschema definiert, das sowohl die Anforderungen der Transkribus-Transkriptionsmaschine als auch die menschliche Lesbarkeit berücksichtigt.

Transkribieren der Dokumente

Nach der Auswahl der am besten geeigneten Transkriptionsmethode für das Projekt bestand der nächste Schritt in der Erstellung von Trainingsdaten. Die Erstellung von Trainingsdaten beinhaltet die Bereitstellung einer großen Anzahl von korrekt transkribierten Seiten als Grundwahrheitdie zum Trainieren eines automatischen Texterkennungsmodells verwendet werden, das in der Lage ist, die Schrift zu erkennen. In diesem Fall war die Erzeugung von Trainingsdaten ein gemischter Ansatz, der die manuelle Transkription und die Wiederverwendung bestehender latinisierter Texte durch Normalisierung der Schreibweisen, Korrektur von Fehlern und Standardisierung von Transkriptionsschemata umfasste.

Transkription von osmanisch-türkischen Zeitschriften mit Transkribus. © Digitale osmanische Korpora

 Ein zusätzliches Hindernis bei diesem Projekt war die unterschiedliche Textausrichtung zwischen osmanischem Türkisch und modernem Türkisch. Für dieses Projekt, bei dem osmanische türkische Zeitschriften in transkribierten und digitalen Text in moderner türkischer lateinischer Schrift umgewandelt werden sollten, musste die Transkriptionssoftware den Abgleich von Bildern von rechts nach links mit der Transkription von links nach rechts unterstützen. Zunächst unterstützte Transkribus den Abgleich von Rechts-nach-Links-Bildern mit der Links-nach-Rechts-Transkription nicht. Suphan Kirmizialtin gelang es jedoch, eine Lösung zu entwickeln, um die Richtung des transkribierten Textes im modernen Türkisch umzukehren. Durch die enge Zusammenarbeit mit dem Transkribus-Entwicklungsteam wurde eine weitere Funktion zu Transkribus hinzugefügt, die den Zeit- und Arbeitsaufwand für das Training eines Texterkennungsmodells für osmanisches Türkisch drastisch reduziert.

"Auch wenn wir noch nicht die ultimative Lösung für all diese Komplexitäten des osmanischen Türkisch gefunden haben, glaube ich, dass die Annahme eines algorithmisch kompatiblen Transkriptionsschemas und dessen konsequente Anwendung bei der Erstellung der Grundwahrheit der Schlüssel zu einem erfolgreichen HTR-Training in Transkribus ist." 

Die Bemühungen von Suphan Kirmizialtin und dem Team der Digital Ottoman Corpora haben zum ersten Texterkennungsmodell für osmanisches Türkisch mit einer CER auf der Validierungsmenge von 7.21% geführt.

Probieren Sie das Modell hier aus: Osmanisch Türkisch Druck 

Von osmanisch-türkischen Periodika zum ersten öffentlichen Modell für osmanisch-türkische Drucke

Obwohl das Projekt "Digital Ottoman Corpora" einer gewissen Skepsis gegenüber der Arbeit mit automatischer Transkription begegnete und aufgrund der Beschaffenheit der Sprache, mit der es arbeitete, vor Herausforderungen stand, konnte das Team das erste automatische Texterkennungsmodell für osmanische türkische Drucke veröffentlichen. Die Zusammenarbeit mit Transkribus zeigte auch das Potenzial der HTR-Software, osmanisch-türkische Texte und das osmanische Kulturerbe einem breiteren Publikum zugänglich zu machen. Mit dem Erfolg dieses Projekts hofft das Team der Digitalen Osmanischen Korpora, eine Diskussion innerhalb der Gemeinschaft über wichtige Themen anzustoßen, wie z. B. die Schaffung einheitlicher Richtlinien für die Konvertierung osmanisch-türkischer Texte von der arabischen Originalschrift in die lateinische Schrift, die mit Algorithmen und automatischen Systemen kompatibel sind. 

Mit diesem innovativen Projekt stehen Suphan Kirmizialtin und das Team von Digital Ottoman Corpora an der Spitze des faszinierenden Bereichs der automatisierten Transkription von gedruckten osmanisch-türkischen Texten. Sie definieren den Ansatz für den Zugang zu, die Analyse von und die Interaktion mit osmanisch-türkischen Texten neu und ebnen den Weg für neue Entdeckungen und ein tieferes Verständnis dieses reichen kulturellen Erbes.

Vielen Dank für das Gespräch, Suphan, wir werden die Entwicklung des Projekts mit großem Interesse verfolgen! Um mehr über das Projekt zu erfahren, besuchen Sie bitte die offizielle Website Digitale osmanische Korpora. 

Die Transkribus-Tipps von Suphan Kirmizialtin:

"Erstellen Sie eine detaillierte Dokumentation und Metadaten für den HTR-Ausbildungsprozess. Ich habe irgendwo gelesen, dass 'Metadaten eine Liebeserklärung an die Zukunft sind' und ich stimme dem voll und ganz zu!"

"Nutzen Sie die Erfahrung und Weisheit der großartigen Transkribus-Nutzergemeinschaft."

Übersicht