Erfolgsgeschichte
Veröffentlicht: Vor 2 Jahren

Erstellung eines linguistischen Korpus mit Transkribus: Ewa Rodek

Sprachen entwickeln sich im Laufe der Zeit: Das wissen Linguistikstudierende bereits im ersten Semester. Aber zu verstehen, wie sie sich entwickeln, ist eine etwas größere Herausforderung.  

Am Institut für polnische Sprache - Polnische Akademie der Wissenschaftenversucht ein Team von Forschenden, Erkenntnisse über die Entwicklung der polnischen Sprache zu gewinnen. Sie sind dabei, ein digitales linguistisches Korpus bestehend aus polnischen Texten aus dem 17. und 18. Jahrhundert zu erstellen, um eine Analyse der zu dieser Zeit verwendeten Sprache zu erleichtern. Da das Korpus vollständig digital sein soll, haben sie beschlossen, die Texte mit Transkribus zu transkribieren.

Wir sprachen mit Teammitglied Dr. Ewa Rodek, um mehr über dieses spannende Projekt im Bereich der polnischen Linguistik zu erfahren.

Ein einzigartiges linguistisches Korpus

Ewa Rodek war schon immer ein Fan von Sprachen und ihrer Entwicklung: "Ich interessiere mich sehr für Sprachgeschichte, insbesondere für historische Lexikographie und literarische Kultur. Praktischerweise konnte Ewa Rodek ihre Leidenschaft am Institut für Polnische Sprache der Polnischen Akademie der Wissenschaften in eine Karriere umwandeln. Ihr Team arbeitet derzeit an einem digitalen Korpus aus polnischen Texten des 17. und 18. Jahrhundert, dem so genannten KorBa-Projekt. Dieses einzigartige Korpus enthält polnische Texte vieler verschiedener Gattungen und Stile aus der Zeit des Barock und der Aufklärung. Nach seiner Fertigstellung wird es über 25 Millionen Token enthalten, die entsprechend ihrer Struktur und Morphologie getaggt sind, womit es das größte diachrone Korpus dieser Art sein wird.

Ein Eindruck von der Vielfalt des Materials, mit dem sich Ewa und ihr Team beschäftigen

"KorBa ist das erste diachrone Korpus dieser Größe auf Polnisch", erklärt Ewa. "Durch seinen reichen Wortschatz hat es eine große Bedeutung für die Wissenschaft. Aber auch für unser Team ist es essentiell, denn es ist die wichtigste Materialgrundlage für die Erstellung des eSXVII." eSXVII ist die Abkürzung für das Elektronische Wörterbuch des Polnischen des 17. und 18. Jahrhunderts, an dem dasselbe Team seit 2004 arbeitet. "Das Korpus ist so in eSXVII integriert, dass Benutzer*innen leicht von einem Eintrag im Wörterbuch zu einer spezifischen Suche im Korpus wechseln können, wo man sehen kann, wie oft und in welchem Kontext das Wort verwendet wurde." Kurz gesagt, dieses Projekt wird den Forschenden viel mehr Informationen über die historische Verwendung einzelner Wörter liefern, als sie bisher hatten.

Die Verwendung von Transkribus für die Transkription

Historische Texte wie die in diesem Projekt sind nicht immer leicht zu transkribieren. "Unser Material ist nicht gerade homogen", erklärt Ewa. "Die Manuskripte haben oft mehrere verschiedene Schriftarten und sogar verschiedene Sprachen auf einer Seite - Polnisch koexistiert mit Latein, Deutsch oder Französisch. Einige der Dokumente haben auch Flecken oder sind beschädigt. Deshalb entschied sich Ewas Team zu Beginn des Projekts für eine manuelle Transkription der Dokumente. Aber das war nicht so erfolgreich wie erhofft. "Ich war von Anfang an in den Arbeitsablauf eingebunden und kenne daher die Probleme, auf die man bei der manuellen Transkription stößt, insbesondere die Verzögerungen. Die Transkription und das Korrekturlesen von Dokumenten in gotischer Schrift erfordert außerdem Spezialwissen, was die Sache recht teuer macht. 

Das Team hatte den Einsatz der OCR-Technologie bereits ausgeschlossen - "Ich hatte viel Erfahrung mit OCR-Software und wusste, dass sie unsere Arbeit nicht verbessern würde" -, doch dann entdeckte Ewa die HTR-Möglichkeiten von Transkribus. Die Software würde nicht nur die Arbeit beschleunigen, sondern das Team war auch in der Lage, sie zu nutzen, obwohl es keine Erfahrung mit Codierung oder Software hatte. "Es war besonders wichtig, dass wir die Arbeit selbst erledigen konnten und nicht unsere IT-Kollege*innen um Hilfe bitten mussten. Der Einsatz von Transkribus war auch viel billiger als die Anstellung von Personen für die händische Transkription. 

Das Transkribieren der Dokumente

Und zum Glück hat Ewa ihre Entscheidung für Transkribus nicht bereut. Das Team begann damit, eigene KI-Modelle zu erstellen, und erreichte dabei ziemlich beeindruckende Zeichenfehlerraten. "Der größte Vorteil von Transkribus ist, dass es sehr schnell lernt. Wir haben zwei Modelle entwickelt - eines für gedruckte Texte (mit einer Fehlerrate von 0,29%), das andere für Manuskripte (mit einer Fehlerrate von 1,8%)", erklärt Ewa. Und das trotz der unterschiedlichen Schriftarten, Sprachen und Zustände der Dokumente: "Transkribus hat diese Schwierigkeiten ausgeglichen und sehr gut gehandhabt."

Auch die Tatsache, dass Transkribus problemlos von einem ganzen Team genutzt werden kann, war ein Pluspunkt für dieses große Projekt. "Die Möglichkeit, in Teams zu arbeiten, Modelle und Dokumentensammlungen zu verwalten, ist sehr hilfreich", so Ewa. "Das Exportieren einer PDF-Datei aus einem Bild mit einer darunter liegenden Textebene ist ebenfalls sehr praktisch. Ich werde diese Option auf jeden Fall bei meinen zukünftigen Projekten nutzen."

Die nächsten Schritte

Ewas Team hat zwar die Transkription der Texte abgeschlossen, aber das KorBa-Projekt ist noch nicht ganz fertig. "Wir haben jetzt den längsten Teil des Prozesses abgeschlossen - nämlich das Sammeln und Transkribieren der Texte. Jetzt bereiten wir das Trainingsmaterial für die Tagger-Software vor, und dann müssen wir die Ergebnisse der ersten und zweiten Auflage des Projekts zusammenführen." Das klingt, als ob das Team noch eine ganze Weile beschäftigt sein wird!

Vielen Dank an Ewa Rodek und ihr Team vom KorBa-Projekt für das Gespräch!

Ewas Trankribus Tipp

Bevor Sie das Modell trainieren, müssen Sie festlegen, welche Zeichen Sie beibehalten wollen und welche nur die Schreibweise des*der Schreiber*in sind, insbesondere wenn das Alphabet in Ihren Dokumenten nicht standardisiert ist. In unserem Material kam zum Beispiel das Zeichen ÿ vor. Nach einiger Zeit erkannten wir, dass es sich nicht um eine Ligatur aus der Kombination der Buchstaben ij handelte, sondern dass es austauschbar mit dem Buchstaben y verwendet wurde. Daher haben wir aufgehört, das Zeichen ÿ als separaten Buchstaben zu markieren, und es einfach als y transkribiert. Durch die Erstellung einer solchen Liste von Zeichen können Sie Fehler in der Ground Truth vermeiden und so eine genauere Transkription erstellen.

Ewa Rodek, Institut für Polnische Sprache - Polnische Akademie der Wissenschaften
Übersicht