Die Zukunft der Informationsextraktion - Nehmen Sie teil an TUC 2024! 15. und 16. Februar, persönlich und online. Holen Sie sich Ihr Ticket >>

Erfolgsgeschichte
Veröffentlicht: Vor 12 Monaten

Die Entdeckung eines verlorenen Stücks von Lope de Vega: Álvaro Cuéllar

Als Álvaro Cuéllar sich daran machte, eine Reihe von Theaterstücken aus dem Goldenen Zeitalter Spaniens abzuschreiben, hoffte er, etwas Interessantes zu finden. Aber er hatte nicht erwartet, ein völlig neues Werk von einem der berühmtesten spanischen Autoren, Félix Lope de Vega y Carpio, zu entdecken.

Als produktiver Dramatiker, Romancier und Dichter war Lope de Vega eine führende Persönlichkeit des Goldenen Zeitalters in Spanien. Zu seinen Stücken gehören das berühmte Die Erde von Madrid (Der Stahl von Madrid), Der Hund von Hortelano (Der Hund des Gärtners), und La viuda valenciana (Die Witwe aus Valencia). Die Entdeckung von Cuéllar und seinem Kollegen Germán Vega fügt dieser Liste ein brandneues Werk hinzu: La francesa Laura (Die Französin Laura).

News des Fundes verbreitete sich schnell. "Künstliche Intelligenz schreibt ein anonymes Werk aus der Manuskriptsammlung der Nationalbibliothek Lope de Vega zu", berichtete El Pais, gefolgt von ähnlichen Artikeln aus The Guardian, CNNund eine Vielzahl anderer Medien. Alle wollten mehr darüber wissen, wie es möglich war, eine solche Entdeckung allein mit Hilfe der KI zu machen.

Lope de Vega war einer der produktivsten Dramatiker des Goldenen Zeitalters in Spanien. © BNE

Und das werden sie jetzt herausfinden. Wir haben uns mit Álvaro zusammengesetzt, um herauszufinden, wie das Team eine so große Sammlung von Manuskripten digitalisiert und ein lange verschollenes Stück von Lope de Vega gefunden hat.

Autorenschaft im Goldenen Zeitalter Spaniens: das ETSO-Projekt

Darf ich vorstellen: Álvaro Cuéllar. In seiner Position bei der Universität WienÁlvaro erforscht die Literatur des Goldenen Zeitalters Spaniens: eine Periode im späten 16. und 17. Jahrhundert, die für ihre hohe künstlerische Aktivität und Leistung bekannt ist. Es ist jedoch auch eine Zeit, die von Problemen mit der Autorenschaft geplagt ist. In Bibliotheken und Archiven schlummern zahlreiche Manuskripte aus dieser Zeit, die noch keinem bestimmten Schriftsteller oder Dichter zugeordnet werden können.

Das Manuskript war Teil einer anonymen Sammlung in der spanischen Nationalbibliothek. © BNE

Álvaro's Projekt, ETSO - — Estilometría aplicada al Teatro del Siglo de Oro (Stilometrie am Beispiel des Theaters des Goldenen Zeitalters) - zielt darauf ab, ein neues Licht auf diese Probleme der Autorenschaft zu werfen. Zusammen mit einem Kollegen Germán Vega García-Luengos vom Universität von ValladolidÁlvaro analysiert Theatermanuskripte aus dem Goldenen Zeitalter und vergleicht die Ergebnisse mit einem Korpus von Werken von Dramatikern aus dieser Epoche. "Unser Ziel ist es, verloren gegangene oder falsch zugewiesene Werke dem Autor zuzuordnen. Dazu gehören kanonische Autoren wie Lope de Vega, aber auch die anderen 350 Dramatiker, die wir in unserer Datenbank haben."

Dazu verwendet das Team eine Methode namens Stilometrie. Bei der Stilometrie werden die verschiedenen Aspekte des Stils eines Autors analysiert, z. B. wie oft er bestimmte Wörter verwendet oder wie viele Sätze er bildet. Sobald ein stilometrisches Profil für einen Autor erstellt wurde, können andere Texte analysiert werden, um zu sehen, wie sehr sie diesem Profil entsprechen, und es können dann Rückschlüsse auf den Verfasser des Textes gezogen werden. 

Die Figurenliste des Stücks. © BNE

Das Besondere an dem ETSO-Projekt ist, dass dieser gesamte Prozess digital durchgeführt wird. Das Team erstellt zunächst mit Transkribus digitale Versionen der Drucke und Manuskripte, bevor es eine zweite KI-Plattform für die stilometrische Analyse und den Vergleich einsetzt. Der Erfolg dieser Methode könnte einen Präzedenzfall für künftige Projekte dieser Art schaffen.

Transkribieren der Manuskripte

Der erste Schritt des Projekts war die Transkription der Dokumente: insgesamt über 1000 Drucke und 400 Manuskripte. Viele davon, darunter auch das Manuskript von Lope de Vega, stammen aus dem Spanische Nationalbibliothek in Madrid. "Die spanische Nationalbibliothek hat einen enormen Aufwand betrieben, um ihre Theatersammlungen aus dem Goldenen Zeitalter zu digitalisieren", erklärt Álvaro. "Als wir uns an die Bibliothek wandten, hatten sie die meisten der Tausenden von Seiten, die wir benötigten, bereits digitalisiert. Das Problem war, dass die Dokumente zwar gescannt, aber nicht transkribiert waren. Da haben wir Transkribus eingesetzt."

Das Modell des Teams transkribierte und modernisierte den handschriftlichen Text. © BNE

Da die Sammlung sowohl gedruckte Texte als auch handschriftliche Manuskripte enthielt, mussten für die Transkriptionen zwei verschiedene Modelle erstellt werden. In Wirklichkeit hat Álvaro jedoch drei erstellt. "Unser erstes Modell war in der Lage, die spanischen Drucke des Goldenen Zeitalters mit unglaublichem Erfolg zu transkribieren (1% CER). Das Problem war, dass wir diese Texte in modernisierter Rechtschreibung brauchten. Daher war dieses erste Modell für uns nicht brauchbar, weil es nur die ursprüngliche Schreibweise der Texte transkribierte."

Nach weiteren Recherchen über Transkribus fand Álvaro eine Lösung. "Ich erkannte, dass ich Transkribus nicht nur für die Transkription von Texten trainieren konnte, sondern auch für die gleichzeitige Modernisierung von Texten. Das scheint problematisch zu sein, aber da Transkribus mit Gruppen von Buchstaben statt mit einzelnen Zeichen arbeitet, war die Modernisierung recht erfolgreich."

"Durch die Kombination von Text- und Dokumenteneditionen konnte ich ein Modell mit 2 Millionen Wörtern trainieren, das Drucke aus dem Goldenen Zeitalter Spaniens transkribieren und modernisieren konnte (3% CER), und ein Modell, das mit 3 Millionen Wörtern trainiert wurde und in der Lage war, Manuskripte aus dem Goldenen Zeitalter Spaniens zu transkribieren und zu modernisieren (9% CER)." 

Sie können alle drei Modelle auf unserer Website finden:

Drucke aus dem Goldenen Zeitalter Spaniens 1.0

Spanische Drucke des Goldenen Zeitalters (Rechtschreibmodernisierung) 1.0

Spanische Handschriften aus dem Goldenen Zeitalter (Rechtschreibmodernisierung) 1.0

Analyse der Stilometrie

Doch die Transkription war nur die Hälfte der Arbeit. Álvaro und sein Team mussten auch die Stilometrie der 1400 Dokumente analysieren, um festzustellen, ob einige von ihnen den Autoren in der ETSO-Datenbank zugeordnet werden konnten.

Zu diesem Zweck verwendeten sie ein digitales Werkzeug namens Stylo. "Stylo wurde von Maciej Eder, Jan Rybicki und Mike Kestemont entwickelt und ist in der Lage, Texte anhand ihres Wortgebrauchs zu vergleichen. Dies ist für unsere Forschung äußerst nützlich und hat sich als sehr effektiv erwiesen. So hat es zum Beispiel 99% der von Lope de Vega geschriebenen Texte in unseren letzten Kontrollexperimenten richtig klassifiziert."

Zum Glück für die Forscher ist Stylo bei der Analyse automatischer Transkriptionen fast genauso gut wie bei der Analyse vollständig editierter Versionen. "Wir fanden es erstaunlich, dass die automatischen Transkriptionen ungefähr die gleichen Ergebnisse lieferten wie die perfekt redigierten Texte. Im Fall von La francesa LauraDie Beziehung zu Lope de Vega war erstaunlich stark, selbst bei der automatischen Transkription."

Eine verblüffende Entdeckung

Álvaro hatte sich nie vorgenommen, ein Stück eines so berühmten Autors zu entdecken. Aber der Moment, in dem er es entdeckte, ist einer, den er nie vergessen wird. "Ich bearbeitete einen Haufen Manuskripte, wie ich es jeden Tag tue. Dann kam eines dieser Manuskripte, La francesa LauraIch habe mich unerwartet stark an Lope de Vega orientiert. Ich schickte meinem Kollegen Germán Vega eine Nachricht und sagte ihm, dass wir etwas Besonderes hätten, aber dass wir sehr vorsichtig sein müssten, weil es sich um eine automatische Transkription handele und wir den Text erst genau studieren müssten."

Das neu entdeckte Stück trägt den Titel "La Francesca Laura", oder "Die Französin Laura". © BNE

Das Studium des Textes erforderte zwei Jahre akribischer historisch-philologischer Analyse. "Wir haben den Text sehr genau gelesen und nach Parallelen und Ideen zwischen diesem Text und anderen Werken von Lope de Vega und den anderen 350 Dramatikern, die wir in unserer Datenbank haben, gesucht. Wir haben auch metrische Annäherungen, Orthologie, Rhythmus, Thematik, Datierung und so weiter vorgenommen. Alle diese Untersuchungen ergaben das gleiche Ergebnis: eine kristallklare Korrelation zwischen diesem Stück und dem Repertoire von Lope de Vega."

In der Gewissheit, dass es sich tatsächlich um ein neues Werk von Lope de Vega handelt, teilte das Team schließlich seine Erkenntnisse mit der Welt. "Wir hatten nicht mit einem solchen Echo in den nationalen und internationalen Nachrichten gerechnet. Am meisten hat uns vielleicht gefreut, dass drei Theatergruppen Interesse an einer Aufführung des Stücks gezeigt haben, was außergewöhnlich ist."

Das Projekt geht weiter...

Álvaro und sein Team haben bereits ein erstaunliches Ergebnis erzielt, aber das Projekt ist noch nicht zu Ende. "Wir müssen mit den allgemeinen Zielen des Projekts weitermachen: alle Werke des spanischen Theaters des Goldenen Zeitalters sammeln und versuchen, das Problem der Autorenschaft zu erhellen.

Man muss auch bedenken, dass es zwei Jahre dauerte, bis die Technologie zum ersten Mal in der La francesa Laura Lope de Vega und die Forscher waren sich der Zuordnung sicher genug, um sie der Welt bekannt zu geben. "Das bedeutet, dass Sie in zwei Jahren sehen werden, woran wir gerade arbeiten, was ebenfalls sehr aufregend ist.

Vielen Dank für das Gespräch, Álvaro, und wir sind gespannt, wie es mit dem Projekt weitergehen wird.

Álvaro wurde bereits eingeladen, auf verschiedenen Konferenzen über das Projekt zu sprechen. © Pio Baruque Fotógrafos
Übersicht