Erfolgsgeschichte
Veröffentlicht: Vor 3 Monaten

Erstellung des Texterkennungsmodells Schwedischer Löwe Ⅰ

Einfachheit, bürgerschaftliches Engagement und KI-gesteuerte Transkription waren die Schlüsselfaktoren, die Olof Karsvall und das Team bei der Europäischen Kommission faszinierten. Schwedisches Nationalarchiv als sie entdeckten Transkribus.

Olof KarsvallForschungsleiter im Schwedischen Nationalarchiv, war an mehreren Forschungsprojekten beteiligt, zuletzt an der Integration von KI, die die Erforschung von Archivmaterial revolutioniert hat. In diesem Blogbeitrag gibt er Einblicke, wie die Schwedischer Löwe Ⅰ Modell unterstützt diese transformative Reise.

Archivmaterial aus dem schwedischen Lion Ⅰ-Projekt.

Eine Zusammenarbeit von Archiven, Forschern und Universitäten

Das schwedische Lion Ⅰ Handwritten Text Recognition (HTR)-Modell ist ein gemeinsames Projekt von Institutionen wie dem Nationalarchiv von Schweden und Finnland, Stadtarchiv Stockholm, Jämtlands läns fornskriftsällskap und Forscher aus Stockholm und Universitäten in Uppsala. "Da wir uns gemeinsam auf die Erzeugung von Trainingsdaten für HTR auf Schwedisch konzentrieren, haben wir die Vorteile einer Zusammenarbeit erkannt. Daher haben wir unsere Trainingsdaten zusammengeführt, um ein gemeinsames Modell zu erstellen", sagt Olof Karsvall. Einmal trainiert, kann das Schwedischer Löwe Ⅰ Modell kann andere Dokumente mit ähnlicher Handschrift automatisch transkribieren und ist damit ein wertvolles Werkzeug für die Digitalisierung und Analyse historischer Handschriften und Archivmaterialien.  

Im Mittelpunkt dieser Zusammenarbeit steht Transkribus, eine Plattform, die es Nutzern ermöglicht, Modelle für bestimmte Handschriften und historische Epochen zu erstellen und zu trainieren. Ein Schlüsselmoment war 2019 der Beitritt des Stockholmer Nationalarchivs READ-COOP SCEder Genossenschaft, die hinter Transkribus steht. Olof Karsvall betont: "In erster Linie waren wir von der Benutzerfreundlichkeit und der Möglichkeit fasziniert, Bürger und Freiwillige in die Nutzung von KI für die maschinelle Transkription einzubinden".

Mit externer Finanzierung durch die schwedische Innovationsagentur (Vinnova) und seit kurzem auch durch die schwedische Denkmalschutzbehörde entwickelte sich diese Faszination zu einer transformativen Reise, die zu innovativen Projekten führte, die Bürgerwissenschaft und HTR nahtlos miteinander verbinden, was durch Transkribus ermöglicht wurde. Auf diese Weise eröffnet das schwedische Lion-Modell zusammen mit Transkribus neue Möglichkeiten für den Zugang zu und die Erforschung von historischen Dokumenten.

Archivmaterial aus dem schwedischen Lion Ⅰ-Projekt und Transkription in Transkribus.

Ausweitung der Forschungsmöglichkeiten

Bei einer genaueren Betrachtung der Geschichte der Modelle ist es immer interessant herauszufinden, was das Ziel und die Motivation hinter ihrer Entstehung war. Karsvall erklärt: "Durch die Einbeziehung von Texten unterschiedlicher Art aus verschiedenen historischen Epochen soll das Modell effektiv verallgemeinert und auf Archivmaterial angewendet werden, das über den ursprünglichen Trainingsbereich hinausgeht." Um dieses Modell zu erstellen, war es notwendig, eine Vielzahl von Texten aus verschiedenen historischen Epochen einzubeziehen. Diese Vielfalt an Trainingsdaten trägt dazu bei, das Modell effektiver zu machen und auf ein breites Spektrum an Archivmaterial anzuwenden, was eine bessere Genauigkeit und Leistung bei der Transkription handschriftlicher Dokumente aus verschiedenen Epochen und Stilen gewährleistet.

Der schwedische Löwe Ⅰ ist als Basismodell für schwedische historische Texte gedacht, das den Zugang zu handschriftlichen Materialien vereinfachen und die datengestützte Forschung unterstützen soll. 

Das Modell "Schwedischer Löwe Ⅰ" für die schwedische Handschrift.

Ausbildung eines vielseitigen Modells 

Die Schwedischer Löwe Ⅰ Modellsorgfältig trainiert anhand einer Vielzahl von historischen Dokumenten, insbesondere Gerichtsakten und Protokollen aus den Jahren 1600, 1700 und 1800, zeigt die Fähigkeiten von Transkribus auf. Olof Karsvall attestiert: "Der Einstieg in Transkribus war einfach". Das Potenzial der Software zeigt sich in dem gemeinschaftlichen Prozess der Transkription von 3,3 Millionen Textzeilen aus 268 Archivbänden. Das endgültige Modell war das Ergebnis verschiedener Projekte, die Folgendes hervorgebracht haben  Grundwahrheitsdaten die Verwendung spezieller Modelle und die Anwendung manueller Korrekturen Die bemerkenswerte Leistung des Modells Zeichenfehlerrate (CER) von nur 4% bestätigt die große Leistungsfähigkeit des Modells. Dies zeigt sich besonders bei der Verarbeitung von Fließtext und Randnotizen.

Olof Karsvall räumt ein, dass die Verwaltung unterschiedlicher Dokumente eine Herausforderung darstellt: "Da wir eine Vielzahl von Dokumenten verwalten, war die Segmentierung von Regionen und Linien eine große Herausforderung." Glücklicherweise hat die Einführung neuer trainierbarer Layout-Modelle, der Feldmodelle und Tabelle Modellewird eine größere Genauigkeit und eine einfachere Segmentierung und Erkennung von Layout-Strukturen ermöglichen. Nach drei Jahren sorgfältiger Transkription, manueller Überprüfung und Korrektur ist das Modell "Schwedischer Löwe" nun fertig und als öffentliches Modell verfügbar!


-> Schwedischer Löwe Ⅰ Modell 

Nächste Schritte für das schwedische Lion Ⅰ-Modell


Man hofft, dass das schwedische Texterkennungsmodell Lion I über Transkribus neue Nutzer erreichen und die Nutzung von historischem Archivmaterial in schwedischer Sprache anregen wird. Die gemeinschaftliche Entwicklung, an der mehrere Institutionen, Forscher und Freiwillige beteiligt sind, ist bereits eine große Inspiration. Karsvall unterstreicht die Absicht, diese Zusammenarbeit auszuweiten und ein größeres Modell zu schaffen, das ältere Zeiträume und verschiedene Materialien abdeckt und damit die Bürgerwissenschaft fördert. Kollegen und die Archivgemeinschaft haben bereits wachsendes Interesse gezeigt, was zu vermehrten Anfragen zur Zusammenarbeit geführt hat. Das Team plant, das Modell auf mehrere große Sammlungen anzuwenden, um die Erwartungen an eine bessere Zugänglichkeit von Archiven nach der Veröffentlichung des schwedischen "Lion"-Modells zu erfüllen.

Vielen Dank, Olof Karsvall, für das Interview und dafür, dass Sie die Reise des schwedischen Lion Ⅰ-Models mit uns teilen!

Die Transkribus-Tipps von Olof Karsvall:

"Ratschläge von anderen einholen, die bereits ähnliche Projekte durchgeführt haben".

"Teilen Sie Ihre Daten; jeder profitiert davon, wenn Daten wiederverwendet werden können".

Vorschaubild: Olof Karsvall, ©️Emre Olgun

Übersicht