Die Zukunft der Informationsextraktion - Nehmen Sie teil an TUC 2024! 15. und 16. Februar, persönlich und online. Holen Sie sich Ihr Ticket >>

5 AI-Modelle für die Transkription alter russischer Handschriften und gedruckter russischer Texte

Als eines der größten Länder der Welt ist Russland auch eines der am meisten erforschten. Seine turbulente Geschichte und sein Einfluss auf die Weltpolitik machen es zum Mittelpunkt vieler Forschungsprojekte, die häufig historische Dokumente - wie Ortsregister, Geburtsregister oder sogar persönliche Tagebücher - als Primärquellen verwenden. 

Früher war die Entzifferung der alten kyrillischen Handschrift oder der darin enthaltenen Schrift eine zeitraubende Herausforderung, die jahrelanges Training erforderte. Doch die KI hat dies geändert. Mithilfe von KI-Texterkennungstechnologien wie Transkribus können Forscher jetzt einfach einen Scan des Dokuments durch die Software laufen lassen und erhalten eine sofortige, automatische Transkription. Und wir alle wissen: Je weniger Zeit wir für die Transkription aufwenden müssen, desto mehr Zeit haben wir für die befriedigenderen Teile der historischen Forschung.

Wenn Sie mit historischen Dokumenten in russischer Sprache arbeiten, finden Sie hier drei öffentliche KI-Modelle, die Sie mit Transkribus verwenden können, um sofortige Transkriptionen Ihrer Texte zu erhalten.

Russisch Allgemeine Handschrift 2

Wenn Sie eine Mischung von Dokumenten aus verschiedenen Genres und Zeiträumen haben, dann ist dies wahrscheinlich das beste Modell für den Anfang. Basierend auf früheren Modellen aus dem Estnisches Staatsarchiv und das INEL-Projekt in Hamburg, sowie das Modell der russischen Zivilstandsregister (siehe unten) und das Prozhito-DatenbankSie umfasst ein breites Spektrum von Grundwahrheiten, die meist aus dem späten 19. und frühen 20. Jahrhundert stammen. 

Mit einem CER von 5,8% ist es in der Lage, ziemlich genaue Transkriptionen für eine Vielzahl von Dokumenten zu liefern und ist ein ausgezeichneter Ausgangspunkt für das Training Ihres eigenen Modells. 

Zum Modell gehen

Russische Zivilstandsregister 

Dieses interessante Modell wurde von der Stiftung L'Dor V'Dordie jüdische historische Aufzeichnungen aus aller Welt bewahren. Als Grundwahrheiten dienten ihnen handgeschriebene Zivilstandsregister aus Kongresspolen, der Ukraine und Russland aus der Zeit von 1914 bis 1968, aus denen ein Modell mit einer CER von 7,3% entstand.

Das Modell funktioniert besonders gut bei handschriftlichen Aufzeichnungen aus Kongresspolen.

Zum Modell gehen

Russische Handschrift Anfang des 20. Jahrhunderts

Dieses Modell ist ideal für die Verwendung mit kyrillischen Vorformulardokumenten. Es wurde von dem russischen Ethnographen und Linguisten Konstantin M. Rychkov an zweisprachigen Evenki/Russischen Manuskripten trainiert, der verschiedene kulturelle Informationen aus der Evenki-Kultur gesammelt und ins Russische übersetzt hat. 

Die Grundwahrheit besteht aus 581 Seiten aus dem Rychkov-Archiv, die aus den Jahren 1911-1913 stammen, und hat eine CER von 4,4%. Das Modell wurde ebenfalls von der INEL-Projekt an der Universität Hamburg.

Zum Modell gehen

Russischer Druck 18. Jahrhundert (V. Okorokovs Druckerei)

Erstellt am Europäische Universität in St. PetersburgDieses Modell basierte auf einer Reihe wissenschaftlicher Abhandlungen, die von der Druckerei von V. Okorokov an der Staatlichen Universität Moskau veröffentlicht wurden. Die Abhandlungen waren alle auf Russisch gedruckt, wobei einige wissenschaftliche Begriffe in lateinischer Schrift angegeben waren.

Der CER auf dem Validierungsset beträgt nur 0,6% und das Modell zeigt gute Ergebnisse bei gedruckten Texten aus anderen Verlagen der Zeit. 

Zum Modell gehen

Russischer Druck 18. Jahrhundert

Dieses neuere Druckmodell basiert auf Grundwahrheiten aus einer größeren Anzahl von Verlagen, die im 18. Jahrhundert tätig waren, einschließlich derer der Akademie der Wissenschaften in St. Petersburg und der Kaiserlichen Universität Moskau. Es wurde im Rahmen eines Studentenprojekts an der HSE-Universität

Mit einem CER von 2,4% liefert es gute Ergebnisse bei russischsprachigen Texten, erkennt aber andere Sprachen, die im Text vorkommen können, nicht.

Zum Modell gehen

Wie kann ich ein öffentliches AI-Modell verwenden?

Die Transkriptionen von Transkribus beruhen auf KI-Modellen. Jedes Modell wurde darauf trainiert, eine bestimmte Art von handgeschriebenem oder gedrucktem Text in einer bestimmten Sprache zu lesen, und oft auch eine bestimmte Zeitspanne oder ein bestimmtes Genre. 

Wenn Sie ein Dokument mit Transkribus transkribieren möchten, müssen Sie zunächst einen Scan des Dokuments hochladen und dann ein Modell auswählen. Derzeit sind 94 öffentliche Modelle verfügbar, die alle kostenlos genutzt werden können. Transkribus übernimmt die im Modell gespeicherten Informationen und wendet sie auf Ihr Dokument an, so dass eine sofortige Transkription entsteht.

Was aber, wenn es kein Modell gibt, das für den Text in Ihren Dokumenten geeignet ist? Dann haben Sie auch die Möglichkeit, Ihr eigenes zu trainieren. Dazu benötigen Sie eine Reihe von vorbeschriebenen Dokumenten, die als "Ground Truths" bezeichnet werden. Je mehr Ground Truths Sie zum Trainieren Ihres Modells verwenden, desto mehr Informationen wird es enthalten und desto genauer wird es bei der Transkription neuer Dokumente sein. Um Zeit zu sparen, verwenden viele Leute ein öffentliches Modell als Basis für ihr individuelles Modell und stimmen es dann mit weiteren Ground Truths ab.
Weitere Informationen über Modelle und deren Ausbildung finden Sie in unserem Anleitungen.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Jänner 31, 2024
News
Wir freuen uns, die neuesten Aktualisierungen unseres Dokumenten-Editors anzukündigen, die Ihnen eine intuitivere und übersichtlichere Benutzeroberfläche bieten. Unser ...
Jänner 17, 2024
News, Transkribus
Muss ich handgeschriebenen Text transkribieren oder übersetzen, um mit ihm arbeiten zu können? Nun, das hängt davon ab ...
Jänner 11, 2024
News, Transkribus
Die Verwaltung und Veröffentlichung historischer Dokumente war noch nie so einfach! Erstellen Sie eine Website, die Ihr transkribiertes Material präsentiert ...