5 AI-Modelle für die Transkription alter russischer Handschriften und gedruckter russischer Texte

Jänner 26, 2023
HTR-Modelle

Als eines der größten Länder der Welt ist Russland auch eines der am meisten erforschten. Seine turbulente Geschichte und sein Einfluss auf die Weltpolitik machen es zum Mittelpunkt vieler Forschungsprojekte, die häufig historische Dokumente - wie Ortsregister, Geburtsregister oder sogar persönliche Tagebücher - als Primärquellen verwenden.

Früher war die Entzifferung der alten kyrillischen Handschrift oder der darin enthaltenen Schrift eine zeitraubende Herausforderung, die jahrelanges Training erforderte. Doch die KI hat dies geändert. Mithilfe von KI-Texterkennungstechnologien wie Transkribus können Forscher jetzt einfach einen Scan des Dokuments durch die Software laufen lassen und erhalten eine sofortige, automatische Transkription. Und wir alle wissen: Je weniger Zeit wir für die Transkription aufwenden müssen, desto mehr Zeit haben wir für die befriedigenderen Teile der historischen Forschung.

Wenn Sie mit historischen Dokumenten in russischer Sprache arbeiten, finden Sie hier drei öffentliche KI-Modelle, die Sie mit Transkribus verwenden können, um sofortige Transkriptionen Ihrer Texte zu erhalten.

Russisch Allgemeine Handschrift 2

Wenn Sie eine Mischung von Dokumenten aus verschiedenen Genres und Zeiträumen haben, dann ist dies wahrscheinlich das beste Modell für den Anfang. Basierend auf früheren Modellen aus dem Estnisches Staatsarchiv und das INEL-Projekt in Hamburg, sowie das Modell der russischen Zivilstandsregister (siehe unten) und das Prozhito-DatenbankSie umfasst ein breites Spektrum von Grundwahrheiten, die meist aus dem späten 19. und frühen 20. Jahrhundert stammen.

Mit einem CER von 5,8% ist es in der Lage, ziemlich genaue Transkriptionen für eine Vielzahl von Dokumenten zu liefern und ist ein ausgezeichneter Ausgangspunkt für das Training Ihres eigenen Modells.

→ Zum Modell gehen

Russische Zivilstandsregister

Dieses interessante Modell wurde von der Stiftung L'Dor V'Dordie jüdische historische Aufzeichnungen aus aller Welt bewahren. Als Grundwahrheiten dienten ihnen handgeschriebene Zivilstandsregister aus Kongresspolen, der Ukraine und Russland aus der Zeit von 1914 bis 1968, aus denen ein Modell mit einer CER von 7,3% entstand.

Das Modell funktioniert besonders gut bei handschriftlichen Aufzeichnungen aus Kongresspolen.

→ Zum Modell gehen

Russische Handschrift Anfang des 20. Jahrhunderts

Dieses Modell ist ideal für die Verwendung mit kyrillischen Vorformulardokumenten. Es wurde von dem russischen Ethnographen und Linguisten Konstantin M. Rychkov an zweisprachigen Evenki/Russischen Manuskripten trainiert, der verschiedene kulturelle Informationen aus der Evenki-Kultur gesammelt und ins Russische übersetzt hat.

Die Grundwahrheit besteht aus 581 Seiten aus dem Rychkov-Archiv, die aus den Jahren 1911-1913 stammen, und hat eine CER von 4,4%. Das Modell wurde ebenfalls von der INEL-Projekt an der Universität Hamburg.

→ Zum Modell gehen

Russischer Druck 18. Jahrhundert (V. Okorokovs Druckerei)

Erstellt am Europäische Universität in St. PetersburgDieses Modell basierte auf einer Reihe wissenschaftlicher Abhandlungen, die von der Druckerei von V. Okorokov an der Staatlichen Universität Moskau veröffentlicht wurden. Die Abhandlungen waren alle auf Russisch gedruckt, wobei einige wissenschaftliche Begriffe in lateinischer Schrift angegeben waren.

Der CER auf dem Validierungsset beträgt nur 0,6% und das Modell zeigt gute Ergebnisse bei gedruckten Texten aus anderen Verlagen der Zeit.

→ Zum Modell gehen

Russischer Druck 18. Jahrhundert

Dieses neuere Druckmodell basiert auf Grundwahrheiten aus einer größeren Anzahl von Verlagen, die im 18. Jahrhundert tätig waren, einschließlich derer der Akademie der Wissenschaften in St. Petersburg und der Kaiserlichen Universität Moskau. Es wurde im Rahmen eines Studentenprojekts an der HSE-Universität.

Mit einem CER von 2,4% liefert es gute Ergebnisse bei russischsprachigen Texten, erkennt aber andere Sprachen, die im Text vorkommen können, nicht.

→ Zum Modell gehen

Wie kann ich ein öffentliches AI-Modell verwenden?

Die Transkriptionen von Transkribus beruhen auf KI-Modellen. Jedes Modell wurde darauf trainiert, eine bestimmte Art von handgeschriebenem oder gedrucktem Text in einer bestimmten Sprache zu lesen, und oft auch eine bestimmte Zeitspanne oder ein bestimmtes Genre.

Wenn Sie ein Dokument mit Transkribus transkribieren möchten, müssen Sie zunächst einen Scan des Dokuments hochladen und dann ein Modell auswählen. Derzeit sind 94 öffentliche Modelle verfügbar, die alle kostenlos genutzt werden können. Transkribus übernimmt die im Modell gespeicherten Informationen und wendet sie auf Ihr Dokument an, so dass eine sofortige Transkription entsteht.

Was aber, wenn es kein Modell gibt, das für den Text in Ihren Dokumenten geeignet ist? Dann haben Sie auch die Möglichkeit, Ihr eigenes zu trainieren. Dazu benötigen Sie eine Reihe von vorbeschriebenen Dokumenten, die als "Ground Truths" bezeichnet werden. Je mehr Ground Truths Sie zum Trainieren Ihres Modells verwenden, desto mehr Informationen wird es enthalten und desto genauer wird es bei der Transkription neuer Dokumente sein. Um Zeit zu sparen, verwenden viele Leute ein öffentliches Modell als Basis für ihr individuelles Modell und stimmen es dann mit weiteren Ground Truths ab.
Weitere Informationen über Modelle und deren Ausbildung finden Sie in unserem Anleitungen.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juli 3, 2024

News, Transkribus

Kartierung der Konzerte von Beethoven und Haydn: das Projekt "Konzertleben in Wien".

Einige Transkribus-Projekte enden mit einer vollständig digitalisierten Sammlung in Transkribus. Andere nehmen diese digitalisierte Quelle und verwenden sie ...

Juni 12, 2024

News, Transkribus

Was ist die karolingische Minuskel?

Wenn man an karolingische (oder karolingische) Minuskeln denkt, kommen einem wahrscheinlich Karl der Große und sein riesiges karolingisches Reich in den Sinn. Während die ...

Mai 14, 2024

Uncategorized

KI-Modelle für das Lesen von kursiven und gedruckten polnischen Texten

Das Verstehen historischer Dokumente ist der Schlüssel zum Verständnis der Geschichte. Das Verstehen historischer Dokumente auf Polnisch kann jedoch eine Herausforderung sein. Nicht nur ...

Cookie	Beschreibung	Dauer
viewed_cookie_policy	Das Cookie wird vom GDPR Cookie Consent Plugin gesetzt und dient dazu, zu speichern, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine persönlichen Daten.	1 Stunde
PHPSESSID	Dieses Cookie ist in PHP-Anwendungen enthalten. Der Cookie wird verwendet, um die eindeutige Sitzungs-ID eines Benutzers zu speichern und zu identifizieren, um die Benutzersitzung auf der Website zu verwalten. Das Cookie ist ein Sitzungscookie und wird gelöscht, wenn alle Browserfenster geschlossen werden.	1 Jahr

Cookie	Beschreibung	Dauer
BESUCHER_INFO1_LIVE	Dieses Cookie wird von Youtube gesetzt. Wird verwendet, um die Informationen der eingebetteten Youtube-Videos auf einer Website zu verfolgen.	5 Monate
IDE	Wird von Google DoubleClick verwendet und speichert Informationen darüber, wie der Nutzer die Website und andere Werbung vor dem Besuch der Website nutzt. Dies wird verwendet, um Nutzern Anzeigen zu präsentieren, die für sie entsprechend dem Nutzerprofil relevant sind.	2 Jahre

Cookie	Beschreibung	Dauer
GPS	Dieses Cookie wird von Youtube gesetzt und registriert eine eindeutige ID für die Nachverfolgung von Benutzern basierend auf ihrem geografischen Standort	30 Minuten
tk_oder	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	5 Jahre
tk_r3d	Das Cookie wird von JetPack installiert. Wird für die internen Metriken für Benutzeraktivitäten verwendet, um die Benutzererfahrung zu verbessern	3 Tage
tk_lr	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	1 Jahr
_ga	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Besucher-, Sitzungs- und Camapign-Daten zu berechnen und die Nutzung der Website für den Analysebericht der Website zu verfolgen. Die Cookies speichern Informationen anonym und weisen eine zufällig generierte Nummer zu, um eindeutige Besucher zu identifizieren.	2 Jahre
_gid	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Informationen darüber zu speichern, wie Besucher eine Website nutzen, und hilft bei der Erstellung eines Analyseberichts darüber, wie sich die Website verhält. Die gesammelten Daten umfassen die Anzahl der Besucher, die Quelle, von der sie kommen, und die besuchten Seiten in anonymer Form.	1 Tag
matomo	Für die statistische Analyse verwenden wir auf dieser Website "Matomo". Dies ist ein Open-Source-Tool für die Webanalyse. Matomo überträgt keine Daten an Server außerhalb der Kontrolle von READ-COOP. Matomo ist deaktiviert, wenn Sie unsere Website besuchen. Nur wenn Sie aktiv zustimmen, wird Ihr Nutzungsverhalten anonymisiert erfasst.	1 Jahr

Cookie	Beschreibung	Dauer
YSC	Dieses Cookie wird von Youtube gesetzt und dient dazu, die Aufrufe von eingebetteten Videos zu verfolgen.	1 Jahr
_gat	Dieses Cookie wird von Google Universal Analytics installiert, um die Abfragerate zu drosseln und so die Datensammlung auf stark frequentierten Seiten zu begrenzen.	1 Minute

5 AI-Modelle für die Transkription alter russischer Handschriften und gedruckter russischer Texte

Russisch Allgemeine Handschrift 2

Russische Zivilstandsregister

Russische Handschrift Anfang des 20. Jahrhunderts

Russischer Druck 18. Jahrhundert (V. Okorokovs Druckerei)

Russischer Druck 18. Jahrhundert

Wie kann ich ein öffentliches AI-Modell verwenden?

Neueste Beiträge

Kartierung der Konzerte von Beethoven und Haydn: das Projekt "Konzertleben in Wien".

Was ist die karolingische Minuskel?

KI-Modelle für das Lesen von kursiven und gedruckten polnischen Texten

Die COOP

Produkte & Dienstleistungen

Nützliche Informationen

Hilfreiche Ressourcen

Community