Wenn man an ein Archiv denkt, denkt man vielleicht an alte, staubige Keller voller ungeordneter Papierkisten. Doch im technologischen Zeitalter kommt den Archiven eine neue Rolle zu. Es handelt sich nicht mehr nur um physische Sammlungen von Papieren, Manuskripten oder physischen Medien wie Fotos oder Kunstwerken. Stattdessen werden Archive zu vollständig durchsuchbaren digitalen Sammlungen, die es Forschern und der Öffentlichkeit erleichtern, von überall und jederzeit auf historische Aufzeichnungen und Gegenstände zuzugreifen.
Die Digitalisierung eines Archivs auf diese Weise ist jedoch eine Herausforderung. Ein großes nationales Archiv kann Millionen von Textseiten enthalten, die alle transkribiert werden müssen, um digitale Versionen zu erstellen. Früher geschah dies von Hand - jedes einzelne Wort des Dokuments wurde von einem Menschen in ein Computerprogramm eingetippt. Wie Sie sich vorstellen können, ist diese Art der Transkription sehr zeitaufwändig, und es würde buchstäblich Jahrzehnte dauern, die Millionen von Archivalien in einem großen Archiv zu transkribieren.
Hier kommt Transkribus ins Spiel. Transkribus ist eine KI-gestützte Plattform, die mithilfe von maschinellem Lernen lernt, eine bestimmte Art von Handschrift zu lesen, unabhängig davon, in welcher Sprache der Text verfasst ist oder wann er geschrieben wurde. Sobald die Plattform die Handschrift hinreichend erkennen kann, ist sie in der Lage, Tausende von Seiten auf Knopfdruck zu transkribieren.
In diesem Beitrag möchten wir Ihnen einen Überblick über die verschiedenen Arten von Archivalien geben, die mit Transkribus transkribiert werden können. Sie erfahren, wie Sie Materialien mit der Plattform bearbeiten können und es gibt auch Beispiele von Archiven, die ihre Bestände erfolgreich mit Transkribus digitalisiert und fit für die Zukunft gemacht haben.
Archive beherbergen viele verschiedene Arten von schriftlichem Material. © Tatakdh / Wikimedia Commons / CC BY-SA 4.0
Was sind Archivalien?
Es gibt viele verschiedene Arten von Archivmaterial, aber sie haben alle eines gemeinsam: Sie sind alle Primärquellen. Das bedeutet, dass sie zu der Zeit geschrieben wurden, als ein bestimmtes historisches Ereignis stattfand, normalerweise von jemandem, der dabei war. Aus diesem Grund sind Archivalien für die historische Forschung besonders nützlich, und die meisten Objekte in einem Archiv können als wissenschaftliche Quellen verwendet werden. Einige der wichtigsten Arten von Archivmaterial sind:
Manuskripte: Dabei handelt es sich um jede Art von Material, das mit der Hand geschrieben wurde ("manu scripti" ist lateinisch für "handgeschrieben"). Die ältesten heute noch erhaltenen Manuskripte sind Tausende von Jahren alt und äußerst empfindlich. Der Umgang mit Archivmaterial wie alten Manuskripten ist eine heikle Aufgabe. Die Erstellung digitaler Versionen ermöglicht es daher jedem, auf den Inhalt zuzugreifen, ohne das Manuskript zu beschädigen.
Archivalien: Dies sind Dokumente, die von Einzelpersonen oder Organisationen verfasst wurden, um Ereignisse wie Geburten, Todesfälle, Versammlungen, Finanzen und vieles mehr schriftlich festzuhalten. Gemäß dem SAA-GlossarDer Begriff "Archivalien" bezeichnet in der Regel unveröffentlichte Dokumente und nicht veröffentlichte Artefakte wie Bücher.
Briefe, Tagebücher und persönliche Unterlagen: Diese sehr wichtigen Materialien geben einen Einblick in das Leben der Menschen, die sie geschrieben haben, und in die Welt, in der sie zu dieser Zeit lebten. Sie sind besonders nützlich, wenn man eine einzelne Person oder eine kleine Gruppe untersucht.
Die Organisation von Archivgut ist mehr als nur das Verfassen einer Beschreibung und das Einordnen in das richtige Regal. Jedes Objekt wird nach mehreren "Elementen" klassifiziert, die in die archivische Beschreibung aufgenommen werden. Dazu gehören intellektuelle Elemente wie der Name, das Datum und die Art des Materials, physische Elemente wie die Anzahl der Seiten oder der Standort und das Element Medienvorkommen, das den Medientyp, die Farbe, die Abmessungen, die Stückzahl und die Anzahl der Reproduktionen umfasst. Diese Elemente des Archivmaterials erleichtern es dem Benutzer, ein bestimmtes Material zu finden und seinen Kontext sofort zu verstehen.
Mit dem ScanTent lassen sich hochwertige Scans von Archivmaterial erstellen. © Transkribus
Eine schrittweise Anleitung zur Digitalisierung von Archivgut mit Transkribus
Transkribus ist eine KI-gestützte Plattform, die handschriftlichen oder gedruckten Text in digitale Transkriptionen umwandelt. Sie wird in vielen verschiedenen Archiven auf der ganzen Welt eingesetzt, um Materialien in einem Bruchteil der Zeit zu transkribieren, die ein Mensch benötigen würde. So können ganze Sammlungen schnell digitalisiert und für jedermann zugänglich gemacht werden.
Nachfolgend finden Sie einen kurzen Überblick über die Transkription von Materialien mit Transkribus. Weitere Details finden Sie in unserem Hilfe-Centerdie ausführliche Informationen zu den einzelnen Schritten des Verfahrens enthält.
Schritt 1: Erstellen von Bildern des Archivmaterials
Um Transkribus nutzen zu können, benötigen Sie qualitativ hochwertige Bilder oder Scans der Dokumente, die Sie transkribieren möchten. Diese sollten im JPEG-, PNG- oder PDF-Format vorliegen.
Sie können Bilder mit jeder Art von ausgefeilter Scantechnologie oder einfach mit Ihrem Smartphone erstellen. Für die zweite Option empfehlen wir ein Gerät wie das ScanTent, um eine optimale Beleuchtung und Bildqualität zu gewährleisten.
Schritt 2: Anmeldung bei Transkribus
Bevor Sie in Transkribus transkribieren können, müssen Sie zunächst ein Konto anlegen. Gehen Sie zu app.transkribus.eu klicken Sie auf "Kostenlos anmelden" und folgen Sie den Anweisungen. Erfahren Sie mehr über Registrierung und Anmeldung in unserem Hilfe-Center.
Schritt 3: Hochladen Ihrer Bilder
Bilder werden auf Transkribus in "Sammlungen" gespeichert. Sie können die Sammlungen nach Belieben organisieren. Eine Sammlung kann zum Beispiel alle Scans eines bestimmten Buches oder einer physischen Sammlung enthalten.
Starten Sie Ihre Sammlung, indem Sie auf "Werkzeuge" und dann auf "Sammlung erstellen" klicken. Sobald die Sammlung erstellt ist, wählen Sie sie auf Ihrem Workdesk aus und klicken dann in der linken Symbolleiste auf "Hochladen". Sie können dann die Dokumente auswählen, die Sie hochladen möchten.
Ihre Bilder und Daten werden auf den Servern von READ-COOP SCE, die sich alle in Innsbruck, Österreich, befinden, in einer GDPR-konformen Weise gespeichert und können in Übereinstimmung mit unserer Bedingungen und Konditionen. Wenn Daten Ihre Infrastruktur aus Datenschutzgründen nicht verlassen dürfen, sollten Sie unsere On-Prem-Lösung (https://readcoop.eu/transkribus/on-prem/).
Erfahren Sie mehr über Erstellen von Sammlungen und Hochladen von Dokumenten in unserem Hilfe-Center.
Schritt 4: Erstellen einer automatischen Transkription
Öffnen Sie Ihre Sammlung und wählen Sie ein bestimmtes Bild aus. Klicken Sie auf "Automatische Transkription starten", um den Transkriptionsprozess zu beginnen.
Anschließend müssen Sie ein Modell auswählen. Dabei handelt es sich um einen Code, der alle Informationen enthält, die Transkribus für die genaue Transkription des Textes benötigt. Es gibt über 100 öffentliche Modelle, die verschiedene Sprachen und Zeiträume abdecken. Wählen Sie das für Ihr Material am besten geeignete aus und klicken Sie auf "Start".
Sobald die Verarbeitung abgeschlossen ist, wird die automatische Transkription auf der rechten Seite des Bildschirms angezeigt. Erfahren Sie mehr über automatische Transkription von Dokumenten in unserem Hilfe-Center.
Transkribus kann automatische Transkriptionen von beliebigen historischen Dokumenten erstellen. © Transkribus
Wie Sie die Genauigkeit und Effizienz Ihrer Transkriptionen verbessern können
Öffentliche Modelle wie die oben beschriebenen sind darauf trainiert, ein breites Spektrum an Archivmaterial mit angemessener Genauigkeit zu transkribieren. Wenn Sie jedoch die Genauigkeit oder Effizienz Ihrer Transkriptionen verbessern möchten, finden Sie hier ein paar Tipps.
Überprüfen Sie die Qualität Ihrer Scans
Je besser die Qualität Ihrer Scans ist, desto besser werden die automatischen Transkriptionen sein. Daher ist es sinnvoll, zu prüfen, ob der gesamte Text auf Ihren Scans gut lesbar ist - wie bereits erwähnt, ist eine gute Beleuchtung bei der Aufnahme der Bilder sehr hilfreich. Außerdem sollten Sie darauf achten, dass keine Markierungen oder sonstiges "Rauschen" vorhanden ist, das die Verarbeitung durch Transkribus beeinträchtigen könnte.
Überprüfen Sie schließlich, ob alle Scans in der richtigen Ausrichtung (Hoch- oder Querformat) hochgeladen wurden, da dies auch Auswirkungen auf die Layouterkennung hat. Drehen Sie fehlerhafte Scans in ihre ursprüngliche Ausrichtung zurück und laden Sie sie erneut in Transkribus hoch.
Verbessern Sie die Layout-Erkennung
Bevor der Text erkannt werden kann, muss Transkribus zunächst wissen, wo auf der Seite sich der Text befindet. Dies geschieht mit Hilfe der Layout-Erkennung. Dabei wird analysiert, welche Teile des Dokuments Text enthalten, und jede einzelne Zeile wird sichtbar markiert. Diese Textzeilen werden dann von der Plattform erkannt.
Das bedeutet aber auch, dass bei einer fehlerhaften Layout-Erkennung auch der Text falsch transkribiert wird. Fehler in der Layout-Erkennung müssen daher manuell korrigiert werden, um eine korrekte Transkription zu gewährleisten. Wenn Sie ein Material haben, das auf einer Tabelle basiert - zum Beispiel ein Geburtenregister - dann können Sie dieses auch separat in Transkribus programmieren, damit die Plattform die Zeilen und Spalten richtig erkennt.
Erfahren Sie mehr über manuelle Layout-Erkennung und Tabellen in unserem Hilfe-Center.
Gute Layout-Erkennung führt zu guter Texterkennung. © Transkribus
Trainieren eines benutzerdefinierten Modells
Transkribus stellt nicht nur öffentliche Modelle zur Verfügung, sondern ermöglicht es Ihnen auch, individuelle Modelle zu trainieren. Das sind Modelle, die auf Ihr individuelles Material zugeschnitten sind, was zu genaueren Transkriptionen führt.
Um ein benutzerdefiniertes Modell zu trainieren, müssen Sie zunächst etwa 5.000-15.000 Wörter manuell transkribieren, je nach Komplexität der Handschrift. Anhand dieses transkribierten Materials lernt Transkribus dann, die Handschrift zu lesen, und erstellt ein Modell, um ähnliche Texte in Zukunft erkennen zu können.
Viele Archive trainieren benutzerdefinierte Modelle, um eine bestimmte Art von Beständen zu erkennen, z. B. Ratsakten aus einem bestimmten Zeitraum oder notarielle Urkunden, die von einer ausgewählten Gruppe von Notaren verfasst wurden. Auf diese Weise können die Sammlungen viel genauer transkribiert werden, so dass weniger Nachbearbeitung erforderlich ist. Erfahren Sie mehr über Ausbildungsmodelle in unserem Hilfe-Center.
3 Archive, die ihre Bestände erfolgreich mit Transkribus digitalisiert haben
Archive auf der ganzen Welt haben Transkribus genutzt, um viele verschiedene Arten von Materialien zu transkribieren und digitale Versionen von ihnen zu erstellen. Weitere Informationen über einige unserer erfolgreichsten Archivierungsprojekte finden Sie in den folgenden Blogartikeln.
Transkribieren von 3 Millionen Scans im Nationalarchiv der Niederlande
Das Nationalarchiv der Niederlande beherbergt buchstäblich Millionen von Seiten gedruckten und handschriftlichen Materials. Im Rahmen seiner Digitalisierungsstrategie nutzte das Archiv Transkribus für die Transkription von 3 Millionen Seiten an Aufzeichnungen und notariellen Urkunden aus dem 17. bis 19. Jahrhundert zu transkribieren. Das von ihnen geschulte Modell ist nun auch als öffentliches Modell für alle zugänglich. Erfahren Sie mehr über das Projekt hier erläutert.
Erstellung einer digitalen wissenschaftlichen Ausgabe der Lovelace-Papiere
Die Lovelace-Papiere, die in der Bodleian Library in Oxford aufbewahrt werden, sind die privaten Briefe und Notizen der Mathematikerin Ada Lovelace aus dem 19. Jahrhundert. Insgesamt gibt es rund 14 000 Seiten, die die Forscherin Jessica Cook verwendet, um ein individuelles Modell zu trainieren, das auf die Handschrift von Lovelace sowie auf die Handschrift anderer Personen, wie ihres Ehemanns und ihrer Mutter, zugeschnitten ist. Erfahren Sie mehr über das Projekt hier erläutert.
Wie das Staatsarchiv Zürich 50'000 Seiten online veröffentlichte
Das Staatsarchiv Zürich ist eine Fundgrube für historische Informationen über die Schweizer Stadt. Der physische Zugang zu den vormodernen Beständen des Archivs stellte jedoch eine Herausforderung dar, so dass das Archiv eine digitale Version erstellte, auf die einfach online zugegriffen werden konnte. Dank eines präzisen Modells konnte das Team in nur drei Jahren 50.000 Seiten Ratsprotokolle transkribieren und veröffentlichen. Erfahren Sie mehr über das Projekt hier erläutert.
Probieren Sie Transkribus selbst aus
Transkribus ist eine KI-gestützte Plattform, die handgeschriebenen Text auf Knopfdruck transkribiert.
Sie können die Vollversion von Transkribus testen unter app.transkribus.eu oder testen Sie unsere Demoversion unten.