Künstliche Intelligenz

Kann KI schlechte Scans retten?

Felix Dietrich
Vor 5 Monaten

Der Ausgangspunkt für jede Art der Dokumentendigitalisierung, ob von Hand oder durch ausgefeilte Texterkennungsalgorithmen, ist ein Bild von guter Qualität. Werfen Sie einen Blick auf das untenstehende Bild. Es ist ein Scan der amerikanischen Unabhängigkeitserklärung - aber nicht des Originals. Das echte hat schwer gelitten aufgrund unsachgemäßer Lagerung und bleibt bis heute ziemlich verwaschen. Das unten abgebildete Faksimile wurde 1823 von William Stone erstellt und ist die am häufigsten verwendete Kopie der Erklärung. Sie ist eigentlich ein Rätsel wie Stone es geschafft hat, einen so präzisen Klon des Original-Pergaments zu erstellen, aber dank ihm haben wir noch eine gut lesbare Version dieses historischen Dokuments.

Quelle: Wikipedia

Unten sehen Sie einen kleinen, niedrig aufgelösten Ausschnitt des Haupttextes. Ein Mensch könnte die meisten Buchstaben dank des Kontexts immer noch identifizieren, aber es wäre eine mühsame Aufgabe für einen unbekannten Text und wir können uns vorstellen, dass die HTR-Algorithmen mit dieser Art von Eingabe auch nicht sehr glücklich sein werden, sobald die Auflösung zu niedrig wird. Dies wirft ein paar Fragen auf: Was ist, wenn das Originalpapier verloren geht oder degradiert ist und nur ein digitaler Scan in schlechter Qualität übrig bleibt? Oder was ist, wenn man bereits zehntausend Seiten gescannt hat, nur um festzustellen, dass der Text auf einigen von ihnen so klein ist, dass die Auflösung nicht mehr ausreicht? Müssen wir dann alles noch einmal scannen und unsere ohnehin schon strapazierten Speicherbudgets aufstocken? Vielleicht nicht.

Es gibt mehrere klassische Techniken, um ein solches Pixeldurcheinander zu verbessern. Die grundlegende Aufgabe besteht immer darin, weitere Pixel zwischen den vorhandenen Pixeln hinzuzufügen, aber die Frage ist, wie man diese neuen Pixel auswählt. Die Nearest-Neighbour-Methode nimmt einfach das nächstgelegene Originalpixel und kopiert es. Die bilineare Interpolation berechnet die Änderung zwischen benachbarten Pixeln und wählt dann einen geeigneten Zwischenwert, der die Position des neuen Pixels angibt. Die bikubische Interpolation geht noch einen Schritt weiter, indem sie eine nichtlineare Funktion verwendet, um einen geeigneten Wert zu ermitteln. Leider leiden alle diese Methoden unter einem grundlegenden Mangel: Sie können nicht hinzufügen neue Informationen zu einem Bild. Wo sich ein Mensch dank des umgebenden Kontexts vielleicht eine scharfe Linie oder eine geschlossene Schleife vorstellen kann, folgen diese klassischen Techniken nur vergleichsweise einfachen Regeln. Hier können künstliche neuronale Netze Abhilfe schaffen.

Vergleichen Sie selbst die Interpolationstechniken:

Letztes Jahr hat NVIDIA eine aktualisierte Version seines Deep-Learning-Supersampling-Algorithmus, kurz DLSS, veröffentlicht. Es hat sich herausgestellt, dass Deep-Learning-Modelle mittlerweile so gut darin sind, Bilder zu verbessern, dass sie zur Verbesserung der Leistung von Echtzeitanwendungen eingesetzt werden können. Es stellt sich heraus, dass das Rendern von Frames mit niedrigerer Auflösung und das anschließende Durchlaufen eines neuronalen Netzwerks schneller ist als das Rendern mit hoher Auflösung, während es fast zu keiner wahrnehmbaren Verringerung der Bildqualität führt.

Bild von NVIDIA

Leider hat der Prozess der Hochskalierung von Echtzeit-Computergrafiken gewisse Vorteile. Zum Beispiel hat man in der Regel mehrere Bilder in einer Sequenz, aus denen man zusätzliche Informationen extrahieren kann, die in Einzelbildern verloren gehen können. Man kann auch zusätzliche Informationen verwenden, die von der Rendering-Engine zur Verfügung gestellt werden, wie Bewegungsvektoren oder sogar Objektschablonen. Wenn wir mit gescannten Seiten alter Dokumente arbeiten, haben wir nichts von alledem. Wir haben nur ein Bild, und wir müssen uns jede Art von Zusatzinformationen "einbilden". Glücklicherweise ist dies ein Bereich wo sich AI hervorgetan hat auch. Dieser spezielle Teilbereich hat sich mit so genannten Generative Adversarial Networks, und obwohl sie noch nicht wirklich in Produktionsumgebungen eingesetzt werden, zeigen sie bemerkenswertes Potenzial. Sie arbeiten mit zwei separaten neuronalen Netzwerken: Einen Generator und einen Diskriminator. Im häufigsten Anwendungsfall erzeugt der Generator neue Bilder, während der Diskriminator versucht, gefälschte Bilder unter den echten aus einem gegebenen Trainingsdatensatz zu erkennen. Der Trainingsprozess ist ein Nullsummenspiel, bei dem ein Netzwerk besser darin wird, Bilder zu fälschen, während das andere besser darin wird, Fälschungen zu erkennen. Wenn sie lange genug trainiert werden, können GANs nachweislich folgende Ergebnisse erzielen fotorealistische Ergebnisse. Wenn wir völlig neue Bilder erstellen möchten, würden wir im Wesentlichen Zufallsdaten als Eingaben in den Generator einspeisen. Das ist für Künstler oder Content-Ersteller sehr interessant, aber wir wollen eigentlich die vorhanden Bilder. Dazu benötigen wir einen leicht modifizierten Aufbau, für den wir uns die in diesem Beitrag beschriebene Architektur genauer angeschaut haben: Fotorealistische Einzelbild-Super-Resolution mit einem generativen Adversarial-Netz. Die Details sind ein bisschen zu kompliziert für diesen Beitrag, aber die Ergebnisse sprechen für sich selbst.

Eine besonders interessante Eigenschaft dieses Modells ist, dass es nie auf handschriftlichem Text trainiert wurde. Es wurde trainiert auf den DIV2k-Datensatzdie eine Vielzahl von hochauflösenden Farbbildern enthält, die alle Arten von Objekten und Landschaften zeigen - aber keine Textbilder. 

Wir gehen davon aus, dass diese Technologie in Zukunft, mit spezifischerem Training, nicht nur die Lesbarkeit für Menschen, sondern auch für HTR-Modelle verbessern und vielleicht sogar den Speicher- oder Bandbreitenbedarf reduzieren könnte. Bleiben Sie dran für zukünftige Updates und weitere Einblicke in unsere Technologieentwicklung auf readcoop.eu/einblicke.

Teilen Sie diesen Artikel:
Teilen auf twitter
Teilen auf linkedin
Teilen auf facebook

Starten Sie mit Transkribus

Machen Sie Ihre historischen Dokumente zugänglich