Kann KI schlechte Scans retten?

Der Ausgangspunkt für jede Art der Dokumentendigitalisierung, ob von Hand oder durch ausgefeilte Texterkennungsalgorithmen, ist ein Bild von guter Qualität. Werfen Sie einen Blick auf das untenstehende Bild. Es ist ein Scan der amerikanischen Unabhängigkeitserklärung - aber nicht des Originals. Das echte hat schwer gelitten aufgrund unsachgemäßer Lagerung und bleibt bis heute ziemlich verwaschen. Das unten abgebildete Faksimile wurde 1823 von William Stone erstellt und ist die am häufigsten verwendete Kopie der Erklärung. Sie ist eigentlich ein Rätsel wie Stone es geschafft hat, einen so präzisen Klon des Original-Pergaments zu erstellen, aber dank ihm haben wir noch eine gut lesbare Version dieses historischen Dokuments.

Quelle: Wikipedia

Unten sehen Sie einen kleinen, niedrig aufgelösten Ausschnitt des Haupttextes. Ein Mensch könnte die meisten Buchstaben dank des Kontexts immer noch identifizieren, aber es wäre eine mühsame Aufgabe für einen unbekannten Text und wir können uns vorstellen, dass die HTR-Algorithmen mit dieser Art von Eingabe auch nicht sehr glücklich sein werden, sobald die Auflösung zu niedrig wird. Dies wirft ein paar Fragen auf: Was ist, wenn das Originalpapier verloren geht oder degradiert ist und nur ein digitaler Scan in schlechter Qualität übrig bleibt? Oder was ist, wenn man bereits zehntausend Seiten gescannt hat, nur um festzustellen, dass der Text auf einigen von ihnen so klein ist, dass die Auflösung nicht mehr ausreicht? Müssen wir dann alles noch einmal scannen und unsere ohnehin schon strapazierten Speicherbudgets aufstocken? Vielleicht nicht.

Es gibt mehrere klassische Techniken, um ein solches Pixeldurcheinander zu verbessern. Die grundlegende Aufgabe besteht immer darin, weitere Pixel zwischen den vorhandenen Pixeln hinzuzufügen, aber die Frage ist, wie man diese neuen Pixel auswählt. Die Nearest-Neighbour-Methode nimmt einfach das nächstgelegene Originalpixel und kopiert es. Die bilineare Interpolation berechnet die Änderung zwischen benachbarten Pixeln und wählt dann einen geeigneten Zwischenwert, der die Position des neuen Pixels angibt. Die bikubische Interpolation geht noch einen Schritt weiter, indem sie eine nichtlineare Funktion verwendet, um einen geeigneten Wert zu ermitteln. Leider leiden alle diese Methoden unter einem grundlegenden Mangel: Sie können nicht hinzufügen neue Informationen zu einem Bild. Wo sich ein Mensch dank des umgebenden Kontexts vielleicht eine scharfe Linie oder eine geschlossene Schleife vorstellen kann, folgen diese klassischen Techniken nur vergleichsweise einfachen Regeln. Hier können künstliche neuronale Netze Abhilfe schaffen.

Vergleichen Sie selbst die Interpolationstechniken:

Low-Res-Eingang

Nächstgelegene

Bilinear

Bikubisch

Low-Res-Eingang

Nächstgelegene

Bilinear

Bikubisch

Letztes Jahr hat NVIDIA eine aktualisierte Version seines Deep-Learning-Supersampling-Algorithmus, kurz DLSS, veröffentlicht. Es hat sich herausgestellt, dass Deep-Learning-Modelle mittlerweile so gut darin sind, Bilder zu verbessern, dass sie zur Verbesserung der Leistung von Echtzeitanwendungen eingesetzt werden können. Es stellt sich heraus, dass das Rendern von Frames mit niedrigerer Auflösung und das anschließende Durchlaufen eines neuronalen Netzwerks schneller ist als das Rendern mit hoher Auflösung, während es fast zu keiner wahrnehmbaren Verringerung der Bildqualität führt.

Bild von NVIDIA

Leider hat der Prozess der Hochskalierung von Echtzeit-Computergrafiken gewisse Vorteile. Zum Beispiel hat man in der Regel mehrere Bilder in einer Sequenz, aus denen man zusätzliche Informationen extrahieren kann, die in Einzelbildern verloren gehen können. Man kann auch zusätzliche Informationen verwenden, die von der Rendering-Engine zur Verfügung gestellt werden, wie Bewegungsvektoren oder sogar Objektschablonen. Wenn wir mit gescannten Seiten alter Dokumente arbeiten, haben wir nichts von alledem. Wir haben nur ein Bild, und wir müssen uns jede Art von Zusatzinformationen "einbilden". Glücklicherweise ist dies ein Bereich wo sich AI hervorgetan hat auch. Dieser spezielle Teilbereich hat sich mit so genannten Generative Adversarial Networks, und obwohl sie noch nicht wirklich in Produktionsumgebungen eingesetzt werden, zeigen sie bemerkenswertes Potenzial. Sie arbeiten mit zwei separaten neuronalen Netzwerken: Einen Generator und einen Diskriminator. Im häufigsten Anwendungsfall erzeugt der Generator neue Bilder, während der Diskriminator versucht, gefälschte Bilder unter den echten aus einem gegebenen Trainingsdatensatz zu erkennen. Der Trainingsprozess ist ein Nullsummenspiel, bei dem ein Netzwerk besser darin wird, Bilder zu fälschen, während das andere besser darin wird, Fälschungen zu erkennen. Wenn sie lange genug trainiert werden, können GANs nachweislich folgende Ergebnisse erzielen fotorealistische Ergebnisse. Wenn wir völlig neue Bilder erstellen möchten, würden wir im Wesentlichen Zufallsdaten als Eingaben in den Generator einspeisen. Das ist für Künstler oder Content-Ersteller sehr interessant, aber wir wollen eigentlich die vorhanden Bilder. Dazu benötigen wir einen leicht modifizierten Aufbau, für den wir uns die in diesem Beitrag beschriebene Architektur genauer angeschaut haben: Fotorealistische Einzelbild-Super-Resolution mit einem generativen Adversarial-Netz. Die Details sind ein bisschen zu kompliziert für diesen Beitrag, aber die Ergebnisse sprechen für sich selbst.

Low-Res-Eingang

Bikubisch

AI-Upscale

Hochauflösendes Original

Low-Res-Eingang

Bikubisch

AI-Upscale

Hochauflösendes Original

Eine besonders interessante Eigenschaft dieses Modells ist, dass es nie auf handschriftlichem Text trainiert wurde. Es wurde trainiert auf den DIV2k-Datensatzdie eine Vielzahl von hochauflösenden Farbbildern enthält, die alle Arten von Objekten und Landschaften zeigen - aber keine Textbilder.

Wir gehen davon aus, dass diese Technologie in Zukunft, mit spezifischerem Training, nicht nur die Lesbarkeit für Menschen, sondern auch für HTR-Modelle verbessern und vielleicht sogar den Speicher- oder Bandbreitenbedarf reduzieren könnte. Bleiben Sie dran für zukünftige Updates und weitere Einblicke in unsere Technologieentwicklung auf readcoop.eu/einblicke.

Cookie	Beschreibung	Dauer
viewed_cookie_policy	Das Cookie wird vom GDPR Cookie Consent Plugin gesetzt und dient dazu, zu speichern, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine persönlichen Daten.	1 Stunde
PHPSESSID	Dieses Cookie ist in PHP-Anwendungen enthalten. Der Cookie wird verwendet, um die eindeutige Sitzungs-ID eines Benutzers zu speichern und zu identifizieren, um die Benutzersitzung auf der Website zu verwalten. Das Cookie ist ein Sitzungscookie und wird gelöscht, wenn alle Browserfenster geschlossen werden.	1 Jahr

Cookie	Beschreibung	Dauer
BESUCHER_INFO1_LIVE	Dieses Cookie wird von Youtube gesetzt. Wird verwendet, um die Informationen der eingebetteten Youtube-Videos auf einer Website zu verfolgen.	5 Monate
IDE	Wird von Google DoubleClick verwendet und speichert Informationen darüber, wie der Nutzer die Website und andere Werbung vor dem Besuch der Website nutzt. Dies wird verwendet, um Nutzern Anzeigen zu präsentieren, die für sie entsprechend dem Nutzerprofil relevant sind.	2 Jahre

Cookie	Beschreibung	Dauer
GPS	Dieses Cookie wird von Youtube gesetzt und registriert eine eindeutige ID für die Nachverfolgung von Benutzern basierend auf ihrem geografischen Standort	30 Minuten
tk_oder	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	5 Jahre
tk_r3d	Das Cookie wird von JetPack installiert. Wird für die internen Metriken für Benutzeraktivitäten verwendet, um die Benutzererfahrung zu verbessern	3 Tage
tk_lr	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	1 Jahr
_ga	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Besucher-, Sitzungs- und Camapign-Daten zu berechnen und die Nutzung der Website für den Analysebericht der Website zu verfolgen. Die Cookies speichern Informationen anonym und weisen eine zufällig generierte Nummer zu, um eindeutige Besucher zu identifizieren.	2 Jahre
_gid	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Informationen darüber zu speichern, wie Besucher eine Website nutzen, und hilft bei der Erstellung eines Analyseberichts darüber, wie sich die Website verhält. Die gesammelten Daten umfassen die Anzahl der Besucher, die Quelle, von der sie kommen, und die besuchten Seiten in anonymer Form.	1 Tag
matomo	Für die statistische Analyse verwenden wir auf dieser Website "Matomo". Dies ist ein Open-Source-Tool für die Webanalyse. Matomo überträgt keine Daten an Server außerhalb der Kontrolle von READ-COOP. Matomo ist deaktiviert, wenn Sie unsere Website besuchen. Nur wenn Sie aktiv zustimmen, wird Ihr Nutzungsverhalten anonymisiert erfasst.	1 Jahr

Cookie	Beschreibung	Dauer
YSC	Dieses Cookie wird von Youtube gesetzt und dient dazu, die Aufrufe von eingebetteten Videos zu verfolgen.	1 Jahr
_gat	Dieses Cookie wird von Google Universal Analytics installiert, um die Abfragerate zu drosseln und so die Datensammlung auf stark frequentierten Seiten zu begrenzen.	1 Minute

Kann KI schlechte Scans retten?

Starten Sie mit Transkribus

Machen Sie Ihre historischen Dokumente zugänglich

Die COOP

Produkte & Dienstleistungen

Nützliche Informationen

Hilfreiche Ressourcen

Community