Es ist kaum zu glauben, aber wir sind in das dritte Jahr des READ-Projekts eingetreten! Wie die meisten Menschen auf der Welt nutzen wir den Januar als geeigneten Zeitpunkt, um auf einige unserer Errungenschaften des vergangenen Jahres zurückzublicken und darüber nachzudenken, wohin wir uns in den kommenden Monaten bewegen werden.
Forschung
Forschung ist ein integraler Bestandteil des READ-Projekts und unsere Forschungsteams machen es möglich, dass Transkribus Benutzern die Anwendung von maschinellem Lernen, um die automatische Erkennung, Transkription und Suche von historischen Dokumenten zu erreichen. Techniken zur Erkennung von handgeschriebenem Text, Bildverbesserung, Layout-Analyse, Dokumentenverständnis und Schreiberidentifikation werden in READ verfeinert und die Ergebnisse dieser Forschung in den Transkribus Workflow integriert. Um mehr über die Forschung, die der READ-Projekttechnologie zugrunde liegt, zu erfahren, werfen Sie einen Blick auf unsere Ergebnisse (Berichte an die Europäische Kommission) unter den Arbeitspaketen 6 und 7. Wettbewerb ist auch ein wichtiger Teil des Lebens für unsere Informatiker; offizielle Wettbewerbe sind eines der effektivsten Mittel, um die neuesten technologischen Innovationen zu testen und zu verbessern. READ-Forscher sind an der Spitze des Feldes und haben genossen Erfolge bei namhaften Wettbewerben. Das READ-Projekt hat auch gestartet ScriptNeteine neue Plattform, auf der Informatiker an bestehenden Wettbewerben teilnehmen oder eigene Wettbewerbe veranstalten können.
Dienste
Die Transkribus-Plattform ist das Herzstück des READ-Projekts und bietet einen vollständigen und zuverlässigen Workflow für das Training von Handschrift-Erkennungsmodellen und die automatisierte Transkription und Suche von historischen Dokumenten. Die Transkribus-Entwickler an der Universität Innsbruck arbeiten kontinuierlich an der Feinabstimmung des Tools, fügen neue Funktionalitäten hinzu, beheben Bugs und gehen auf Benutzerwünsche ein. Bravo!
Archive, Bibliotheken, einzelne Wissenschaftler und Forschungsteams aus der ganzen Welt haben mit Transkribus zusammengearbeitet, um verschiedene Sammlungen zu erkennen und zu transkribieren, darunter auch anspruchsvolles Material wie mittelalterliche Texte oder arabische Schriften. In den besten Fällen kann Transkribus eine automatisierte Transkription mit einer Zeichenfehlerrate von 5% erstellen (was bedeutet, dass 95% der Zeichen in einer gegebenen Transkription vom Computer korrekt generiert werden würden). Sehen Sie sich unser neuestes Erfolgsgeschichten um mehr über unsere wichtigsten Ergebnisse zu erfahren! Transkribus-Benutzer können nun auf öffentlich verfügbare Modelle zugreifen, die in der Lage sind, Dokumente des 18. bis 19. Jahrhunderts in deutscher oder englischer Sprache mit respektabler Genauigkeit zu transkribieren. Im Jahr 2018 hoffen wir, mehr Modelle öffentlich zugänglich zu machen, damit Benutzer die Technologie einfach an verschiedenen Schriften und Sprachen ausprobieren können.
Zwei aufregende neue Funktionen sind seit kurzem in Transkribus verfügbar - auf der Basis einer Technologie, die von der CITlab Team an der Universität Rostock. Die automatische Layout-Analyse ist jetzt noch genauer, so dass auch komplizierte Seiten wie die untenstehende automatisch und mit hoher Genauigkeit in Zeilen eingeteilt werden können. Keyword Spotting ist ein völlig neues Suchwerkzeug in Transkribus. Dabei handelt es sich um eine ausgefeilte Form der Stichwortsuche, bei der die Technologie Bilder von Schrift analysiert, anstatt die von Menschen oder Computern erstellten Transkriptionen dieser Wörter zu durchsuchen. Dieses Werkzeug hat das Potenzial, die Suche in riesigen, noch nicht transkribierten Dokumentensammlungen zu erleichtern.
Zusätzlich zum Transkribus-Experten-Client baut READ eine Auswahl an neuen Forschungswerkzeugen die die gleiche Technologie nutzen. Die READ-Entwickler haben eine Beta-Version von Transkribus web erstellt, eine Lite-Version von Transkribus, mit der Benutzer Dokumente online transkribieren können. Die Computer Vision Labor an der Technischen Universität Wien haben funktionale Werkzeuge für die Digitalisierung von Dokumenten mit dem Mobiltelefon gebaut. Jetzt verfügbar, DocScan ist eine kostenlose Android-Mobil-App, mit der Sie mit einem Mobiltelefon hochwertige Fotos von Dokumenten aufnehmen können. Das Computer Vision Lab hat auch Protoypen eines ScanTent, ein Gerät, das dazu dient, ein Mobiltelefon über einem Dokument zu halten. Mit DocScan und dem ScanTent werden Anwender in der Lage sein, Dokumente bei Bedarf zu digitalisieren und diese Bilder in Transkribus für die automatisierte Verarbeitung oder weitere Recherche zu nutzen. Ein weiterer Testlauf von ScanTents wird 2018 hergestellt - Sie können Ihr Interesse an der ScanTent Website.
Wir haben auch neue Websites, um unsere Technologie zu präsentieren, in Form von Transkribus lernen und FamousHands. Erstere ist eine E-Learning-App, mit der Benutzer das Transkribieren von Dokumenten üben und ihre Paläografie-Fähigkeiten verbessern können. Letztere ist eine öffentliche Sammlung von Bildern der Handschrift berühmter Personen (einschließlich Hans Christian Andersen, Nikola Tesla und Diana Prinzessin von Wales). Diese Bilder können als Ausgangspunkt für die Writer-Identifikationstechnologie verwendet werden.
Netzwerk
Die Zusammenarbeit ist einer der lohnendsten Aspekte des READ-Projekts, und wir sind dabei, ein globales Nutzernetzwerk aufzubauen. Mehr als 8000 Menschen haben sich für ein Transkribus-Konto registriert, 64 Institutionen und Projekte haben eine Absichtserklärung mit uns unterzeichnet und 80 hoch engagierte Nutzer kamen beim ersten Transkribus Anwenderkonferenz, die im November 2017 in Wien stattfand. Unsere breite Benutzergruppe liefert uns eine große Vielfalt an Dokumenten, darunter Schwedische Folklore, Italienische Musik, mittelalterliche Urkunden und Universitätsunterlagen. Unsere Algorithmen des maschinellen Lernens werden mit jedem Stück Trainingsdaten, das an unsere Plattform übermittelt wird, gestärkt. Einfach ausgedrückt - je mehr Nutzer, desto besser die Technologie!
Wir fahren fort, das READ-Projekt on- und offline zu verbreiten; bei regelmäßigen Workshops und großen Konferenzen wie der Internationaler Mittelalterlicher Kongress in Leeds und Digital Humanities 2017 (letztes Jahr in Montreal), sowie durch unsere Blog, Wiki-Seite, Twitter-Konto und YouTube-Kanal. Geben Sie uns ein "Like" und ein "Follow", wenn Sie können 🙂 Auch die traditionellen Medien werden langsam auf das READ-Projekt aufmerksam - wir waren kürzlich auf nationales Fernsehen in Finnland und Nationales Radio in Serbien.
In Bezug auf unsere Forschungsergebnisse arbeiten wir daran, dass unsere Projektpublikationen nach Möglichkeit Open Access sind, unsere Forschungswerkzeuge sind Open Source über Github und unsere veröffentlichten Forschungsdaten werden in Zenodo.
Wie geht es weiter?
Unsere Forschungsteams werden weiterhin an der Spitze des Feldes der automatisierten Texterkennung arbeiten. Die Transkribus-Plattform wird gewartet und aktualisiert werden, ebenso wie neue Tools wie das ScanTent und Transkribus Learn. Wir sind gespannt, wie die Technologien des READ-Projekts mit den anspruchsvollen Dokumenten zurechtkommen, die sowohl neue als auch bestehende Nutzer von Transkribus interessieren, und wir sind zuversichtlich, dass unsere Innovationen die Auffindbarkeit und Forschung im großen Stil erleichtern können. Und wir freuen uns darauf, Sie auf der zweiten Transkribus-Anwenderkonferenz zu sehen, die später im Jahr 2018 stattfinden wird - Ankündigung folgt in Kürze!
Möchten Sie mehr erfahren?
Ausführlichere Zusammenfassungen der Arbeit, die READ in diesen verschiedenen Bereichen geleistet hat, finden Sie auf der Seite aktuelle Berichte (Deliverables) die wir bei der Europäischen Kommission eingereicht haben.