+ 2017 - ein gutes Jahr für das READ-Projekt!

Jänner 24, 2018
News, Transkribus

Es ist kaum zu glauben, aber wir sind in das dritte Jahr des READ-Projekts eingetreten! Wie die meisten Menschen auf der Welt nutzen wir den Januar als geeigneten Zeitpunkt, um auf einige unserer Errungenschaften des vergangenen Jahres zurückzublicken und darüber nachzudenken, wohin wir uns in den kommenden Monaten bewegen werden.

Forschung

Forschung ist ein integraler Bestandteil des READ-Projekts und unsere Forschungsteams machen es möglich, dass Transkribus Benutzern die Anwendung von maschinellem Lernen, um die automatische Erkennung, Transkription und Suche von historischen Dokumenten zu erreichen. Techniken zur Erkennung von handgeschriebenem Text, Bildverbesserung, Layout-Analyse, Dokumentenverständnis und Schreiberidentifikation werden in READ verfeinert und die Ergebnisse dieser Forschung in den Transkribus Workflow integriert. Um mehr über die Forschung, die der READ-Projekttechnologie zugrunde liegt, zu erfahren, werfen Sie einen Blick auf unsere Ergebnisse (Berichte an die Europäische Kommission) unter den Arbeitspaketen 6 und 7. Wettbewerb ist auch ein wichtiger Teil des Lebens für unsere Informatiker; offizielle Wettbewerbe sind eines der effektivsten Mittel, um die neuesten technologischen Innovationen zu testen und zu verbessern. READ-Forscher sind an der Spitze des Feldes und haben genossen Erfolge bei namhaften Wettbewerben. Das READ-Projekt hat auch gestartet ScriptNeteine neue Plattform, auf der Informatiker an bestehenden Wettbewerben teilnehmen oder eigene Wettbewerbe veranstalten können.

Dienste

Die Transkribus-Plattform ist das Herzstück des READ-Projekts und bietet einen vollständigen und zuverlässigen Workflow für das Training von Handschrift-Erkennungsmodellen und die automatisierte Transkription und Suche von historischen Dokumenten. Die Transkribus-Entwickler an der Universität Innsbruck arbeiten kontinuierlich an der Feinabstimmung des Tools, fügen neue Funktionalitäten hinzu, beheben Bugs und gehen auf Benutzerwünsche ein. Bravo!

Archive, Bibliotheken, einzelne Wissenschaftler und Forschungsteams aus der ganzen Welt haben mit Transkribus zusammengearbeitet, um verschiedene Sammlungen zu erkennen und zu transkribieren, darunter auch anspruchsvolles Material wie mittelalterliche Texte oder arabische Schriften. In den besten Fällen kann Transkribus eine automatisierte Transkription mit einer Zeichenfehlerrate von 5% erstellen (was bedeutet, dass 95% der Zeichen in einer gegebenen Transkription vom Computer korrekt generiert werden würden). Sehen Sie sich unser neuestes Erfolgsgeschichten um mehr über unsere wichtigsten Ergebnisse zu erfahren! Transkribus-Benutzer können nun auf öffentlich verfügbare Modelle zugreifen, die in der Lage sind, Dokumente des 18. bis 19. Jahrhunderts in deutscher oder englischer Sprache mit respektabler Genauigkeit zu transkribieren. Im Jahr 2018 hoffen wir, mehr Modelle öffentlich zugänglich zu machen, damit Benutzer die Technologie einfach an verschiedenen Schriften und Sprachen ausprobieren können.

Zwei aufregende neue Funktionen sind seit kurzem in Transkribus verfügbar - auf der Basis einer Technologie, die von der CITlab Team an der Universität Rostock. Die automatische Layout-Analyse ist jetzt noch genauer, so dass auch komplizierte Seiten wie die untenstehende automatisch und mit hoher Genauigkeit in Zeilen eingeteilt werden können. Keyword Spotting ist ein völlig neues Suchwerkzeug in Transkribus. Dabei handelt es sich um eine ausgefeilte Form der Stichwortsuche, bei der die Technologie Bilder von Schrift analysiert, anstatt die von Menschen oder Computern erstellten Transkriptionen dieser Wörter zu durchsuchen. Dieses Werkzeug hat das Potenzial, die Suche in riesigen, noch nicht transkribierten Dokumentensammlungen zu erleichtern.

In Zeilen segmentiertes Dokument mit preisgekrönter CITlab-Technologie. Cologny, Fondation Martin Bodmer, Cod. Bodmer 28, f. 1r - Lateinische Bibel (verfügbar über e-codices: http://www.e-codices.unifr.ch/en/list/one/fmb/cb-0028) [Bild freigegeben unter CC-BY-NC Lizenz]

Zusätzlich zum Transkribus-Experten-Client baut READ eine Auswahl an neuen Forschungswerkzeugen die die gleiche Technologie nutzen. Die READ-Entwickler haben eine Beta-Version von Transkribus web erstellt, eine Lite-Version von Transkribus, mit der Benutzer Dokumente online transkribieren können. Die Computer Vision Labor an der Technischen Universität Wien haben funktionale Werkzeuge für die Digitalisierung von Dokumenten mit dem Mobiltelefon gebaut. Jetzt verfügbar, DocScan ist eine kostenlose Android-Mobil-App, mit der Sie mit einem Mobiltelefon hochwertige Fotos von Dokumenten aufnehmen können. Das Computer Vision Lab hat auch Protoypen eines ScanTent, ein Gerät, das dazu dient, ein Mobiltelefon über einem Dokument zu halten. Mit DocScan und dem ScanTent werden Anwender in der Lage sein, Dokumente bei Bedarf zu digitalisieren und diese Bilder in Transkribus für die automatisierte Verarbeitung oder weitere Recherche zu nutzen. Ein weiterer Testlauf von ScanTents wird 2018 hergestellt - Sie können Ihr Interesse an der ScanTent Website.

Markus Diem (Computer Vision Lab, Technische Universität Wien) demonstriert das ScanTent der Staatssekretärin von Österreich (Muna Duzdar) und dem Vorstandsmitglied der Gewerkschaft Öffentlicher Dienst Österreich (GÖD) (Dr. Norbert Schnedl).

Wir haben auch neue Websites, um unsere Technologie zu präsentieren, in Form von Transkribus lernen und FamousHands. Erstere ist eine E-Learning-App, mit der Benutzer das Transkribieren von Dokumenten üben und ihre Paläografie-Fähigkeiten verbessern können. Letztere ist eine öffentliche Sammlung von Bildern der Handschrift berühmter Personen (einschließlich Hans Christian Andersen, Nikola Tesla und Diana Prinzessin von Wales). Diese Bilder können als Ausgangspunkt für die Writer-Identifikationstechnologie verwendet werden.

Netzwerk

Die Zusammenarbeit ist einer der lohnendsten Aspekte des READ-Projekts, und wir sind dabei, ein globales Nutzernetzwerk aufzubauen. Mehr als 8000 Menschen haben sich für ein Transkribus-Konto registriert, 64 Institutionen und Projekte haben eine Absichtserklärung mit uns unterzeichnet und 80 hoch engagierte Nutzer kamen beim ersten Transkribus Anwenderkonferenz, die im November 2017 in Wien stattfand. Unsere breite Benutzergruppe liefert uns eine große Vielfalt an Dokumenten, darunter Schwedische Folklore, Italienische Musik, mittelalterliche Urkunden und Universitätsunterlagen. Unsere Algorithmen des maschinellen Lernens werden mit jedem Stück Trainingsdaten, das an unsere Plattform übermittelt wird, gestärkt. Einfach ausgedrückt - je mehr Nutzer, desto besser die Technologie!

Wir fahren fort, das READ-Projekt on- und offline zu verbreiten; bei regelmäßigen Workshops und großen Konferenzen wie der Internationaler Mittelalterlicher Kongress in Leeds und Digital Humanities 2017 (letztes Jahr in Montreal), sowie durch unsere Blog, Wiki-Seite, Twitter-Konto und YouTube-Kanal. Geben Sie uns ein "Like" und ein "Follow", wenn Sie können 🙂 Auch die traditionellen Medien werden langsam auf das READ-Projekt aufmerksam - wir waren kürzlich auf nationales Fernsehen in Finnland und Nationales Radio in Serbien.

Maria Kallio spricht auf dem Internationalen Mittelalterkongress über die Verwendung von Transkribus zur Erstellung einer digitalen Edition von Aufzeichnungen aus einem Brigittinerkloster

In Bezug auf unsere Forschungsergebnisse arbeiten wir daran, dass unsere Projektpublikationen nach Möglichkeit Open Access sind, unsere Forschungswerkzeuge sind Open Source über Github und unsere veröffentlichten Forschungsdaten werden in Zenodo.

Wie geht es weiter?

Unsere Forschungsteams werden weiterhin an der Spitze des Feldes der automatisierten Texterkennung arbeiten. Die Transkribus-Plattform wird gewartet und aktualisiert werden, ebenso wie neue Tools wie das ScanTent und Transkribus Learn. Wir sind gespannt, wie die Technologien des READ-Projekts mit den anspruchsvollen Dokumenten zurechtkommen, die sowohl neue als auch bestehende Nutzer von Transkribus interessieren, und wir sind zuversichtlich, dass unsere Innovationen die Auffindbarkeit und Forschung im großen Stil erleichtern können. Und wir freuen uns darauf, Sie auf der zweiten Transkribus-Anwenderkonferenz zu sehen, die später im Jahr 2018 stattfinden wird - Ankündigung folgt in Kürze!

Möchten Sie mehr erfahren?

Ausführlichere Zusammenfassungen der Arbeit, die READ in diesen verschiedenen Bereichen geleistet hat, finden Sie auf der Seite aktuelle Berichte (Deliverables) die wir bei der Europäischen Kommission eingereicht haben.

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juli 3, 2024

News, Transkribus

Kartierung der Konzerte von Beethoven und Haydn: das Projekt "Konzertleben in Wien".

Einige Transkribus-Projekte enden mit einer vollständig digitalisierten Sammlung in Transkribus. Andere nehmen diese digitalisierte Quelle und verwenden sie ...

Juni 12, 2024

News, Transkribus

Was ist die karolingische Minuskel?

Wenn man an karolingische (oder karolingische) Minuskeln denkt, kommen einem wahrscheinlich Karl der Große und sein riesiges karolingisches Reich in den Sinn. Während die ...

Mai 14, 2024

Uncategorized

KI-Modelle für das Lesen von kursiven und gedruckten polnischen Texten

Das Verstehen historischer Dokumente ist der Schlüssel zum Verständnis der Geschichte. Das Verstehen historischer Dokumente auf Polnisch kann jedoch eine Herausforderung sein. Nicht nur ...

Cookie	Beschreibung	Dauer
viewed_cookie_policy	Das Cookie wird vom GDPR Cookie Consent Plugin gesetzt und dient dazu, zu speichern, ob der Benutzer der Verwendung von Cookies zugestimmt hat oder nicht. Es speichert keine persönlichen Daten.	1 Stunde
PHPSESSID	Dieses Cookie ist in PHP-Anwendungen enthalten. Der Cookie wird verwendet, um die eindeutige Sitzungs-ID eines Benutzers zu speichern und zu identifizieren, um die Benutzersitzung auf der Website zu verwalten. Das Cookie ist ein Sitzungscookie und wird gelöscht, wenn alle Browserfenster geschlossen werden.	1 Jahr

Cookie	Beschreibung	Dauer
BESUCHER_INFO1_LIVE	Dieses Cookie wird von Youtube gesetzt. Wird verwendet, um die Informationen der eingebetteten Youtube-Videos auf einer Website zu verfolgen.	5 Monate
IDE	Wird von Google DoubleClick verwendet und speichert Informationen darüber, wie der Nutzer die Website und andere Werbung vor dem Besuch der Website nutzt. Dies wird verwendet, um Nutzern Anzeigen zu präsentieren, die für sie entsprechend dem Nutzerprofil relevant sind.	2 Jahre

Cookie	Beschreibung	Dauer
GPS	Dieses Cookie wird von Youtube gesetzt und registriert eine eindeutige ID für die Nachverfolgung von Benutzern basierend auf ihrem geografischen Standort	30 Minuten
tk_oder	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	5 Jahre
tk_r3d	Das Cookie wird von JetPack installiert. Wird für die internen Metriken für Benutzeraktivitäten verwendet, um die Benutzererfahrung zu verbessern	3 Tage
tk_lr	Dieses Cookie wird vom JetPack-Plugin auf Websites gesetzt, die WooCommerce verwenden. Dies ist ein Referral-Cookie, das zur Analyse des Referrer-Verhaltens für Jetpack verwendet wird	1 Jahr
_ga	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Besucher-, Sitzungs- und Camapign-Daten zu berechnen und die Nutzung der Website für den Analysebericht der Website zu verfolgen. Die Cookies speichern Informationen anonym und weisen eine zufällig generierte Nummer zu, um eindeutige Besucher zu identifizieren.	2 Jahre
_gid	Dieses Cookie wird von Google Analytics installiert. Das Cookie wird verwendet, um Informationen darüber zu speichern, wie Besucher eine Website nutzen, und hilft bei der Erstellung eines Analyseberichts darüber, wie sich die Website verhält. Die gesammelten Daten umfassen die Anzahl der Besucher, die Quelle, von der sie kommen, und die besuchten Seiten in anonymer Form.	1 Tag
matomo	Für die statistische Analyse verwenden wir auf dieser Website "Matomo". Dies ist ein Open-Source-Tool für die Webanalyse. Matomo überträgt keine Daten an Server außerhalb der Kontrolle von READ-COOP. Matomo ist deaktiviert, wenn Sie unsere Website besuchen. Nur wenn Sie aktiv zustimmen, wird Ihr Nutzungsverhalten anonymisiert erfasst.	1 Jahr

Cookie	Beschreibung	Dauer
YSC	Dieses Cookie wird von Youtube gesetzt und dient dazu, die Aufrufe von eingebetteten Videos zu verfolgen.	1 Jahr
_gat	Dieses Cookie wird von Google Universal Analytics installiert, um die Abfragerate zu drosseln und so die Datensammlung auf stark frequentierten Seiten zu begrenzen.	1 Minute

+ 2017 - ein gutes Jahr für das READ-Projekt!

Neueste Beiträge

Kartierung der Konzerte von Beethoven und Haydn: das Projekt "Konzertleben in Wien".

Was ist die karolingische Minuskel?

KI-Modelle für das Lesen von kursiven und gedruckten polnischen Texten

Die COOP

Produkte & Dienstleistungen

Nützliche Informationen

Hilfreiche Ressourcen

Community