von Annemieke Romein, Universität Gent
(Niederländische Sprachversion unten)
Während der gesamten Frühen Neuzeit wurde viel in niederländischer Sprache geschrieben, nicht nur in den Niederländern, sondern auch in den ehemaligen Kolonien, bei bestimmten religiösen Gruppen innerhalb Nordamerikas und in den Hansestädten. Eine frühneuzeitliche gotische Schrift war weit verbreitet, obwohl sie je nach Kontext, Ziel und Art einige Varianten aufwies. Erste Experimente mit Dokumenten aus Belgien (Gent, in Flandern) haben gezeigt, dass die niederländische Sprache von Handwritten Text Recognition (HTR)-Modellen mit einer guten Genauigkeit erkannt werden kann.
Der nächste Schritt besteht darin, verschiedene Beispiele frühneuzeitlicher niederländischer Texte zu kombinieren, um generische Modelle für die Erkennung verschiedener Dokumenttypen zu erstellen und zu verbessern. Dr. Annemieke Romein (Erasmus Universität Rotterdam/ Universität Gent), Dr. Jetze Touber, und Koen Verstraeten haben die Frühneuzeitliches Niederländisch'. Arbeitsgruppe - in der alle Transkribus-Anwender gemeinsam an dem Ziel der verbesserten Anerkennung der niederländischen Sprache arbeiten können. Scrollen Sie nach unten, um mehr über die Teilnahme an der Arbeitsgruppe und deren Ziele zu erfahren.
Der Prozess der Kombination von Trainingsdaten verschiedener frühneuzeitlicher niederländischer Dokumente hat an der Universität Gent bereits begonnen. Verschiedene Forscher an der Institut für Geschichte der Frühen Neuzeit und die Genter Zentrum für digitale Geisteswissenschaften sind dabei, Materialien zusammenzuführen, um ein HTR-Modell zu trainieren. Innerhalb einer multidisziplinären Gruppe wie dieser haben wir jedoch schnell festgestellt, dass es verschiedene Textarten sowie Zeiträume innerhalb der Frühen Neuzeit zu behandeln gibt. Die Handschrift des 16. Jahrhunderts unterscheidet sich von der eines Jahrhunderts später, auch wenn sich inhaltlich wenig geändert hat; ebenso werden sich Texte, die mit einem politisch-institutionellen oder juristischen Hintergrund geschrieben wurden, von Tagebüchern, Briefen und akademischen Texten stark unterscheiden. Nichtsdestotrotz kann jede dieser Textsorten die Erkennung des Textes sowie der Handschrift trainieren. Wie intelligent Computer gemacht werden können, ist in einem solchen Kontext noch zu entdecken.
Um dieses Unterfangen zu rationalisieren, arbeiten drei in Gent ansässige Historiker zusammen und werden verschiedene Sprachmodelle koordinieren/trainieren, was hoffentlich zu einem endgültigen Modell für die niederländische Sprache führen wird (abhängig von der Menge des Trainingsmaterials).
Dr. Annemieke Romein | 16., 17., 18. Jahrhundert | Politisch-institutionelle/ juristische Texte (inkl. Anträge, Briefe von Staatsmännern). |
Dr. Jetze Touber | 16., 17., 18. Jahrhundert | Kulturelle Texte (Tagebücher, Briefe); Gelehrte, akademische und religiöse Texte. |
Koen Verstraeten | 19. Jahrhundert | Kulturelle Texte (Tagebücher, Briefe); Gelehrte und akademische Texte. |
Die Arbeitsgruppe 'Frühneuzeitliches Niederländisch' ist auf der Suche nach weiteren Beispielen von Dokumenten in niederländischer Sprache aus dem 16., 17. und 18. Jahrhundert. Sie können uns helfen, die Sammlung zu ergänzen - alles, was wir brauchen, sind Bilder (vorzugsweise mit 300 dpi) und Transkriptionen.
Sie können:
- vorhandene Trainingsdaten, die Sie bereits in Transkribus vorbereitet haben, freigeben (in den Ordner duplizieren, zu dem wir Sie einladen werden).
- neue Bilder und Transkripte in Transkribus in der Sammlung 'Early Modern Dutch' vorbereiten
- senden Sie Dateien mit Bildern und Transkripten, die automatisch abgeglichen und in Trainingsdaten umgewandelt werden können, indem die Text2image-Werkzeug.
Bitte geben Sie an, welche Art von Textmaterial Sie zur Verfügung stellen, damit wir einen Überblick haben und schnellstmöglich mit dem Training von Modellen beginnen können.
Um der Arbeitsgruppe beizutreten und Zugang zur Sammlung 'Early Modern Dutch' in Transkribus zu erhalten, kontaktieren Sie die Gruppe unter: TranskribusEMDutch@gmail.com.
Die Arbeitsgruppe 'Frühneuzeitliches Niederländisch' will zeigen, dass trainingsbasierte Algorithmen wie die Handschrifterkennung erheblichen Input von vielen Beteiligten benötigen - sie können nur durch Kooperation und Austausch verbessert werden!
————————————————————————————————————
Beschäftigen Sie sich mit den voregmodernen niederländischen Werken (± 1500-1900)? Sluit u aan bij de Transkribus werkgroep!
Es wurden viele Texte in der niederländischen Sprache verfasst, nicht nur in den Landen selbst, sondern auch in anderen Kolonien, in religiösen Gruppen in Nord-Amerika und in den niederländischen Städten. Die frühneuzeitliche gotische Schrift wurde sehr vielfältig, wobei die Unterschiede je nach dem Kontext, der Art und dem Typ der Technik zu erkennen sind. Eerste experimenten met documenten laten zien dat de Nederlandse taal middels Automatische Tekst Herkenning (OCR) modellen herkend kunnen worden en dat middels training hier goede resultaten geboekt kunnen worden.
De volgende stap is het combineren van verschillende voorbeelden van Nederlandse teksten, in een poging om algemene taalmodellen te maken die verschillende typen documenten kunnen analyseren en herkennen. Dr. Annemieke Romein (Erasmus Universität Rotterdam/ Universität Gent - IEMH), Dr. Jetze Touber (UGent - IEMH), de Koen Verstraeten (UGent archief) nemen het initiatief om een werkgroep 'Vroegmodern Nederlands' te start. Der Fokus liegt auf der Periode 1500-1900, aber auch Material aus anderen Perioden ist willkommen. In dieser Gruppe können Transkribus-Gelehrte zusammenarbeiten, um die Herkunft der niederländischen Sprache zu verbreiten. Informieren Sie sich über die Namen der Gruppe und ihre Aufgaben.
Der Prozess des Kombinierens von Trainingsmaterialien aus verschiedenen modernen Technologien ist eine wichtige Aufgabe für die Gruppe. Bei der UGent sind verschiedene Entwickler von Institut für Geschichte der Frühen Neuzeit en het Genter Zentrum für digitale Geisteswissenschaften bezig met het uploaden van hun materialen naar Transkribus. Über Text2Image wurden beste Transkriptionen auf Fotos gekoppelt und wurden Computer getradet. Dies ist momentan in vollem Gange. Wir haben uns schnell darauf eingestellt, dass wir verschiedene Arten von Techniken anbieten und auch verschiedene Zeiträume, in denen verschiedene Varianten möglich sind. Alle Arten von Techniken können in Transkribus erlernt werden, aber es gibt auch viel Trainingsmaterial, das genutzt werden kann. Mehr als ein einzelner Teilnehmer kann verzamt werden. Daher ist diese Option zu erwähnen.
Transkribus (voorlopig) een gratis programma dat kan worden gebruikt om servers in Innsbruck te trainen om handschriften (maar ook drukwerk) te herkennen middels "Handwriting Text Recognition" (HTR). Mindestens 75 Seiten getranscribeerde tekst zijn nodig om een handschrift goed te kunnen herkennen, maar dat betreft dan één auteur. Wie mehr Material er wordt geüpload, wie universeler wordt het model. Het wordt dan steeds breder toepasbaar. Archieven, bibliotheken en erfgoedinstellingen, maar zeker ook individuele onderzoekers wordt dringend verzocht om hun materiaal te delen dat de 16e tot en met 19e eeuw bestrijkt.
Drei Herren sind mit der Entwicklung des niederländischen Modells betraut und müssen Tests durchführen, um ein genaues Modell (oder Modelle) zu trainieren. Voornoemde onderzoekers houden zich bezig met respectievelijk:
Dr. Annemieke Romein | 16e, 17e, 18e, , 19e eeuw | Politiek-institutionele/ juridische teksten (inkl. rekesten, brieven van staatslieden) |
Dr. Jetze Touber | 16e, 17e, 18e eeuw | Culturele teksten (dagboeken, brieven); wetenschappelijke, academische en religieuze teksten. |
Koen Verstraeten | 19e eeuw | Culturele teksten (dagboeken, brieven); wetenschappelijke, academische en religieuze teksten. |
Wenn Sie Material beschaffen wollen, das an diese Firma geliefert werden soll, bitten wir Sie, uns zu kontaktieren über TranskribusEMDutch@gmail.com. Es ist hilfreich, wenn Sie wissen, um welche Art von Technik es sich handelt, und wenn Sie wissen wollen, welche Modelle Sie damit verwenden können.
Veel gestelde vragen:
- Belege und Transkriptionen, die Sie über Transkribus auf Ihrem Server platzieren (direkt über das Programm oder über die Text2image-Werkzeug) blijven privé: u heeft hier uitsluitend toegang toe.
- U kunt er voor kiezen bepaalde documenten te delen (dupliceren) naar de groep Vroegmodern Nederlands. Diese Gruppe ist für das Trainieren von Sprachmodellen zum Erlernen der niederländischen Sprache zuständig. Deelnemers van deze groep kunnen teksten van andere zien.
- Das ist also unser Schlüssel, um zu erfahren, welche Dokumente Sie bei uns finden! Wie mehr Material auf uns wartet, wie makelhaft es ist, Taalmodellen zu trainieren.
- U heeft materiaal (foto's en transcripties) maar u gebruikt nog geen Transkribus? Geen probleem. Wanneer u een account aanmaakt en contact opneemt met Transkribus (email@transkribus.eu) können Ihnen bei diesem Prozess helfen. U kunt het materiaal op verschillende manieren beschikbaar stellen en Transkribus koppelt de afbeeldingen aan de transcripties. (Tot mei 2019 is deze service gratis).
- Sie haben eine Einstellung gewählt und möchten wissen, was für Sie das Richtige ist? Im ersten Schritt wird ein Modell erstellt, mit dem viele Kunden und Dienstleister (inkl. der Kunden) bei der Erstellung von Handschriften berücksichtigt werden können. Das Material, das Sie in Ihrem eigenen Transkribus-Konto gespeichert haben, können Sie auch für die Erstellung von Pdf's verwenden. Sie haben dann einen Auszug aus dem bronmateriaal, der auf der Rückseite die Transkriptionen enthält (oder auf Englisch: eveneens eronder geplaatst); dies können Sie verwenden, um das Material für Ihr Publikum zu beschriften. Dies ist also eine gute Möglichkeit, sich zu präsentieren!
- Kosten? Tot juni 2019 is Transkribus gratis. Er wird momentan über europäische Fördergelder finanziert (das READ-Projekt). Na juni start "READ-COOP" waarin individuele gebruikers gratis gebruik blijven maken, maar 'groot gebruikers' zoals instellingen een bijdrage gevraagd zal worden. Wie hoch diese Kosten sind, ist nicht bekannt, aber es wird darauf hingewiesen, dass es nicht zu hoch ist, wenn man bedenkt, dass die Kosten für die Installation hier nicht sehr hoch sind. MAAR: Der Service ist kostenlos und Sie können damit die "doorzoekbare pdf's" als Gegenleistung erhalten, und Sie können schon im Juni mit der Nutzung des Programms aufhören!