Verständnis für die Anwendung von Transkribus in der Forschung

Von Joe Nockels, Universität von Edinburgh

Im Rahmen seiner Doktorarbeit an der Universität Edinburgh und der National Library of Scotland (NLS) untersuchte Joe Nockels systematisch, wie Trankribus zwischen 2015 und 2020 in der Forschung erwähnt wurde. Insgesamt wurden 381 Arbeiten aus Google Scholar, Scopus und Web of Science zusammengetragen. Hier sind einige der Ergebnisse:

Die veröffentlichte Forschung zu Transkribus ist international und wächst.

Die Zahl der Transkribus-Forschungen stieg zwischen 2017 und 2018 um 235% auf 39 bzw. 92 Werke. 2019 gab es einen weiteren Anstieg der Materialien, in denen Transkribus erwähnt wird, auf 112. Da die Analyse im Oktober 2020 endete, gab es verständlicherweise weniger Arbeiten, obwohl der Umfang der Forschung mit 99 Materialien immer noch beträchtlich war. Der Anstieg der Erwähnungen von Transkribus deutet auf eine Verschiebung in der Sammlungs- und Kuratorenlandschaft hin, da sich die Gedächtnisinstitutionen für die Digitalisierung und Anerkennung ihrer Materialien entscheiden en masse (Chassanoff 2013; Duff et al. 2004). Man kann davon ausgehen, dass dies während und nach der Covid-19-Pandemie noch zugenommen hat, die unbeabsichtigt ein Zeitfenster für Archive und Bibliotheken geschaffen hat, um digitalen Projekten Vorrang einzuräumen und Dienste über mehrere Kanäle für diejenigen bereitzustellen, die keinen Zugang zu Gebäuden haben.

Englisch war die häufigste Sprache der Transkribus-Forschung (67.98%, n = 259). Die Transkribus-Forschung scheint mehrsprachiger zu sein als der allgemeine Inhalt in Scopus; dort erschienen 2013 88,4% der Ergebnisse, 77% der kunst- und geisteswissenschaftlichen Materialien, auf Englisch (Van Weijen 2013). Neuere Studien haben gezeigt, dass die Prävalenz des Standard-Englisch in der wissenschaftlichen Forschung unabhängig vom Fachgebiet zunimmt. Schätzungen zufolge werden 98% der wissenschaftlichen Veröffentlichungen auf Englisch verfasst, was Forscher aus Ländern mit Englisch als Fremdsprache (EFL) dazu veranlasst, Alarm zu schlagen, dass ihre Beiträge behindert werden (Flowerdew 2013; Ramirez-Castaneda 2020). Wir sollten diesen Trend im Auge behalten, auch wenn englischsprachige Materialien, in denen Transkribus erwähnt wird, neben Arbeiten auf Niederländisch, Spanisch, Schwedisch, Bosnisch, Russisch, Norwegisch, Polnisch, Italienisch, Kroatisch, Ungarisch, Tschechisch und sogar Maori stehen, was die Vielfalt der Transkribus-Forscher und das breite Spektrum ihrer Forschung zeigt.

Transkribus-Forschung (2015-2020), dargestellt mit der Roam-Funktion von Digimap. Die Standortmarkierungen zeigen die Zugehörigkeit der leitenden Forscher an. Der Innsbrucker Server ist mit einer gelben Stecknadel markiert.

Betrachtet man die zurückgegebenen Werke geografisch, so stellt man fest, dass sich die Materialien, die Transkribus erwähnen, auf die Server in Innsbruck konzentrieren, wobei deutsche Institutionen am stärksten vertreten sind. Allerdings haben sich vor allem in Westasien neue Forschungsmöglichkeiten aufgetan.

Die Mitglieder der READ-COOP spielen eine wichtige Rolle bei der Veröffentlichung von Forschungsergebnissen unter Verwendung und Erwähnung von Transkribus.

118 Arbeiten (30.97%) kamen von READ-COOP-Einrichtungen. Dies unterstreicht, dass das COOP ein starker Raum für gleichgesinnte Einrichtungen wird, um Transkribus vorzustellen, Ergebnisse zu präsentieren und seine Fähigkeiten als Instrument zu verbessern.

Diagramm, das den Forschungsoutput der institutionellen READ-COOP-Mitglieder nach Anzahl der Veröffentlichungen darstellt.

Transkribus wird hauptsächlich in Zeitschriftenartikeln erwähnt (42.87%, n = 163), Konferenzbeiträge (21.00%, n = 80) und politische Dokumente (8.14%, n = 31). Forschungsarbeiten, in denen die Software verwendet und erwähnt wurde, erschienen jedoch auch in eher grauen Materialien wie Buchabschnitten, Bachelor- und Masterarbeiten, Berichten, Präsentationen, Blogbeiträgen, Zeitschriften und Videoaufzeichnungen. Aus dem gesamten Datensatz waren 71.13% der Arbeiten online unter einer offenen Urheberrechtslizenz zugänglich (n= 271), was in gewissem Maße die Atmosphäre der Kollegialität und Zusammenarbeit widerspiegelt, die bei der Einrichtung des Beteiligungsmodells der READ-COOP zu beobachten war. Dies ist ein positives Zeichen, das durch die gemeinsame Nutzung von Veröffentlichungen, Modellen und Methoden eine größere Forschungstätigkeit ermöglicht.

Transkribus erscheint vor allem in archiv- und bibliothekswissenschaftlichen Publikationenwährend ein breites Spektrum von Disziplinen den HTR in geringerem Umfang nutzt, wie z. B. Geschichte, Informatik, Bürgerwissenschaften, Recht und Bildung. Dies zeigt die breite Anwendbarkeit des HTR-Tools, das Forschern eine Vielzahl nützlicher Werkzeuge zur Verfügung stellt: Verbesserung von Sammlungsbeschreibungen, Informationssuche und Erkennung von historischen Dokumenten. Transkribus ist unabhängig von den Vorstellungen der Nutzer von datengesteuerten Methoden nützlich. Ein Bibliothekar möchte HTR vielleicht nicht zur Erstellung vollständiger Transkriptionen, sondern zur Verschlagwortung von Metadaten in Sammlungen verwenden, um den Zugang zu historischen Materialien zu verbessern. Im Gegensatz dazu tendieren einzelne Forscher dazu, Transkribus zu nutzen, um reichhaltige Daten zu produzieren, die "mit genügend Spezifika ausgestattet sind, um diese Daten für ihre Forschungsziele zu operationalisieren". In Bezug auf die Domäne der Informatik ist die Forschung mit Transkribus eher darauf angewiesen, vorhersehbare und regulierte Ergebnisse zu erzielen (z. B. ein bestimmtes Niveau der Zeichen-/Wortfehlerrate) (Lincoln 2017, S. 30). Transkribus ist flexibel genug, um all diese spezifischen Anforderungen zu erfüllen.

Vor allem seit 2017 wird Transkribus in einer Vielzahl von Bereichen erforscht. Während Archivwissenschaft, Informationswissenschaft und Informatik nach wie vor die dominierenden Disziplinen sind, haben wir festgestellt, dass Arbeiten in den Geistes-, Kultur- und Sozialwissenschaften veröffentlicht wurden. Zu den Bereichen, die in unserem Korpus vertreten waren, gehören Religionswissenschaft, Verlagswesen, Geschichte, Theaterwissenschaft, Philosophie, Managementwissenschaft und Mediävistik.

Unter Berücksichtigung all dieser Erkenntnisse scheint Transkribus, wie Thylstrup (2019) beschreibt, eine "Bottom-up"-Massendigitalisierungsbewegung zu sein, die aus Hunderten von gleichzeitigen Projekten besteht, die von motivierten Forschern vorangetrieben werden. Dies bietet eine solide Grundlage für READ-COOP, die die Genauigkeit von Transkribus durch die Bereitstellung von Wahrheitsdaten und trainierten Modellen erhöht. In dem Maße, in dem Transkribus wächst, werden zwangsläufig mehr Forschungsarbeiten produziert und neue Rhythmen in den Ansätzen der Forscher entstehen. Eine anschließende Analyse der Literatur wird es ermöglichen, dies zu verfolgen und zu verstehen. Durch eine solche Struktur kann der Beweiswert der Nutzererfahrungen mit HTR nutzbar gemacht und gesammelt werden, was dazu beiträgt, Transkribus auf nachhaltige und nützliche Weise weiterzuentwickeln.

Für das vollständige Papier siehe: https://link.springer.com/article/10.1007/s10502-022-09397-0

Chassanof A (2013) Historiker und die Verwendung von Primärquellenmaterial im digitalen Zeitalter. Am Arch 76:458-480. https://doi.org/10.17723/aarc.76.2.lh76217m2m376n28

Duff W, Craig B, Cherry J (2004) Historians' use of archival sources: promises and pitfalls of the digital age. Public Hist 26:1-10

Flowerdew J (2013) Some thoughts on English for Research Publication Purposes (ERPP) and related issues. Cambridge University Press, Cambridge

Lincoln M (2017) Ways of forgetting: the librarian, the historian, and the machine. In: Padilla T, Allen L, Frost H, Potvin S, Russey RE, Varner S (eds) Always already computational: library collections as data. Institute of Memory and Library Services, National Forum Positional Statements, S. 20-30. https://collectionsasdata.github.io. Zugriff am 20. November 2020

Ramirez-Castaneda V (2020) Benachteiligungen bei der Erstellung und Veröffentlichung wissenschaftlicher Arbeiten durch die Dominanz der englischen Sprache in der Wissenschaft: der Fall kolumbianischer Forscher in den Biowissenschaften. Paper presented at PLoS One, Kyoto, 16 Sept 2020. https://doi.org/10.1371/journal.pone. 0238372

Thylstrup NB (2019) The politics of mass digitization. MIT Press, Cambridge

van Weijen D (2013) Publikationssprachen in den Kunst- und Geisteswissenschaften. Res Trends 32:1-10

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juni 20, 2022
Transkribus
Von Joe Nockels, Universität Edinburgh Im Rahmen seiner Doktorarbeit an der Universität Edinburgh und der Nationalbibliothek ...
Juni 15, 2022
Transkribus, Webinare
Wir freuen uns, unsere neue "Ask Us Anything"-Webinarreihe zu starten, in der die Teilnehmer uns alles fragen können, was mit ...
Juni 9, 2022
Uncategorized
Die neue Freigabefunktion Es mag eine kleine Schaltfläche für einen Bildschirm sein, aber sie ist eine großartige Funktion für ...