Inwiefern wird Transkribus in der Forschung angewendet?

Von Joe Nockels, Universität von Edinburgh

Im Rahmen seiner Doktorarbeit an der Universität Edinburgh und der National Library of Scotland (NLS) untersuchte Joe Nockels systematisch, wie Trankribus zwischen 2015 und 2020 in der Forschung erwähnt wurde. Insgesamt wurden 381 Papers aus Google Scholar, Scopus und Web of Science zusammengetragen. Hier sind ein paar der Ergebnisse:

Die veröffentlichte Forschung zu Transkribus ist international und wächst.

Die Forschung zu Transkribus stieg zwischen 2017 und 2018 um 235% auf 39 bzw. 92 Werke an. 2019 gab es einen weiteren Anstieg der wissenschaftlichen Werke, in denen Transkribus erwähnt wurde, auf 112. Da die Analyse im Oktober 2020 endete, gab es nachvollziehbarerweise weniger Arbeiten, obwohl der Umfang der Forschung mit 99 Werken immer noch beträchtlich war. Der Anstieg der Erwähnungen von Transkribus deutet auf eine Verschiebung in den Bereichen Sammlung und Konservierung hin, da sich die Gedächtnisinstitutionen für die massenhafte Digitalisierung und Erfassung ihrer Materialien entscheiden ( Chassanoff 2013; Duff et al. 2004). Man kann davon ausgehen, dass dies während und nach der Covid-19-Pandemie noch zugenommen hat, indem ganz ohne, es beabsichtigt zu haben, ein Fenster für Archive und Bibliotheken geschaffen wurde, um digitalen Projekten Vorrang einzuräumen und Dienste über mehrere Kanäle für diejenigen bereitzustellen, die keinen Zugang zu Gebäuden hatten.

Englisch war die häufigste Sprache der Forschung zu Transkribus (67.98%, n = 259). Die Forschung zu Transkribus scheint mehrsprachiger zu sein als der restliche Inhalt in Scopus, wo 2013 88,4% der Ergebnisse, 77% davon kunst- und geisteswissenschaftlichen Materialien, auf Englisch erschienen (Van Weijen 2013). Neuere Studien haben gezeigt, dass die Prävalenz des Standard-Englisch in der wissenschaftlichen Forschung unabhängig vom Fachgebiet zunimmt. Schätzungen zufolge werden 98% der wissenschaftlichen Veröffentlichungen auf Englisch verfasst, was Forschende aus Ländern mit Englisch als Fremdsprache (EFL) dazu veranlasst, davor zu warnen, dass ihre Beiträge behindert werden könnten (Flowerdew 2013; Ramirez-Castaneda 2020). Wir sollten diesen Trend im Auge behalten, auch wenn englischsprachige Materialien, in denen Transkribus erwähnt wird, neben Arbeiten auf Niederländisch, Spanisch, Schwedisch, Bosnisch, Russisch, Norwegisch, Polnisch, Italienisch, Kroatisch, Ungarisch, Tschechisch und sogar Maori stehen, was die Diversität der Transkribus-Forschenden und das breite Spektrum ihrer Forschung zeigt.

Forschung zu Transkribus (2015-2020), dargestellt mit der Roam-Funktion von Digimap. Die Standortmarkierungen zeigen die Zugehörigkeit der leitenden Forschenden an. Der Innsbrucker Server ist mit einer gelben Stecknadel markiert.

Betrachtet man die zurückgegebenen Werke geografisch, so stellt man fest, dass sich die Materialien, die Transkribus erwähnen, auf die Server in Innsbruck konzentrieren, wobei deutsche Institutionen am stärksten vertreten sind. Allerdings haben sich vor allem in Westasien neue Forschungsmöglichkeiten aufgetan.

Die Mitglieder der READ-COOP spielen eine wichtige Rolle bei der Veröffentlichung von Forschung, in der Transkribus eingesetzt und erwähnt wird.

118 Arbeiten (30.97%) kamen von READ-COOP-Einrichtungen. Dies unterstreicht, dass die COOP sich zu einem starken Raum dafür entwickelt, dass gleichgesinnte Einrichtungen Transkribus verwenden und dabei Ergebnisse präsentieren und seine Fähigkeiten als Tool verbessern.

Diagramm, das den Forschungsoutput der institutionellen READ-COOP-Mitglieder nach Anzahl der Publikationen darstellt.

Transkribus wird hauptsächlich in Zeitschriftenartikeln (42.87%, n = 163), Konferenzbeiträgen (21.00%, n = 80) und Grundsatzdokumenten (8.14%, n = 31) erwähnt. Forschungsarbeiten, in denen die Software verwendet und erwähnt wurde, erschienen jedoch auch in eher grauer Literatur wie Buchabschnitten, Bachelor- und Masterarbeiten, Berichten, Präsentationen, Blogbeiträgen, Zeitschriften und Videoaufzeichnungen. Aus dem gesamten Datensatz waren 71.13% der Arbeiten online unter einer offenen Urheberrechtslizenz zugänglich (n= 271), was in gewissem Maße die Atmosphäre der Kollegialität und Zusammenarbeit widerspiegelt, die bei der Einrichtung des Beteiligungsmodells der READ-COOP zu beobachten war. Dies ist ein positives Zeichen, das durch die gemeinsame Nutzung von Publikationen, Modellen und Methoden eine größere Forschungstätigkeit ermöglicht.

Transkribus erscheint vor allem in archiv- und bibliothekswissenschaftlichen Publikationen,während ein breites Spektrum von Disziplinen HTR in geringerem Umfang nutzt, wie z. B. Geschichte, Informatik, Citizen Science, Recht und Bildung. Dies zeigt die breite Anwendbarkeit des HTR-Tools, das Forschenden eine Vielzahl nützlicher Werkzeuge zur Verfügung stellt: Verbesserung von Sammlungsbeschreibungen, Information Retrieval und Erkennung von historischen Dokumenten. Transkribus ist unabhängig vom Wissen der Nutzer*innen über datengestützte Methoden nützlich. Ein Bibliothekar möchte HTR vielleicht nicht zur Erstellung vollständiger Transkriptionen, sondern für das Keyword Spotting von Metadaten in Sammlungen verwenden, um den Zugang zu historischen Materialien zu verbessern. Im Gegensatz dazu tendieren einzelne Forschende dazu, Transkribus zu nutzen, um eine Fülle von Daten zu produzieren, die "mit genügend Spezifika ausgestattet sind, um diese Daten für ihre Forschungsziele zu operationalisieren". In Bezug auf den Bereich Informatik ist die Forschung mit Transkribus eher darauf angewiesen, vorhersehbare und regulierte Ergebnisse zu erzielen (z. B. ein bestimmtes Niveau der Zeichen-/Wortfehlerrate) (Lincoln 2017, S. 30). Transkribus ist flexibel genug, um all diese spezifischen Anforderungen zu erfüllen.

Vor allem seit 2017 wird Transkribus in einer Vielzahl von Bereichen erforscht. Während Archivkunde, Informationswissenschaft und Informatik nach wie vor die dominierenden Disziplinen sind, haben wir festgestellt, dass auch Arbeiten in den Geistes-, Kultur- und Sozialwissenschaften veröffentlicht wurden. Zu den Bereichen, die in unserem Korpus vertreten waren, gehören Religionswissenschaft, Verlagswesen, Geschichte, Theaterwissenschaft, Philosophie, Betriebswissenschaft und Mediävistik.

Unter Berücksichtigung all dieser Erkenntnisse scheint Transkribus, wie Thylstrup (2019) beschreibt, eine "Bottom-up"-Massendigitalisierungsbewegung zu sein, die aus Hunderten von gleichzeitigen Projekten besteht, die von motivierten Forschenden vorangetrieben werden. Dies bietet eine solide Grundlage für READ-COOP, die die Genauigkeit von Transkribus durch die Bereitstellung von Ground-Truth-Daten und trainierten Modellen erhöht. In dem Maße, in dem Transkribus wächst, werden unweigerlich mehr Forschungsarbeiten produziert und neue Rhythmen in den Ansätzen der Forschenden entstehen. Eine anschließende Literaturanalyse wird es ermöglichen, dies nachzuvollziehen und zu verstehen. Durch eine solche Struktur kann die Beweiskraft der User Experience mit HTR nutzbar gemacht und gesammelt werden, was dazu beiträgt, Transkribus auf nachhaltige und nützliche Weise weiterzuentwickeln.

Für das vollständige Paper siehe: https://link.springer.com/article/10.1007/s10502-022-09397-0

Chassanof A (2013) Historiker und die Verwendung von Primärquellenmaterial im digitalen Zeitalter. Am Arch 76:458-480. https://doi.org/10.17723/aarc.76.2.lh76217m2m376n28

Duff W, Craig B, Cherry J (2004) Historians' use of archival sources: promises and pitfalls of the digital age. Public Hist 26:1-10

Flowerdew J (2013) Some thoughts on English for Research Publication Purposes (ERPP) and related issues. Cambridge University Press, Cambridge

Lincoln M (2017) Ways of forgetting: the librarian, the historian, and the machine. In: Padilla T, Allen L, Frost H, Potvin S, Russey RE, Varner S (eds) Always already computational: library collections as data. Institute of Memory and Library Services, National Forum Positional Statements, S. 20-30. https://collectionsasdata.github.io. Zugriff am 20. November 2020

Ramirez-Castaneda V (2020) Benachteiligungen bei der Erstellung und Veröffentlichung wissenschaftlicher Arbeiten durch die Dominanz der englischen Sprache in der Wissenschaft: der Fall kolumbianischer Forscher in den Biowissenschaften. Paper presented at PLoS One, Kyoto, 16 Sept 2020. https://doi.org/10.1371/journal.pone. 0238372

Thylstrup NB (2019) The politics of mass digitization. MIT Press, Cambridge

van Weijen D (2013) Publikationssprachen in den Kunst- und Geisteswissenschaften. Res Trends 32:1-10

DIESEN ARTIKEL TEILEN

Neueste Beiträge

Juli 3, 2024
News, Transkribus
Einige Transkribus-Projekte enden mit einer vollständig digitalisierten Sammlung in Transkribus. Andere nehmen diese digitalisierte Quelle und verwenden sie ...
Juni 12, 2024
News, Transkribus
Wenn man an karolingische (oder karolingische) Minuskeln denkt, kommen einem wahrscheinlich Karl der Große und sein riesiges karolingisches Reich in den Sinn. Während die ...
Mai 14, 2024
Uncategorized
Das Verstehen historischer Dokumente ist der Schlüssel zum Verständnis der Geschichte. Das Verstehen historischer Dokumente auf Polnisch kann jedoch eine Herausforderung sein. Nicht nur ...