+ Pflanzenpower! Ergebnisse aus dem Herbarium des Royal College of Physicians

Die Royal College of Physicians widmet sich seit 500 Jahren dem Fortschritt der Medizin und verfügt über herausragende historische Sammlungen von seltenen Büchern, medizinischen Instrumenten und Heilpflanzenpräparaten.

Das RCP hat kürzlich die 6000 Blätter aus dem Herbarium der Pharmaceutical Society of Great Britain aus dem neunzehnten Jahrhundert digitalisiert. Diese Sammlung umfasst Tausende von konservierten Pflanzenexemplaren und die dazugehörigen Etiketten.

Dr. Michael de Swiet, Dr. Henry Oakley und Professor Anthony Dayan von der RCP beschlossen daraufhin, mit dem Transkribus Team zu versuchen, den Text aus der Herbariumssammlung zu erkennen.

Die Dokumente stellen verschiedene Herausforderungen für die Handwritten Text Recognition (HTR)-Technologie dar. Sie enthalten eine Mischung aus gedrucktem und handgeschriebenem Text (mit Tinte und Bleistift), verschiedene Sprachen, Abkürzungen und Fachvokabular. Außerdem sind sie mit mehreren (ähnlichen) Händen geschrieben.

Ein erstes HTR-Modell wurde auf 29.083 transkribierten Wörtern aus der Sammlung trainiert, wobei das bereits existierende Modell 'English Writing M1' als Teil des Trainingsprozesses verwendet wurde. Das Das Modell 'English Writing M1' ist darauf trainiert, die Schrift des englischen Philosophen Jeremy Bentham (1748 - 1832) und seiner Sekretäre zu erkennen - Es steht allen Transkribus-Anwendern für ihre Experimente frei zur Verfügung.

In den besten Fällen kann das resultierende Modell Seiten aus der Sammlung mit einer Zeichenfehlerrate (CER) von etwa 10% automatisch transkribieren.

Bild aus dem Herbarium mit einer automatischen Transkription des Etiketts. Bildnachweis: Royal College of Physicians.

Das Team am RCP ist mit diesen Ergebnissen zufrieden und würde sich freuen, wenn sie von anderen Personen, die mit Herbarium-Material arbeiten, geteilt und verbessert werden könnten. Wenn Sie mehr über ihre Arbeit erfahren oder Zugang zu ihrem HTR-Modell haben möchten, kontaktieren Sie bitte das Transkribus-Team (email@transkribus.eu).

DIESEN ARTIKEL TEILEN

Neueste Beiträge

April 17, 2024
News, Transkribus
Einer der größten Vorteile von Transkribus ist die Möglichkeit, benutzerdefinierte Modelle zur Erkennung von handschriftlichem Text zu trainieren. Diese einzigartige Funktion ...
4. April 2024
News
Der Frühling hat begonnen und damit auch die Veröffentlichung von Transkribus im April 2024. Hier ist ein kurzer Überblick über alle ...
3. April 2024
News
Man kann viel über die französische Geschichte lernen, wenn man Bücher liest oder Dokumentarfilme sieht. Diese Arten von Quellen sind gut für ...