Die Royal College of Physicians widmet sich seit 500 Jahren dem Fortschritt der Medizin und verfügt über herausragende historische Sammlungen von seltenen Büchern, medizinischen Instrumenten und Heilpflanzenpräparaten.
Das RCP hat kürzlich die 6000 Blätter aus dem Herbarium der Pharmaceutical Society of Great Britain aus dem neunzehnten Jahrhundert digitalisiert. Diese Sammlung umfasst Tausende von konservierten Pflanzenexemplaren und die dazugehörigen Etiketten.
Dr. Michael de Swiet, Dr. Henry Oakley und Professor Anthony Dayan von der RCP beschlossen daraufhin, mit dem Transkribus Team zu versuchen, den Text aus der Herbariumssammlung zu erkennen.
Die Dokumente stellen verschiedene Herausforderungen für die Handwritten Text Recognition (HTR)-Technologie dar. Sie enthalten eine Mischung aus gedrucktem und handgeschriebenem Text (mit Tinte und Bleistift), verschiedene Sprachen, Abkürzungen und Fachvokabular. Außerdem sind sie mit mehreren (ähnlichen) Händen geschrieben.
Ein erstes HTR-Modell wurde auf 29.083 transkribierten Wörtern aus der Sammlung trainiert, wobei das bereits existierende Modell 'English Writing M1' als Teil des Trainingsprozesses verwendet wurde. Das Das Modell 'English Writing M1' ist darauf trainiert, die Schrift des englischen Philosophen Jeremy Bentham (1748 - 1832) und seiner Sekretäre zu erkennen - Es steht allen Transkribus-Anwendern für ihre Experimente frei zur Verfügung.
In den besten Fällen kann das resultierende Modell Seiten aus der Sammlung mit einer Zeichenfehlerrate (CER) von etwa 10% automatisch transkribieren.
Das Team am RCP ist mit diesen Ergebnissen zufrieden und würde sich freuen, wenn sie von anderen Personen, die mit Herbarium-Material arbeiten, geteilt und verbessert werden könnten. Wenn Sie mehr über ihre Arbeit erfahren oder Zugang zu ihrem HTR-Modell haben möchten, kontaktieren Sie bitte das Transkribus-Team (email@transkribus.eu).