Lo strumento Collegio Reale dei Medici è stato dedicato al progresso della medicina negli ultimi 500 anni e ha accumulato eccezionali collezioni storiche di libri rari, strumenti medici e campioni di piante medicinali.
Il RCP ha recentemente digitalizzato i 6000 fogli dell'Herbarium (per lo più) ottocentesco della Pharmaceutical Society of Great Britain. Questa collezione comprende migliaia di campioni di piante conservate e le loro etichette associate.
Il dottor Michael de Swiet, il dottor Henry Oakley e il professor Anthony Dayan dell'RCP hanno poi deciso di lavorare con il Transkribus per cercare di riconoscere il testo dalla collezione dell'Herbarium.
I documenti presentano diverse sfide per la tecnologia Handwritten Text Recognition (HTR). Contengono un mix di testo stampato e scritto a mano (in inchiostro e matita), varie lingue, abbreviazioni e vocabolario specialistico. Sono anche scritti in diverse mani (simili).
Un primo modello HTR è stato addestrato su 29.083 parole trascritte dalla collezione, utilizzando il modello preesistente 'English Writing M1' come parte del processo di addestramento. Il Il modello 'English Writing M1' è addestrato a riconoscere la scrittura del filosofo inglese Jeremy Bentham (1748 - 1832) e dei suoi segretari - è liberamente disponibile a tutti gli utenti di Transkribus per i loro esperimenti.
Nei casi migliori, il modello risultante può trascrivere automaticamente le pagine della collezione con un tasso di errore dei caratteri (CER) di circa 10%.
Il team del RCP è soddisfatto di questi risultati e sarebbe felice se potessero essere condivisi e migliorati da altre persone che lavorano con il materiale dell'erbario. Se vuoi saperne di più sul loro lavoro o avere accesso al loro modello HTR, contatta il team di Transkribus (email@transkribus.eu).