Cos'è un testo? Una domanda semplice con una risposta non così semplice. Proveniente dalla tradizione dell'editoria scolastica, Patrick Sahle, professore all'Università Albertus Magnus di Colonia, ha dimostrato in dettaglio quanto possa essere diversa la percezione o piuttosto la comprensione del testo: da una stringa di segni su una carta a un'opera di un individuo alfabetizzato, che deve essere (ri)costruita da diverse versioni e stampe.
Per analizzare sistematicamente i diversi aspetti di un testo, Sahle ha iniziato a disegnare la cosiddetta 'text-wheel; (c'è un capitolo su questo nel suo terzo volume sulle edizioni digitali accademiche, p. 45-55; vedi anche Sahle, Patrick: What is a Scholarly Digital Edition?, in: Matthew James Driscoll e Elena Pierazzo (eds.), Editing accademico digitale: Teorie e pratiche. Cambridge, Regno Unito: Open Book Publishers, 2016. OBP.0095, p. 20-39 ).
Il risultato è una gamma di entità diverse che un testo può essere compreso come; alcuni dei significati si oppongono l'un l'altro, altri non differiscono molto.
Per iniziare a capire l'Automated Text Recognition da un punto di vista teorico, abbiamo iniziato a discutere con il professor Sahle, come e quale forma di 'testo' viene riconosciuta in Transkribus (e anche in generale, se state usando strumenti di riconoscimento come i motori OCR). Il risultato è la nostra 'ruota del testo', disegnata da Julia Sorouri.
Soprattutto il testo in Transkribus è inteso come segni su una superficie; avrete bisogno di facsimili o piuttosto di immagini digitalizzate di documenti per eseguire il riconoscimento automatico del testo. Attraverso l'interpretazione tramite l'apprendimento automatico (o la digitazione da parte di un umano), è possibile produrre il testo come esiste in un documento (separato in regioni di testo e linee, e possibilmente anche regioni di parole in futuro). Da questo punto si può andare avanti per estrarre il testo come entità linguistica o come opera (per esempio usando la tecnologia Document Understanding per identificare titoli o marginalia) o anche costruire su entità nel testo, comprendendo il testo come portatore di informazioni.
La ruota dimostra quali aspetti di un testo possono essere identificati e la direzione a cui stiamo puntando con il progetto READ. Vogliamo fornire un Automated Text Recognition di alta qualità, ma stiamo anche pensando a come assicurare la validità e la plausibilità del testo.
Iniziamo una discussione che va oltre la qualità del riconoscimento del testo, ma piuttosto mira a una teoria del riconoscimento automatico del testo.
——–
Da Dottor Tobias HodelUniversità di Zurigo e Archivio di Stato di Zurigo.