+ Cos'è un testo? Iniziare a capire la teoria dietro il riconoscimento automatico del testo

Cos'è un testo? Una domanda semplice con una risposta non così semplice. Proveniente dalla tradizione dell'editoria scolastica, Patrick Sahle, professore all'Università Albertus Magnus di Colonia, ha dimostrato in dettaglio quanto possa essere diversa la percezione o piuttosto la comprensione del testo: da una stringa di segni su una carta a un'opera di un individuo alfabetizzato, che deve essere (ri)costruita da diverse versioni e stampe.

Per analizzare sistematicamente i diversi aspetti di un testo, Sahle ha iniziato a disegnare la cosiddetta 'text-wheel; (c'è un capitolo su questo nel suo terzo volume sulle edizioni digitali accademiche, p. 45-55; vedi anche Sahle, Patrick: What is a Scholarly Digital Edition?, in: Matthew James Driscoll e Elena Pierazzo (eds.), Editing accademico digitale: Teorie e pratiche. Cambridge, Regno Unito: Open Book Publishers, 2016. OBP.0095, p. 20-39 ).

Il risultato è una gamma di entità diverse che un testo può essere compreso come; alcuni dei significati si oppongono l'un l'altro, altri non differiscono molto.

Per iniziare a capire l'Automated Text Recognition da un punto di vista teorico, abbiamo iniziato a discutere con il professor Sahle, come e quale forma di 'testo' viene riconosciuta in Transkribus (e anche in generale, se state usando strumenti di riconoscimento come i motori OCR). Il risultato è la nostra 'ruota del testo', disegnata da Julia Sorouri.

Soprattutto il testo in Transkribus è inteso come segni su una superficie; avrete bisogno di facsimili o piuttosto di immagini digitalizzate di documenti per eseguire il riconoscimento automatico del testo. Attraverso l'interpretazione tramite l'apprendimento automatico (o la digitazione da parte di un umano), è possibile produrre il testo come esiste in un documento (separato in regioni di testo e linee, e possibilmente anche regioni di parole in futuro). Da questo punto si può andare avanti per estrarre il testo come entità linguistica o come opera (per esempio usando la tecnologia Document Understanding per identificare titoli o marginalia) o anche costruire su entità nel testo, comprendendo il testo come portatore di informazioni.

La ruota dimostra quali aspetti di un testo possono essere identificati e la direzione a cui stiamo puntando con il progetto READ. Vogliamo fornire un Automated Text Recognition di alta qualità, ma stiamo anche pensando a come assicurare la validità e la plausibilità del testo.

Iniziamo una discussione che va oltre la qualità del riconoscimento del testo, ma piuttosto mira a una teoria del riconoscimento automatico del testo.

——–

Da Dottor Tobias HodelUniversità di Zurigo e Archivio di Stato di Zurigo.

CONDIVIDI QUESTO ARTICOLO

Messaggi recenti

20 giugno 2022
Transkribus
Di Joe Nockels, Università di Edimburgo Nell'ambito della sua ricerca di dottorato presso l'Università di Edimburgo e la National Library ...
15 giugno 2022
Transkribus, Webinar
Siamo entusiasti di lanciare la nostra nuova serie di webinar "Ask Us Anything", in cui i partecipanti possono chiederci qualsiasi cosa ...
Giugno 9, 2022
Uncategorized
La nuova funzione di condivisione potrebbe essere un piccolo pulsante per una schermata, ma è una grande funzione per ...