+ Cos'è un testo? Iniziare a capire la teoria dietro il riconoscimento automatico del testo

Cos'è un testo? Una domanda semplice con una risposta non così semplice. Proveniente dalla tradizione dell'editoria scolastica, Patrick Sahle, professore all'Università Albertus Magnus di Colonia, ha dimostrato in dettaglio quanto possa essere diversa la percezione o piuttosto la comprensione del testo: da una stringa di segni su una carta a un'opera di un individuo alfabetizzato, che deve essere (ri)costruita da diverse versioni e stampe.

Per analizzare sistematicamente i diversi aspetti di un testo, Sahle ha iniziato a disegnare la cosiddetta 'text-wheel; (c'è un capitolo su questo nel suo terzo volume sulle edizioni digitali accademiche, p. 45-55; vedi anche Sahle, Patrick: What is a Scholarly Digital Edition?, in: Matthew James Driscoll e Elena Pierazzo (eds.), Editing accademico digitale: Teorie e pratiche. Cambridge, Regno Unito: Open Book Publishers, 2016. OBP.0095, p. 20-39 ).

Il risultato è una gamma di entità diverse che un testo può essere compreso come; alcuni dei significati si oppongono l'un l'altro, altri non differiscono molto.

Per iniziare a capire l'Automated Text Recognition da un punto di vista teorico, abbiamo iniziato a discutere con il professor Sahle, come e quale forma di 'testo' viene riconosciuta in Transkribus (e anche in generale, se state usando strumenti di riconoscimento come i motori OCR). Il risultato è la nostra 'ruota del testo', disegnata da Julia Sorouri.

Soprattutto il testo in Transkribus è inteso come segni su una superficie; avrete bisogno di facsimili o piuttosto di immagini digitalizzate di documenti per eseguire il riconoscimento automatico del testo. Attraverso l'interpretazione tramite l'apprendimento automatico (o la digitazione da parte di un umano), è possibile produrre il testo come esiste in un documento (separato in regioni di testo e linee, e possibilmente anche regioni di parole in futuro). Da questo punto si può andare avanti per estrarre il testo come entità linguistica o come opera (per esempio usando la tecnologia Document Understanding per identificare titoli o marginalia) o anche costruire su entità nel testo, comprendendo il testo come portatore di informazioni.

La ruota dimostra quali aspetti di un testo possono essere identificati e la direzione a cui stiamo puntando con il progetto READ. Vogliamo fornire un Automated Text Recognition di alta qualità, ma stiamo anche pensando a come assicurare la validità e la plausibilità del testo.

Iniziamo una discussione che va oltre la qualità del riconoscimento del testo, ma piuttosto mira a una teoria del riconoscimento automatico del testo.

——–

Da Dottor Tobias HodelUniversità di Zurigo e Archivio di Stato di Zurigo.

CONDIVIDI QUESTO ARTICOLO

Post recenti

25 aprile 2024
News, Transkribus
A gennaio abbiamo annunciato i nostri nuovi piani di abbonamento: Individuale, Studente e Organizzazione. Ciascun piano è adattato a un particolare ...
17 aprile 2024
News, Transkribus
Uno dei maggiori vantaggi di Transkribus è la possibilità di addestrare modelli personalizzati di riconoscimento del testo scritto a mano. Questa caratteristica unica ...
4 aprile 2024
News
La primavera è arrivata e così anche l'uscita di aprile 2024 di Transkribus. Ecco una rapida panoramica di tutte le ...