+ Cos'è un testo? Iniziare a capire la teoria dietro il riconoscimento automatico del testo

Cos'è un testo? Una domanda semplice con una risposta non così semplice. Proveniente dalla tradizione dell'editoria scolastica, Patrick Sahle, professore all'Università Albertus Magnus di Colonia, ha dimostrato in dettaglio quanto possa essere diversa la percezione o piuttosto la comprensione del testo: da una stringa di segni su una carta a un'opera di un individuo alfabetizzato, che deve essere (ri)costruita da diverse versioni e stampe.

Per analizzare sistematicamente i diversi aspetti di un testo, Sahle ha iniziato a disegnare la cosiddetta 'text-wheel; (c'è un capitolo su questo nel suo terzo volume sulle edizioni digitali accademiche, p. 45-55; vedi anche Sahle, Patrick: What is a Scholarly Digital Edition?, in: Matthew James Driscoll e Elena Pierazzo (eds.), Editing accademico digitale: Teorie e pratiche. Cambridge, Regno Unito: Open Book Publishers, 2016. OBP.0095, p. 20-39 ).

Il risultato è una gamma di entità diverse che un testo può essere compreso come; alcuni dei significati si oppongono l'un l'altro, altri non differiscono molto.

Per iniziare a capire l'Automated Text Recognition da un punto di vista teorico, abbiamo iniziato a discutere con il professor Sahle, come e quale forma di 'testo' viene riconosciuta in Transkribus (e anche in generale, se state usando strumenti di riconoscimento come i motori OCR). Il risultato è la nostra 'ruota del testo', disegnata da Julia Sorouri.

Soprattutto il testo in Transkribus è inteso come segni su una superficie; avrete bisogno di facsimili o piuttosto di immagini digitalizzate di documenti per eseguire il riconoscimento automatico del testo. Attraverso l'interpretazione tramite l'apprendimento automatico (o la digitazione da parte di un umano), è possibile produrre il testo come esiste in un documento (separato in regioni di testo e linee, e possibilmente anche regioni di parole in futuro). Da questo punto si può andare avanti per estrarre il testo come entità linguistica o come opera (per esempio usando la tecnologia Document Understanding per identificare titoli o marginalia) o anche costruire su entità nel testo, comprendendo il testo come portatore di informazioni.

La ruota dimostra quali aspetti di un testo possono essere identificati e la direzione a cui stiamo puntando con il progetto READ. Vogliamo fornire un Automated Text Recognition di alta qualità, ma stiamo anche pensando a come assicurare la validità e la plausibilità del testo.

Iniziamo una discussione che va oltre la qualità del riconoscimento del testo, ma piuttosto mira a una teoria del riconoscimento automatico del testo.

——–

Da Dottor Tobias HodelUniversità di Zurigo e Archivio di Stato di Zurigo.

CONDIVIDI QUESTO ARTICOLO

Post recenti

19 settembre 2023
Transkribus
Siamo entusiasti di annunciare la versione di settembre 2023 dell'applicazione web di Transkribus. Dopo il successo del passaggio alla ...
30 agosto 2023
News, Transkribus
Oggi viene lanciata ufficialmente la nuova web app di Transkribus! Transkribus ha sempre lavorato per semplificare la digitazione e la trascrizione di ...
21 agosto 2023
Conferenza degli utenti Transkribus
La Transkribus User Conference 24 (15 e 16 febbraio 2024, Innsbruck) invita le parti interessate, gli utenti, gli studiosi e gli appassionati a esplorare ...