Transkribus LA - Metodo di analisi del layout

Informazioni generali

Transkribus LA è un algoritmo di rilevamento di base che utilizza una rete ARU come descritto nella prima fase di questo documento: https://arxiv.org/abs/1802.03345. Funziona più o meno come segue:

Fase 1: una rete neurale (cioè una ARU-Net) viene utilizzata per produrre "immagini-maschera" che indicano linee di base o separatori di linee di base (cioè piccole linee verticali all'inizio/alla fine di ogni linea di base) - ogni valore di pixel di queste immagini indica l'accuratezza con cui una linea di base/separatore è presente in quel punto dell'immagine di ingresso
Fase 2: dalle immagini-maschera prodotte nella fase 1, le linee di base finali vengono create come insiemi ordinati di punti secondo diverse euristiche (ad esempio, una linea di base non deve essere troppo curva o deve contenere solo punti con una certa precisione). Questa fase è detta anche di postelaborazione.

Invece di utilizzare la post-elaborazione del documento sopra citato (che era stata implementata in CITlabAdvancedLA ma che è stata abbandonata per problemi di licenza), abbiamo implementato una nostra fase di post-elaborazione per produrre le linee di base finali. Si tratta di un processo in corso e speriamo di essere in grado di risolvere tutti i problemi principali il più rapidamente possibile.

Impostazione della rete neurale

Permette di scegliere una rete neurale specifica (ad esempio una rete ARU addestrata) da utilizzare per trovare le linee di base.

Scegliere "Preset" se non si è sicuri delle opzioni o se si lavora su un nuovo set di dati.

Si noti che le regioni di testo sono attualmente Non utilizzati come informazioni per l'addestramento. Vengono creati in modo puramente non supervisionato dopo il rilevamento delle linee di base finali.

Impostazioni di post-elaborazione

Queste impostazioni si applicano alla seconda fase del rilevamento della linea di base, cioè alla fase di post-elaborazione del documento di cui sopra. Attualmente tutti i parametri possono essere modificati liberamente dall'utente, ma il nostro obiettivo è quello di trovare set di parametri ottimali per determinati tipi di documenti (ad esempio, giornali, documenti scritti a mano "regolari", ecc.

I parametri attuali sono:

Lunghezza minima della linea di base:
- La lunghezza minima di una linea di base in pixel - le linee di base rilevate al di sotto di questa lunghezza vengono eliminate.

Soglia di precisione Baseline:
- La soglia per la binarizzazione delle immagini della maschera delle linee di base. Valori più alti garantiscono una maggiore precisione delle linee di base rilevate. Varia tra 0 e 255.
- Provare a ridurre la soglia se si dispone di immagini a bassa risoluzione e se non vengono rilevate linee di base o solo poche linee di base. Tenere presente, tuttavia, che i risultati possono diventare rumorosi con soglie più basse.

Soglia del separatore:
- Soglia per l'utilizzo delle immagini di separazione addestrate. Varia tra 0 e 255. Se la soglia viene superata, le linee di base vicine vengono unite. Se è impostata su <= 0, i separatori non vengono utilizzati affatto.
- Le immagini di separazione sono piccole linee verticali tracciate accanto a ciascuna linea di base durante l'addestramento, che indicano l'inizio e la fine di ogni linea di base - dovrebbero Non essere confusi con i separatori reali nelle immagini dei documenti stampati.
- Di solito, i valori bassi sono sufficienti per evitare una connessione tra linee di base vicine. Usare, ad esempio, 1 per usare le informazioni di separazione "qualche volta" e valori più grandi per usarle quasi sempre.

Max-dist per la fusione:
- Se la distanza supera questa frazione della larghezza dell'immagine, le linee di base non verranno unite.
- Nella fase iniziale, l'algoritmo produce un insieme di linee di base più piccole. Poi cerca di unire le linee di base vicine, ma solo se la distanza è inferiore a questa soglia.

Max-dist per il clustering: ALPHA
- Se la distanza supera questa frazione della larghezza dell'immagine, le linee di base Non vengono raggruppati in regioni. Se impostato su <= 0, non verrà eseguito il clustering delle regioni.
- Questo parametro è valido solo per la produzione di regioni di testo dopo il rilevamento di tutte le linee di base. Le linee di base vicine vengono raggruppate in base alla distanza del loro punto più a sinistra. Valori maggiori portano a regioni di testo più grandi.
- Nota generale sul clustering delle regioni testuali: l'algoritmo attualmente utilizzato è solo un clustering non supervisionato delle linee di base, cioè non è addestrato sull'input dell'utente. Inoltre, si tratta di un approccio molto semplice e quindi le regioni prodotte potrebbero non essere affatto utili. In futuro, ci proponiamo di migliorare l'individuazione delle regioni utilizzando le reti neurali a grafo.

Cookie	Descrizione	Durata
politica dei cookie visualizzati	Il cookie è impostato dal plugin GDPR Cookie Consent e viene utilizzato per memorizzare se l'utente ha acconsentito o meno all'uso dei cookie. Non memorizza alcun dato personale.	1 ora
PHPSESSID	Questo cookie è nativo delle applicazioni PHP. Il cookie viene utilizzato per memorizzare e identificare l'ID di sessione unico di un utente allo scopo di gestire la sessione dell'utente sul sito web. Il cookie è un cookie di sessione e viene cancellato quando tutte le finestre del browser vengono chiuse.	1 anno

Cookie	Descrizione	Durata
VISITATORE_INFO1_LIVE	Questo cookie è impostato da Youtube. Utilizzato per tracciare le informazioni dei video di YouTube incorporati in un sito web.	5 mesi
IDE	Utilizzato da Google DoubleClick e memorizza le informazioni su come l'utente utilizza il sito web e qualsiasi altra pubblicità prima di visitare il sito. Questo viene utilizzato per presentare agli utenti gli annunci che sono rilevanti per loro in base al profilo dell'utente.	2 anni

Cookie	Descrizione	Durata
GPS	Questo cookie è impostato da Youtube e registra un ID unico per tracciare gli utenti in base alla loro posizione geografica	30 minuti
tk_or	Questo cookie è impostato dal plugin JetPack sui siti che utilizzano WooCommerce. Questo è un cookie di riferimento utilizzato per analizzare il comportamento dei referrer per Jetpack	5 anni
tk_r3d	Il cookie è installato da JetPack. Utilizzato per le metriche interne delle attività dell'utente per migliorare l'esperienza dell'utente	3 giorni
tk_lr	Questo cookie è impostato dal plugin JetPack sui siti che utilizzano WooCommerce. Questo è un cookie di riferimento utilizzato per analizzare il comportamento dei referrer per Jetpack	1 anno
{\an8}Che cosa?	Questo cookie è installato da Google Analytics. Il cookie viene utilizzato per calcolare i dati del visitatore, della sessione, del camapign e per tenere traccia dell'utilizzo del sito per il rapporto di analisi del sito. Il cookie memorizza le informazioni in modo anonimo e assegna un numero generato randoly per identificare i visitatori unici.	2 anni
_gid	Questo cookie è installato da Google Analytics. Il cookie viene utilizzato per memorizzare informazioni su come i visitatori utilizzano un sito web e aiuta a creare un rapporto analitico su come sta andando il sito web. I dati raccolti includono il numero di visitatori, la fonte da cui provengono e le pagine visitate in forma anonima.	1 giorno
matomo	Per l'analisi statistica, usiamo "Matomo" su questo sito web. Si tratta di uno strumento open source per l'analisi del web. Matomo non trasmette dati a server al di fuori del controllo di READ-COOP. Matomo viene disattivato quando si visita il nostro sito web. Solo se lei acconsente attivamente, il suo comportamento d'uso viene registrato in modo anonimo.	1 anno

Cookie	Descrizione	Durata
YSC	Questo cookie è impostato da Youtube e viene utilizzato per monitorare le visualizzazioni dei video incorporati.	1 anno
_gat	Questo cookie è installato da Google Universal Analytics per strozzare il tasso di richiesta per limitare la raccolta di dati su siti ad alto traffico.	1 minuto

Aiuto per l'analisi del layout

Transkribus LA - Metodo di analisi del layout

Informazioni generali

Impostazione della rete neurale

Impostazioni di post-elaborazione

La COOP

Prodotti e servizi

Informazioni utili

Risorse utili

Community