×

Aiuto per l'analisi del layout

Transkribus LA - Metodo di analisi del layout

Informazioni generali

Transkribus LA è un algoritmo di rilevamento di base che utilizza una rete ARU come descritto nella prima fase di questo documento: https://arxiv.org/abs/1802.03345. Funziona più o meno come segue:

  • Fase 1: una rete neurale (cioè una ARU-Net) viene utilizzata per produrre "immagini-maschera" che indicano linee di base o separatori di linee di base (cioè piccole linee verticali all'inizio/alla fine di ogni linea di base) - ogni valore di pixel di queste immagini indica l'accuratezza con cui una linea di base/separatore è presente in quel punto dell'immagine di ingresso
  • Fase 2: dalle immagini-maschera prodotte nella fase 1, le linee di base finali vengono create come insiemi ordinati di punti secondo diverse euristiche (ad esempio, una linea di base non deve essere troppo curva o deve contenere solo punti con una certa precisione). Questa fase è detta anche di postelaborazione.

Invece di utilizzare la post-elaborazione del documento sopra citato (che era stata implementata in CITlabAdvancedLA ma che è stata abbandonata per problemi di licenza), abbiamo implementato una nostra fase di post-elaborazione per produrre le linee di base finali. Si tratta di un processo in corso e speriamo di essere in grado di risolvere tutti i problemi principali il più rapidamente possibile.

Impostazione della rete neurale

Permette di scegliere una rete neurale specifica (ad esempio una rete ARU addestrata) da utilizzare per trovare le linee di base.

Scegliere "Preset" se non si è sicuri delle opzioni o se si lavora su un nuovo set di dati.

Si noti che le regioni di testo sono attualmente Non utilizzati come informazioni per l'addestramento. Vengono creati in modo puramente non supervisionato dopo il rilevamento delle linee di base finali.

Impostazioni di post-elaborazione

Queste impostazioni si applicano alla seconda fase del rilevamento della linea di base, cioè alla fase di post-elaborazione del documento di cui sopra. Attualmente tutti i parametri possono essere modificati liberamente dall'utente, ma il nostro obiettivo è quello di trovare set di parametri ottimali per determinati tipi di documenti (ad esempio, giornali, documenti scritti a mano "regolari", ecc.

I parametri attuali sono:

  • Lunghezza minima della linea di base:
    • La lunghezza minima di una linea di base in pixel - le linee di base rilevate al di sotto di questa lunghezza vengono eliminate.
  • Soglia di precisione Baseline:
    • La soglia per la binarizzazione delle immagini della maschera delle linee di base. Valori più alti garantiscono una maggiore precisione delle linee di base rilevate. Varia tra 0 e 255.
    • Provare a ridurre la soglia se si dispone di immagini a bassa risoluzione e se non vengono rilevate linee di base o solo poche linee di base. Tenere presente, tuttavia, che i risultati possono diventare rumorosi con soglie più basse.
  • Soglia del separatore:
    • Soglia per l'utilizzo delle immagini di separazione addestrate. Varia tra 0 e 255. Se la soglia viene superata, le linee di base vicine vengono unite. Se è impostata su <= 0, i separatori non vengono utilizzati affatto.
    • Le immagini di separazione sono piccole linee verticali tracciate accanto a ciascuna linea di base durante l'addestramento, che indicano l'inizio e la fine di ogni linea di base - dovrebbero Non essere confusi con i separatori reali nelle immagini dei documenti stampati.
    • Di solito, i valori bassi sono sufficienti per evitare una connessione tra linee di base vicine. Usare, ad esempio, 1 per usare le informazioni di separazione "qualche volta" e valori più grandi per usarle quasi sempre.
  • Max-dist per la fusione:
    • Se la distanza supera questa frazione della larghezza dell'immagine, le linee di base non verranno unite.
    • Nella fase iniziale, l'algoritmo produce un insieme di linee di base più piccole. Poi cerca di unire le linee di base vicine, ma solo se la distanza è inferiore a questa soglia.
  • Max-dist per il clustering: ALPHA
    • Se la distanza supera questa frazione della larghezza dell'immagine, le linee di base Non vengono raggruppati in regioni. Se impostato su <= 0, non verrà eseguito il clustering delle regioni.
    • Questo parametro è valido solo per la produzione di regioni di testo dopo il rilevamento di tutte le linee di base. Le linee di base vicine vengono raggruppate in base alla distanza del loro punto più a sinistra. Valori maggiori portano a regioni di testo più grandi.
    • Nota generale sul clustering delle regioni testuali: l'algoritmo attualmente utilizzato è solo un clustering non supervisionato delle linee di base, cioè non è addestrato sull'input dell'utente. Inoltre, si tratta di un approccio molto semplice e quindi le regioni prodotte potrebbero non essere affatto utili. In futuro, ci proponiamo di migliorare l'individuazione delle regioni utilizzando le reti neurali a grafo.