Vega Informatica s.r.l.
La creatività
al servizio dell'innovazione
Italian - ItalyEnglish (United Kingdom)
Home Soluzioni DPA

Document Processing Agent

Document Processing Agent (DPA) è uno strumento software per l'elaborazione, la classificazione, la fascicolazione e l'archiviazione automatica di grandi volumi di documenti, che mira ad escludere o portare a livelli minimi l’intervento umano.

Si tratta di un “agente autonomo di trattamento documentale”, con funzionalità di visione artificiale, interpretazione semantica delle immagini, estrazione, comprensione e validazione dei contenuti e archiviazione del documento originale e dei metadati automaticamente estratti in un repository che ne consenta la conservazione e la consultazione.

Il sistema è stato progettato con lo specifico scopo di essere fortemente modulare e di conseguenza risulta configurabile in tutti i suoi aspetti: dai sistemi di lettura dell'input, a quelli di scrittura dell'output, all'integrazione con molteplici middleware e applicazioni già esistenti nel contesto aziendale.

 

Contesto
Gli strumenti oggi utilizzati per il trattamento documentale (OCR e Document Management System) hanno dimostrato di non essere efficaci in quanto la gestione manuale delle eccezioni va ad annullare i benefici prodotti dalla tecnologia.

Esistono, infatti, realtà in cui - ancora oggi - ci si trova a gestire in maniera totalmente manuale i processi documentali necessari per l'espletamento di pratiche o l'erogazione di servizi. Ad esempio, nel mondo assicurativo, la rete di agenzie sparse sul territorio produce un flusso fortemente asincrono e disomogeneo di documenti (documenti di identità, moduli compilati, libretti di circolazione,...) verso le sedi centrali dove un gran numero di addetti aggrega i documenti per pratica e segnala eventuali anomalie. In questi contesti, il costo per la gestione delle pratiche risulta particolarmente rilevante e il lavoro piuttosto stressante.

DPA è la risposta a queste esigenze: un sistema intelligente in grado di passare dalla semplice digitalizzazione dei flussi documentali in ingresso (fatture passive, cartelle cliniche, email, ecc.), ad un livello più evoluto capace di sfruttare tutta l’informazione disponibile nel documento e non solo il testo scritto facendo, quindi, convergere l’approccio basato sulla visione artificiale con quello testuale/semantico.

Il sistema
Il cuore di DPA è costituito da Grafema, un'applicazione che coordina vari moduli esterni (ICR, motore semantico, document management system,...) per raggiungere l'obiettivo di automatizzare la gestione dei flussi documentali.
Grafema è un'applicazione che si colloca sopra l'OCR consentendo di sfruttarne appieno le potenzialità di lettura e, al contempo, arricchendo il processo
Grafema implementa algoritmi e procedure che ottimizzano le funzioni base di lettura, consentendo di estrarre dal documento solo il contenuto di interesse senza dover definire in maniera rigida le zone in cui andare a leggere. Ad esempio, possiamo estrarre da un flusso di documenti eterogenei le partite iva, i codici fiscali, i numero d'ordine, ecc. senza sapere, per ogni documento, dove esattamente è posizionato il dato richiesto.
Si tratta di un software fortemente modulare e dinamico, che può essere riprogrammato con semplicità (tramite linguaggio di scripting) ed espanso nelle funzionalità, dando così la possibilità a system integrator e utenti finali di implementare funzioni specifiche richieste da contesti verticali.
Questa caratteristica consente di integrare a valle del processo di lettura un sistema semantico che provveda al tagging dei contenuti letti e proceda ad un'eventuale classificazione automatica dei documenti in ingresso.
Una volta che i documenti sono stati processati e dati e metadati sono stati acquisiti, Grafema consente di "salvare" queste informazioni in qualunque formato e su qualsiasi sistema che esponga API. Solo a titolo di esempio, è stato realizzata l'integrazioine con uno dei sistemi documentali più noti: Alfresco.
Ma Grafema può fare molto di più: può, ad esempio, integrarsi con sistemi di workflow (BPMS) per agganciarsi ai processi di business aziendali.

Configurazione
Come si è visto, DPA è una suite composta da componenti completamente integrati tra loro che, tuttavia, possono però essere usati anche separatamente.
La configurazione di tutto il sistema può essere facilmente realizzata tramite l'editing di semplici file di testo


Kernel OCR
Il kernel del sistema di lettura è costituito da un ICR sviluppato da Vega che offre elevate prestazioni e possibilità di verticalizzazioni a basso livello in contesti particolari.
Tuttavia, esso può essere facilmente rimpiazzato con qualsiasi altro sistema OCR che esponga API per la chiamata alle funzioni di lettura.


Importazione/Esportazione dati lettura e integrazione con sistemi esterni
Grafema può scrivere i dati letti ed elaborati su file di qualsiasi formato, salvarli su DB, inviare i contenuti via mail, riversare le informazioni in sistemi ERP o programmi di contabilità, ecc.
Analogamente a quanto avviene per l'output, Grafema può leggere i documenti da processare da svariate sorgenti: directory di spool, fax server, server FTP,...
Anche in questo caso, solo la fantasia è un limite per Grafema!


Caratteristiche Tecniche

  • Suite di applicazioni integrate basate prevalentemente su tecnologia Java.
  • Kernel OCR sviluppato in C++ per ambiente Windows. Previsto porting su Linux.
  • Disponibile l'integrazione con Alfresco (www.alfresco.it) come sistema di gestione documentale.
  • Lettura dell'input da diverse tipologie di sorgenti (directory, fax server, FTP,...)
  • Possibilità di scrittura contemporanea su molteplici risorse (file, database, applicazioni, SMTP,...)