DocDataExtraction (DDE)

Cos’è

La tecnologia DocDataExtraction (DDE), interamente sviluppata in SATA, costituisce il sistema più efficiente per estrarre in modo quasi automatico i contenuti da documenti in formato PDF raster, PDF vector e SPOOL ed è caratterizzata da brevissimi tempi di set-up e da una altissima percentuale di successo. Ha la capacità nativa di produrre qualunque tipo di formato strutturato di output, garantendo livelli molto spinti di interoperabilità.

Sul mercato internazionale, e in parte anche nazionale, esistono alcuni altri strumenti di Intelligent Data Capture (IDC) che non abbiamo mancato di studiare e analizzare nella loro evoluzione. Rispetto alle altre proposte riteniamo che la soluzione DDE presenti sicuri vantaggi sia sul piano tecnologico che su quello commerciale.

Scarica la presentazione SATA-DDE-2017.pdf

Caratteristiche

DocDataExtraction è stato pensato e sviluppato per garantire una serie di peculiarità:
  • Molti clienti. SATA lavora da sempre per piccole e medie imprese e ha nel suo DNA la spinta a realizzare soluzioni funzionalmente potenti ma semplici da usare e di costo ragionevole. Il modello di business è quindi basato sulla possibilità di raggiungere molti clienti con una soluzione altamente ingegnerizzata piuttosto che pochi clienti da cui farsi mantenere con progetti costosi di customizzazione. L’utilizzo delle nostre soluzioni anche da parte di clienti importanti è una garanzia sulla serietà della nostra proposta.
  • Varietà di applicazioni. Le soluzioni SATA sono adatte a un’ampia varietà di clienti potenziali, che vanno dalle aziende medio-piccole ai fornitori di soluzioni di gestione documentale e archiviazione digitale, dalle ASL alle banche, ma comprendono anche commercialisti e altri fornitori di servizi contabili, oltre ai circuiti di fatturazione elettronica.
  • Bassa soglia di ingresso. L’impegno necessario alla messa in produzione di un nuovo utente, per quanto molto contenuto grazie alle soluzioni tecnologiche utilizzata, si giustifica con un volume di almeno poche decine di documenti/anno trattati. Il che significa poter offrire il sistema a centinaia di migliaia di imprese ed enti di varia natura.
  • Pronto per il cloud. Tante applicazioni web-based si proclamano “predisposte per erogazione as-a-service”. La nostra soluzione unisce un’interfaccia utente web molto intuitiva, con un’architettura modulare scalabile e soprattutto adatta a gestire elevati volumi di dati parallelizzando le operazioni più costose dal punto di vista computazionale.
  • Modello di servizio flessibile. Le soluzioni tecnologiche adottare si prestano a diversi modelli di erogazione del servizio, da un approccio strettamente di “outsourcing” con verifica centralizzata, al coinvolgimento diretto del cliente che può verificare autonomamente le proprie fatture, fino alla possibilità di gestire flussi misti in parte non strutturati (provenienti da carta) e in parte strutturati (formati proprietari, PDF vector, spool).

Vantaggi Tecnologici

DocDataExtraction è stato pensato e sviluppato per garantire una serie di peculiarità:
  • Completezza di estrazione. Fin dall’inizio ci siamo posti un obiettivo molto ambizioso, ovvero generare contenuti strutturati secondo lo standard CBI2 4 “white label”. Questo ci ha obbligati a risolvere problematiche spinte riguardo al dettaglio IVA, alle modalità e alle scadenze di pagamento, e poi righe del corpo e riferimenti ad altri documenti, ottenendo un livello di completezza che finora non abbiamo osservato tra i nostri concorrenti.
  • Affidabilità di estrazione. Per i PDF raster e immagine utilizziamo il miglior motore OCR sul mercato, ABBYY Fine Reader, inoltre utilizziamo una combinazione di tecniche avanzate, dai controlli sintattici alla fuzzy-logic e ai controlli semantici su singoli campi e su insiemi di campi, applicando in modo selettivo anche logiche posizionali e riposizionamenti dell’immagine. La scelta di utilizzare un modello del documento ci distingue da alcuni concorrenti che scelgono di applicare regole euristiche ad ogni estrazione senza capitalizzare sulla conoscenza già acquisita, ed è molto premiante in termini di percentuali di successo.
  • Specializzazione sui tipi di documento. Anche se naturalmente molti componenti sono identici, grazie all’intrinseca modularità dell’impianto abbiamo preferito specializzare le soluzioni in funzione del tipo di documento da trattare proprio per catturare e gestire al meglio tutte le specificità.
  • Architettura distribuita. L’architettura è distribuita in quanto la fase di estrazione lato server può essere eseguita attivando in parallelo uno o più moduli di estrazione per ottenere le migliori prestazioni.  L’accesso remoto può essere ottenuto sia con VPN che con protocollo http, rendendo di fatto il sistema già pronto per essere erogato in modalità SaaS.