Estrazione PDF – Altri doc

Il servizio ODE (OtherDocExtraction) assicura l’estrazione dei contenuti d’interesse da documenti PDF diversi da quelli di business trattati da DDE e quindi di varia natura, tipo e formato.

Esso presenta, in particolare, le seguenti caratteristiche:
1

Il servizio ODE è automatico e comprende l’acquisizione dei documenti originali, la trasformazione di documenti PDF in un formato strutturato interno, la conversione verso un formato richiesto dal cliente e la restituzione del file prodotto. Lo scambio dei documenti avviene via sFTP.

2

Al contrario di DDE, il servizio ODE non è già predisposto per trattare determinati tipi di documento, ma per ogni progetto si definiscono le classi documentali che servono sempre che non siano state definite da precedenti progetti.

3

Le funzionalità del servizio ODE vengono adattate progetto per progetto allo specifico tipo di documento in modo da soddisfare al meglio le peculiari richieste del cliente. Rimane, come in DDE, l‘approccio basato su template, che garantisce la massima affidabilità di estrazione e, per i PDF immagine (che sono molto frequenti), l’utilizzo di OCR ad alte prestazioni (tipicamente Google).

4

Il servizio ODE è in cloud, quindi indipendente dal sistema gestionale dell’azienda utente che può comunque importare i risultati del trattamento anche in formato custom. Le prestazioni della fase di estrazione possono essere regolate attivando in parallelo uno o più estrattori. L’unico modulo interattivo è il Verifier, che permette di correggere eventuali errori di estrazione.

FATTORI DISTINTIVI

Completezza e affidabilità di estrazione!

Il servizio ODE trae vantaggio dall’esperienza acquisita con il servizio DDE SATA nell’estrazione di contenuti sia da PDF vettoriali, impiegando algoritmi proprietari, sia da PDF immagine, impiegando i migliori OCR (fino all’anno scorso ABBYY, oggi Google).

Il servizio ODE ha potenziato in particolare la possibilità di arricchire i template di estrazione con specifiche funzioni software che sostituiscano valori o derivino dati non presenti sul documento. I risultati sono molto apprezzati, sia in termini di qualità che di performance, anche in contesti come quelli bancari che richiedono la massima accuratezza.

Ottimizzazione del singolo progetto!

Il servizio ODE nasce per rispondere in modo ottimizzato alle esigenze del cliente, quindi spesso un progetto parte con una Proof of Concept (POC) che mette in luce tutte le problematiche di dettaglio, dalla qualità dei documenti ai volumi da trattare, ai tempi di elaborazione e fino ai controlli da applicare.

La form di verifica dei documenti con valori mancanti, errati o incerti viene normalmente realizzata ex novo per ogni progetto allo scopo di consentire all’azienda utente la migliore esperienza d’uso. In pratica mentre DDE è un servizio di massa, ODE è tipicamente personalizzato e ottimizzato per ottenere il massimo compatibilmente con i vincoli di progetto.

Integrazione con strumenti di Intelligenza Artificiale!

Alcuni progetti ODE hanno messo in luce la necessità di classificare i documenti, che talvolta devono anche essere separati essendo inclusi in un unico file.
A seconda delle circostanze e della disponibilità di esempi si possono integrare nel servizio ODE sia funzionalità di classificazione euristiche basate su template, sia funzionalità di intelligenza artificiale basato sul riconoscimento di immagini (o testi).

Questo secondo approccio è applicabile solo partendo da una base di almeno 500-1000 esempi già classificati, ma è molto promettente a questo scopo. In entrambi i casi serve poi una funzione per recuperare eventuali errori di classificazione con l’intervento dell’utente.

FAQ

Caratteristiche del servizio

È possibile riconoscere la spunta di caselle predefinite (checkmark) presenti nel documento. È anche possibile identificare campi firma, tramite template eventualmente arricchito, e riconoscere se ci sia o meno qualcosa di scritto all’interno.

No, il documento non deve essere soggetto a protezione, in ogni caso l’estrazione delle pagine deve essere abilitata. In particolare, non possono essere elaborati PDF per i quali l’apertura richieda una password; non possono essere elaborati i PDF che, pur aprendosi senza richiesta di password, presentino la protezione con password sulla funzionalità “Copia contenuto”.

Pulizia dello sfondo e nitidezza dei caratteri sono fattori decisivi per il trattamento di PDF immagine. Eventuali documenti originali che presentano gravi carenze da questo punto di vista sono segnalati in sede di inizializzazione. La risoluzione ideale per la scansione è 300 dpi (non minore ma nemmeno maggiore).

Tra progetti in produzione e POC esiste ormai un’ampia varietà di tipi di documenti trattati, che vanno dai rimborsi di contravvenzioni per automobili noleggiate alle lettere di pignoramento, alla individuazione di campi firma su moduli eterogenei, agli F24 e agli estratti conto bancari.

il Codice Destinatario è XXXXXXX (sette volte X). Per i paesi UE la partita IVA esiste sempre e va specificata con il prefisso del codice paese (ISO 3166-1 alpha-2 code). Per i paesi extra-UE la convenzione per la partita IVA è: Codice paese + Valore, dove codice Paese è ISO 3166-1 alpha-2 code e Valore è una stringa lunga al massimo 28 caratteri.

SCOPRI GLI ALTRI SERVIZI