Il servizio DDE (DocDataExtraction) assicura l’estrazione di tutti i contenuti dei tipici documenti di business, vale a dire ordini, conferme d’ordine, documenti di trasporto e fatture, disponibili come file PDF.
Il servizio DDE (DocDataExtraction) assicura l’estrazione di tutti i contenuti dei tipici documenti di business, vale a dire ordini, conferme d’ordine, documenti di trasporto e fatture, disponibili come file PDF.
Il servizio DDE è automatico e comprende l’acquisizione dei documenti originali, la trasformazione dei documenti PDF in un formato strutturato interno, la sua conversione verso formati standard (es. XML-SdI, Peppol 3.0) o proprietari, la restituzione al cliente dei file prodotti. Lo scambio di documenti avviene via sFTP.
Il servizio DDE garantisce prestazioni eccellenti, in quanto già specializzato su quei tipi di documento per i quali ottimizza i tempi di realizzazione dei modelli (o template) che ne rappresentano il layout. I modelli possono essere realizzati da utenti evoluti non necessariamente dotati di competenze informatiche.
Il servizio DDE è in cloud, quindi fuori dai sistemi gestionali delle aziende utenti che possono comunque importare i risultati del trattamento anche in formato custom. La velocità di estrazione può essere regolata attivando in parallelo uno o più estrattori. L’unico modulo interattivo è il Verifier, con cui correggere eventuali errori di estrazione.
Le lingue native del servizio DDE sono italiano e inglese. È comunque possibile estrarre contenuti scritti in altre lingue purché si siano definiti i template dei documenti da trattare.
Fin dall’inizio il servizio DDE ha perseguito un molto ambizioso, ovvero generare contenuti strutturati secondo lo standard CBI2 4 “white label”. Questo ha obbligato ad affrontare a risolvere problematiche spinte riguardo a dettaglio IVA, modalità e scadenze di pagamento, ottenendo risultati di tutto rispetto.
Dal 2014, con la fatturazione elettronica obbligatoria per la Pubblica Amministrazione, sono stati introdotti ulteriori forti miglioramenti, in particolare alla capacità di interpretare completamente i contenuti delle righe del corpo e del piede del documento, dove si possono trovare informazioni annegate in un testo libero.
Risolvere questi problemi ha portato il servizio DDE a un livello di completezza ed efficienza che finora non abbiamo osservato tra i nostri concorrenti, sia riguardo alle fatture che agli ordini che ai documenti di trasporto.
Per i documenti PDF testuali o semi-testuale il servizio DDE utilizza algoritmi proprietari di estrazione del testo che assicurano un’efficacia del 100% su tutti i campi dei documenti trattati.
Per i PDF raster e immagine il servizio DDE utilizza OCR di terze parti, prevalentemente Google in quanto particolarmente adatto all’offerta di servizi in cloud oppure, per singoli clienti con grandi volumi, ABBYY Fine Reader.
Inoltre il servizio DDE utilizza una combinazione di tecniche avanzate, dai controlli sintattici alla fuzzy-logic e ai controlli semantici su singoli campi e su insiemi di campi, applicando in modo selettivo anche logiche posizionali e riposizionamenti dell’immagine.
La scelta di utilizzare i template dei documenti distingue il servizio DDE da alcuni concorrenti che scelgono di applicare tecniche euristiche o di machine learning, ed è molto premiante in termini di percentuali di successo.
Di fronte a un nuovo tipo di documento il servizio DDE tenta di estrarre tutte i dati che vi sono contenuti applicando una serie di logiche piuttosto sofisticate, e costruisce così una bozza del template.
Eventuali campi su cui il servizio DDE non ha certezza dell’interpretazione sono segnalati con un meccanismo a semafori che esprime anche una valutazione diagnostica (dato mancate, sintatticamente errato, non attribuibile).
L’operatore addetto alla costruzione del template parte perciò da tali informazioni e provvede a correggere o a completare i soli campi dubbi ottenendo così il template finale in tempi molto contenuti.
Da una valutazione eseguita su molte migliaia di template costruiti, il tempo medio di formazione di un template è nell’ordine dei 15 minuti, con un minimo di pochi minuti e un massimo che supera raramente la mezz’ora.
La dimensione fisica del documento deve risultare un A4 equivalente. Sono accettati documenti con dimensioni inferiori quindi non perfettamente identiche a un A4. Non sono accettate dimensioni superiori da A4 oppure estemporanee o irregolari.
Il documento può avere sviluppo verticale o orizzontale rispetto all’orientamento del testo che contiene. Non sono riconosciuti eventuali contenuti ortogonali all’orientamento del testo.
No, questa pratica rende poco efficace l’applicazione del template. Per omogeneizzare il formato in questo caso si consiglia di partire da un file XLS, di cui possiamo fornire un esempio, e poi generare il PDF tramite stampante virtuale.
No, il documento non deve essere soggetto a protezione, in ogni caso l’estrazione delle pagine deve essere abilitata. In particolare, non possono essere elaborati PDF per i quali l’apertura richieda una password; non possono essere elaborati PDF che, pur aprendosi senza richiesta di password, presentino la protezione con password sulla funzionalità “Copia contenuto”.
Pulizia dello sfondo e nitidezza dei caratteri sono fattori decisivi per il trattamento di PDF immagine. Eventuali documenti originali che presentano gravi carenze da questo punto di vista sono segnalati in sede di inizializzazione, in quanto non darebbero comunque buoni risultati in termini di interpretazione. La risoluzione ideale per la scansione è 300 dpi (non minore ma nemmeno maggiore).
La particolarità principale di questi tipi di fatture (bollette) è che il corpo generalmente contiene dati sui consumi, e quindi non è estraibile come corpo classico. Per queste fatture il servizio DDE estrae come corpo tante righe quanti sono gli assoggettamenti IVA, con una descrizione del tipo “Addebito servizi erogati nel periodo xx/xx/xxxx – yy/yy/yyyy” dove le date che rappresentano gli estremi del periodo sono estratti dalla testata del documento.
I template sono associati alla partita IVA dell’emittente. Nel caso che l’emittente abbia sede in un paese Europeo la partita IVA esiste sempre (incluso il prefisso del paese ISO 3166-1 alpha-2 code). Se l’emittente ha sede in un paese extra Europeo chi crea il template usa la seguente convenzione per la partita IVA: EXTRAxxxxxx (11 caratteri in tutto), e in questo caso il riconoscimento del template si basa su altri dati anagrafici come ragione sociale, telefono, e-mail, indirizzo.
In questo caso il template non è riconosciuto e l’estrazione presenta più errori del dovuto. Se il template di quell’emittente esiste è possibile selezionarlo e riapplicarlo per avere un risultato più affidabile, altrimenti il template può essere creato sfruttando e correggendo i dati già estratti. Come già detto in P01, nel caso di emittente extra-europeo DDE non si aspetta la partita IVA e ricerca il template sulla base di altre informazioni.
In questo caso è necessario riportare sia la partita IVA sia il codice fiscale del destinatario, che quindi devono essere presenti entrambi sul documento. Il codice fiscale va riportato in una qualunque posizione della testata o del piede con un’etichetta riconoscibile in modo da poter riconoscere il campo.
Le fatture indirizzate a enti pubblici o aziende e recapitate tramite SDI devono riportare il codice destinatario (7 caratteri per destinatari privati e 6 per quelli pubblici), o la PEC (solo nel caso di destinatari privati). Tale codice (o indirizzo PEC) va riportato in una qualunque posizione della testata o del piede con un’etichetta riconoscibile in modo da poter riconoscere il campo.
Le fatture indirizzate a enti pubblici o aziende e recapitate tramite la rete Peppol devono riportare il Peppol ID del destinatario. Il Peppol ID va riportato in una qualunque posizione della testata o del piede con un’etichetta riconoscibile in modo da poter riconoscere il campo.
La risposta è sì, va informato chi realizza il template. Nel template è possibile inserire espressioni regolari che, se il cliente utilizza etichette sufficientemente stabili nell’ambito della descrizione, possono estrarre i dati richiesti. In casi sporadici è necessario scrivere del vero e proprio codice associato allo specifico template per estrarre quello che viene richiesto.
La condizione migliore è che nel PDF sia presente su ogni riga della fattura un “codice IVA” che esprime l’aliquota IVA o l’articolo di esenzione, e che sia citato in una specifica riga del riepilogo IVA. Questa informazione è obbligatoria nel tracciato SDI e può essere dedotta automaticamente solo in caso di unico assoggettamento. Nel riepilogo IVA in caso di aliquota zero è indispensabile citare nel PDF anche l’articolo di esenzione, o riferimento normativo.
Questa è la prassi consigliata, soprattutto da gennaio 2021 quando sono proliferati i “codici natura”. La cosa migliore è che il codice natura sia inserito all’inizio della descrizione dell’articolo di esenzione, se non fosse possibile riportare le nature in fattura si può creare una tabella che metta in corrispondenza i codici natura con le descrizioni degli articoli di esenzione. L’utente in questo caso deve inviare la tabella al supporto clienti tramite ticket, sia per l’inizializzazione che per successivi aggiornamenti.
Tipicamente sono richiesti: (a) un chiaro riferimento alle casse previdenziali, in accordo con le dichiarazioni fatte a livello anagrafico, e del relativo assoggettamento IVA, e (b) un chiaro riferimento alla ritenuta d’acconto e al totale da pagare. Fanno eccezioni i soggetti a regime forfettario.
Innanzitutto ci sono errori di natura sintattica, quindi partita IVA non valida, codice fiscale non valido, IBAN non valido, CIG troppo corto o lungo, CUP troppo lungo. Un altro problema è l’applicazione di sconti di riga rispetto al totale imponibile, visto che SDI ha una precisa logica per cui può essere necessario inserire una riga di arrotondamento. Anche le spese accessorie e il bollo addebitato in fattura per SDI devono avere delle righe specifiche, se non sono presenti nel PDF devono esserci valori nel piede della fattura che ne consentano l’individuazione e la corretta mappatura.
Il servizio Full Invoice fornisce il trattamento completo secondo la normativa vigente delle fatture emesse e ricevute partendo dal loro formato originale.
Scopri di piùIl servizio Full Invoice EU assicura il trattamento completo delle fatture inviate e ricevute sulla rete Peppol nei formati standard Europei.
Scopri di piùIl servizio ODE (OtherDocExtraction) assicura l’estrazione dei contenuti d’interesse da documenti PDF diversi da quelli di business trattati da DDE.
Scopri di piùQualunque gestionale dei fornitori della sanità è in grado di emettere DDT in formato PDF, e Full NSO Peppol consente di estrarne tutti i contenuti.
Scopri di piùIl servizio Full NSO Peppol assicura il trattamento completo degli ordini secondo la normativa vigente in materia di acquisti pubblici in rete.
Scopri di più