XDOCS: resoconto di fine progetto

By 06/12/2017Progetti

Il 31 ottobre 2017 è terminato il progetto XDOCS, che ha avuto per obiettivo lo studio, la prototipazione e la sperimentazione di una tecnologia informatica innovativa capace di facilitare la fruizione on-line di documenti storici da parte di un’ampia platea di studiosi o di semplici appassionati. I documenti sono resi disponibili in formato digitale, articolati per pagina, e accessibili tramite indici che esprimono i contenuti di ciascuna pagina. In questo modo si evita che gli utenti debbano recarsi fisicamente presso gli archivi storici di interesse, e poi che debbano maneggiare tali documenti accelerandone il decadimento.

La soluzione XDOCS è stata specificamente concepita per essere applicata a lunghe serie di documenti storici dello stesso tipo, come gli atti di stato civile o le registrazioni catastali, la cui numerosità rende particolarmente utile disporre di un archivio di pagine che possano essere navigate singolarmente e selezionate sulla base dei rispettivi contenuti. In altre parole, la soluzione non intende limitarsi a indicizzare i documenti interi, ad esempio un intero registro di stato civile, possibilità per altro già disponibile in molti casi, ma entrare nel merito di ciascun atto in base ai suoi contenuti.

Tenuto conto del potenziale interesse degli utenti, si è deciso di iniziare dai registri delle nascite rinviando a un secondo momento l’analogo trattamento dei registri dei matrimoni e dei decessi. Ogni registro, quindi anche quello delle nascite, è caratterizzato dal centro abitato di riferimento (tipicamente il municipio) e dall’anno di registrazione. Riguardo al centro abitato si è deciso di lavorare su campioni di diversa provenienza; riguardo all’anno si è optato per i registri successivi all’unità d’Italia (più precisamente dal 1861 al 1900) in quanto presentano una struttura sostanzialmente comune.

La digitalizzazione di un registro produce una serie di immagini ognuna delle quali presenta una coppia di pagine adiacenti che contengono tre atti: uno in alto a sinistra, uno a cavallo delle due pagine, e uno in basso a destra. Di ogni atto di nascita interessano virtualmente molti dati; nel corso del progetto ci si è concentrati su quelli principali, in particolare nome e cognome, sesso e data di nascita (mese e giorno), mentre non si esclude la possibilità di aggiungere dati secondari come professione, nome del padre, nonno vivente o defunto (fu), nome e cognome della madre, eccetera.

La tecnologia XDOCS interviene a valle dell’operazione di dematerializzazione che, tramite scanner e (in prospettiva) tramite fotocamera su dispositivo mobile, digitalizza i documenti. L’immagine digitale è quindi l’oggetto di partenza del processo che deve separare e isolare i tre atti, e poi estrarre da ogni atto gli elementi informativi caratterizzanti da utilizzare come indici in sede di navigazione. È evidente che la completezza dell’indicizzazione e il grado di confidenza di ciascun indice dipendono dalla regolarità del documento e dalla qualità del testo manoscritto ivi presente.

Allo scopo di ottenere una indicizzazione completa e corretta, la soluzione XDOCS utilizza un’efficace combinazione di due potenti strumenti. Il primo è la capacità di estrarre e riconoscere i valori manoscritti degli indici principali sopra richiamati (vale a dire nome, cognome, sesso e data di nascita), il secondo è la possibilità offerta agli utenti registrati di correggere a mano gli indici errati e di inserire quelli mancanti secondo un approccio wiki-like. Questa possibilità si esercita ogni qualvolta l’utente esamina un certo atto potendone naturalmente consultare anche l’immagine originale.

Per quanto riguarda la fase di estrazione degli indici principali, attività in carico a utenti specialisti che chiamiamo “curatori”, buoni risultati si ottengono attraverso la definizione del modello (template) del tipo di documento, con relative regole di estrazione. Tale modello insegna al sistema XDOCS come separare un’immagine nei tre atti componenti e poi, per ogni atto, in quali finestre cercare i valori degli indici principali. Sulla tecnica del template SATA può vantare una lunga esperienza, arricchita in questo caso dalla capacità di estrarre e riconoscere valori (parole, numeri) scritti a mano.

Per quanto riguarda invece la fase di completamento degli indici principali (e secondari, se previsti), la soluzione XDOCS parte dal presupposto che il riconoscimento del testo manoscritto risulti sufficiente per favorire la navigazione, ma sia spesso incompleto. Gli indici disponibili, a cui si sommano quelli certi relativi al municipio e all’anno, permettono in ogni caso all’utente di giungere a un atto potenzialmente interessante: l’utente può capire se è l’atto che cercava esaminando l’immagine originale, e può cogliere l’occasione per riportare manualmente i dati che ha letto nei campi degli indici.

Lo scopo primario della soluzione XDOCS, fruibile in modalità SaaS, è fornire finalmente uno strumento semplice ed efficace a chiunque intenda recuperare documenti storici e renderli disponibili on-line a un ampio pubblico. Ciò riguarda in primo luogo gli archivi storici pubblici (comunali) che sono ricchi di documenti di grandissimo interesse ma poveri dal punto di vista della loro accessibilità. Ma si estende anche ai documenti storici di grandi organizzazioni (banche, assicurazioni) rispetto ai quali non risulta siano attivi al momento progetti sistematici di recupero e valorizzazione.

Al tempo stesso la tecnologia XDOCS è in grado di assicurare un ulteriore vantaggio competitivo ai servizi di SATA, riguardanti il trattamento quasi automatico dei documenti di business, introducendo una nuova metodologia di riconoscimento della scrittura corsiva. Per questo motivo gli algoritmi di riconoscimento della scrittura manuale sono stati progettati come un componente software autonomo, configurabile e adattabile ad altri tipi di documento: lo sforzo, non piccolo, di costruzione del componente sarà bilanciato dalla possibilità di riutilizzarlo in altri contesti applicativi.

Il continuo avanzamento tecnologico è infatti l’unico strumento di cui SATA dispone per alimentare la propria filiera con soluzioni sempre nuove che le consentano di difendere le posizioni acquisite e se possibile di accrescere la competitività. L’arricchimento dell’offerta si realizza anticipando con le proprie soluzioni una domanda che sta rapidamente aumentando, e non solo in Italia, specie nel settore della dematerializzazione. La capacità di estrarre indici e contenuti dalla scrittura manuale serve indubbiamente a potenziare il ruolo di SATA rispetto ai suoi attuali partner e competitor.

La piattaforma XDOCS si trova attualmente nello stato di prototipo avanzato, vale a dire completo delle principali funzionalità (compresa la profilazione degli utenti) e già sottoposto a una fase di test sul campo e di successiva messa a punto per rimuovere malfunzionamenti e migliorare le prestazioni. Come previsto, la piattaforma è costituita da un componente locale per l’estrazione degli indici a supporto del cosiddetto “curatore”, a da un componente web per la pubblicazione dei contenuti accessibili a tutti e il completamento degli indici da parte degli utenti registrati.