Primi risultati del progetto regionale XDOCS per l’indicizzazione semi-automatica di documenti storici

By 22/03/2017Progetti

Si sta concludendo la prima fase del progetto XDOCS che studia, sviluppa e sperimenta una tecnologia informatica innovativa che faciliti in modo determinante la fruizione di documenti storici da parte di un’ampia platea di studiosi o di semplici appassionati.

Questa soluzione è concepita per essere applicata in particolare a lunghe serie di documenti storici dello stesso tipo, come gli atti di stato civile o le registrazioni catastali, la cui numerosità è parzialmente controbilanciata dal presentare una struttura ripetitiva.

La tecnologia XDOCS si applica alle scansioni, e indicizza ciascun documento estraendone gli elementi informativi caratterizzanti. La completezza dell’indicizzazione e il grado di confidenza di ciascun indice dipendono dalla complessità del documento e dalla qualità del testo manoscritto ivi presente. La soluzione XDOCS prevede così la possibilità di abilitare gli utenti finali a partecipare al suo completamento intervenendo sugli indici delle pagine che essi hanno occasione di visitare secondo un tipico approccio sociale wiki-like.

Nella prima metà del progetto, in collaborazione con il Laboratorio Softech-ICT dell’Università di Modena e Reggio Emilia, è stato completato il componente ACQUISISCI che prende in carico le immagini delle pagine di un registro e le restituisce rettificate, con esclusione del bordo e di forma rettangolare e standardizzata.

E’ in avanzato sviluppo il componente INDICIZZA, esso taglia e normalizza i tre atti di nascita che si trovano in ciascuna pagina rettificata e da ogni atto estrae le parole di interesse, poi confronta a due a due le coppie di parole per misurarne il grado di somiglianza (compreso fra 0 e 1), sfruttando le tecniche più avanzate di elaborazione di immagini.