Data quality
La qualità dei dati aperti è una componente fondamentale per la loro diffusione ed utilità. Ecco le linee guida.
La data quality
La qualità dei dati è una componente fondamentale per la loro diffusione ed utilità.
Il miglioramento della qualità dei dati e la diffusione delle tecniche di misurazione sono strettamente legati a diversi fattori, tra cui l’adozione di modelli di qualità condivisi. Per valutare l'affidabilità dei dati, è fondamentale quindi definire metriche che permettano di quantificarne la qualità in modo oggettivo.
Qualità degli Open Data
Nel caso dei dataset Open Data, la qualità viene identificata come l’adeguatezza dei dati al processo in cui vengono utilizzati. Lo standard ISO/IEC 25012:2008, recepito come norma italiana UNI CEI ISO/IEC 25012:2014, definisce le caratteristiche specifiche necessarie per descrivere e valutare la qualità dei dati. Lo Standard UNI CEI ISO/IEC 25024:2016 “Misurazione della qualità del dato” estende l’UNI CEI ISO/IEC 25012 al campo delle misurazioni, definendo 63 misure di qualità applicabili alle 15 caratteristiche di qualità dei dati, con le relative funzioni di calcolo.
Nel caso di dati territoriali, uno standard specifico di riferimento per la qualità è l’ISO 19157 Geographic information -- Data quality.
Per garantire la qualità di un dataset pubblicato in formato aperto da una Pubblica Amministrazione, è importante considerare i seguenti aspetti:
- l’assegnazione di una licenza aperta
- l’adozione del profilo di metadati DCAT-AP_IT per la meta-datazione
- una descrizione del dataset chiara e obiettiva
- l’utilizzo di un formato di file aperto e standardizzato
Anche il database che raccoglie le informazioni deve garantire:
- completezza: tutti i campi compilati per ogni record
- accuratezza: la presenza di errori deve essere ridotta al minimo
- coerenza: le informazioni riportate non sono contraddittorie
- tempestività: il dato e i suoi attributi sono aggiornati rispetto al procedimento a cui si riferiscono
Per quanto riguarda le informazioni contenute nei dataset, devono garantire:
- accessibilità: la facilità di utilizzo dell’informazione
- accuratezza: rappresenta il grado con cui l’informazione descrive correttamente il fenomeno
- coerenza: capacità delle capacità delle fonti di fornire informazioni prive di contraddizioni
- confrontabilità: possibilità̀ di paragonare l’informazione nel tempo e nello spazio
- credibilità: riguarda la fiducia che gli utilizzatori ripongono nel soggetto che ha prodotto l’informazione
- interpretabilità: la semplicità con cui si comprendono le caratteristiche del dato
- puntualità: allineati al calendario di rilascio dell’informazione
- rilevanza: la capacità di un’informazione di soddisfare i bisogni di conoscenza
- tempestività: il ritardo con cui l’informazione viene diffusa rispetto al periodo di riferimento
AgID Agenzia per l'Italia Digitale rende disponibili le Linee Guida sul suo sito ufficiale.
Qualità dei dati di Milano Statistica
I dati resi disponibili da Milano Statistica utilizzano lo standard SDMX (Statistical Data and Metadata Exchange): è uno standard internazionale progettato per facilitare lo scambio e la condivisione di dati e metadati statistici tra organizzazioni e sistemi.
Sviluppato da un consorzio di organizzazioni internazionali, tra cui il Fondo Monetario Internazionale (IMF), Eurostat, l'Organizzazione per la Cooperazione e lo Sviluppo Economico (OECD), le Nazioni Unite, la Banca Mondiale e la Banca Centrale Europea (BCE), lo standard SDMX mira a migliorare l'efficienza, l'interoperabilità e la qualità nel trattamento delle statistiche.
La data quality nello standard SDMX è un elemento fondamentale per garantire l’affidabilità e l’usabilità dei dati. Come per gli Open Data, le dimensioni della qualità seguono standard internazionali e si articolano in:
- rilevanza: misura l’utilità dei dati per gli utenti
- accuratezza: valuta quanto i dati rappresentano correttamente il fenomeno osservato
- tempestività e puntualità: riflette il tempo di pubblicazione e la regolarità rispetto a un calendario predefinito
- coerenza: indica l’assenza di contraddizioni nei dati provenienti da diverse fonti
- comparabilità: garantisce la possibilità di confrontare i dati nel tempo e tra regioni o paesi
- accessibilità e chiarezza: misura la facilità con cui i dati possono essere ottenuti, interpretati e utilizzati