Glossario
Il mondo dei dati dalla A alla Z
Questo glossario raccoglie e spiega i termini fondamentali per orientarsi nel mondo dei dati aperti.
L'obiettivo è fornire una guida accessibile e chiara per comprendere il linguaggio tecnico e i concetti chiave legati alla gestione, pubblicazione e utilizzo dei dati. Dalla descrizione dei formati e delle licenze, fino agli strumenti e alle tecnologie che facilitano l'accesso e l'integrazione delle informazioni, questa sezione è pensata per supportare chiunque voglia approfondire il valore e il potenziale dei dati aperti.
- Anonimizzazione
Processo di trasformazione dei dati personali attraverso cui viene impedita l'identificazione degli individui nei dataset risultanti. Questa tecnica permette la pubblicazione dei dati nel rispetto della normativa sulla protezione dei dati personali. Le metodologie principali utilizzate sono l'aggregazione statistica e la de-identificazione dei record. È fondamentale implementare rigorose misure di sicurezza per prevenire data breach che potrebbero compromettere la privacy degli interessati.
API (Application Programming Interface)
Protocollo grazie a cui un software è in grado di comunicare con un altro. Possono essere descritte come i termini attraverso cui uno sviluppatore invia istruzioni fra programmi.
Nel contesto dei dati, consente l'accesso programmabile via web alle risorse di un fornitore.
Il client effettua una request API specificando i dati richiesti per uno specifico uso. Questo meccanismo permette alle applicazioni di:
1. Recuperare dati specifici senza dover scaricare l'intero dataset
2. Ottimizzare l'utilizzo della banda di rete
3. Garantire l'accesso alla versione più aggiornata dei dati
4. Esporre funzionalità e risorse in modo strutturato e documentato
- Accesso automatizzato
Modalità di accesso ai dati eseguita da software attraverso API o interfacce dedicate, senza intervento umano diretto nella fase operativa.
- Agenzia per l’Italia Digitale (AgID)
Organo tecnico della Presidenza del Consiglio responsabile dell'attuazione dell'Agenda digitale italiana, promuove la digitalizzazione della Pubblica Amministrazione e la diffusione dell'utilizzo delle tecnologie dell'informazione e della comunicazione per supportare innovazione e crescita economica nazionale.
- App / Applicazione
Un'applicazione software progettata specificamente per l'ambiente web o per dispositivi mobili, che si distingue per la sua capacità di interagire con grandi database e sfruttare i dati aperti. La sua architettura permette l'elaborazione di informazioni in tempo reale e offre funzionalità personalizzate per l'utente, come ad esempio servizi basati sulla localizzazione geografica grazie all'integrazione con il GPS dei dispositivi mobili.
- Attribuzione
Requisito formale che impone di citare la fonte originale dei dati durante il loro utilizzo o redistribuzione. Questo obbligo viene specificato attraverso una licenza dati che, pur richiedendo il riconoscimento della provenienza, mantiene la conformità con i principi dell'Open Definition per la classificazione come open data. L'attribuzione rappresenta quindi un equilibrio tra la libertà di utilizzo dei dati e il riconoscimento di chi li ha prodotti, permettendo la tracciabilità della catena informativa senza compromettere la natura aperta dei dati stessi.
- Automazione dei dati
Processo automatizzato che permette di archiviare, trasmettere e presentare dati in modo efficiente, riducendo l'intervento manuale.
- Banca dati
In ambito informatico, una banca dati (o database o DB) è un insieme strutturato e organizzato di dati correlati, progettato per essere facilmente accessibile e utilizzabile tramite specifiche applicazioni software.
- Big Data
Indica un insieme di dati così vasto e complesso che non può essere gestito con i tradizionali sistemi informatici. La crescita esponenziale della quantità di dati disponibili, come quelli meteorologici o scientifici, ha stimolato lo sviluppo di tecnologie specializzate, architetture avanzate e linguaggi di programmazione dedicati alla loro elaborazione.
- Bulk
Set completo di dati disponibili per il download in formato massivo. I dati in bulk consentono di elaborare l'intero insieme su infrastrutture locali dell'utente. Questo tipo di accesso è tipicamente offerto come open data, ma può risultare poco pratico nel caso di big data o dati in tempo reale.
- Categoria / Tema
Una categoria, spesso indicata come tag, parola chiave o etichetta, è un termine associato a un'informazione (ad esempio una pagina web, un'immagine o un video) che ne descrive il contenuto. Questo sistema consente di classificare e ricercare informazioni utilizzando parole chiave. A una risorsa possono essere associate una o più categorie, facilitando agli utenti l'individuazione di altri contenuti correlati che condividono la stessa categoria.
- CKAN
CKAN è una piattaforma open-source sviluppata da Open Knowledge per la creazione di portali di dati, su cui il Comune di Milano pubblica i propri dataset Open Data. Offre funzionalità avanzate, tra cui la configurazione dei metadati, un’interfaccia web intuitiva per chi pubblica e consulta i dati, la possibilità di visualizzare anteprime, gestione dei permessi basata su organizzazioni e un’API per accedere sia ai dati che alle funzionalità della piattaforma.
- Cloud
Il cloud consente di archiviare dati gestiti da un’azienda di hosting, sollevando il proprietario dalla responsabilità diretta dell’archiviazione. I dati non risiedono su una singola macchina, ma possono essere distribuiti e spostati tra più server situati in diverse località. Gli utenti e i titolari dei dati non devono conoscere i dettagli tecnici del funzionamento, mentre l’azienda di hosting garantisce la disponibilità e l’accesso ai dati tramite internet.
- Codice sorgente
Il codice sorgente è costituito da file di codice informatico scritti dai programmatori per sviluppare software. Questo codice viene generalmente trasformato o "compilato" in una forma eseguibile dal computer dell’utente finale. Solitamente, l’utente non ha accesso al codice sorgente originale, a meno che non venga reso disponibile come open source.
- Collezioni di dati
I dataset si formano raccogliendo dati attraverso diverse modalità, come rilevamenti manuali, misurazioni automatiche (ad esempio dati meteorologici), indagini (dati censuari), registrazioni di decisioni (dati di bilancio), transazioni (spese), aggregazioni di registri diversi (statistiche criminali) o modelli matematici (proiezioni demografiche).
- Conversione
La conversione è un processo automatizzato che consente di leggere i dati da un formato file e riscriverli in un altro formato. Questo rende i dati accessibili e utilizzabili da una più ampia gamma di applicazioni.
- Copyleft
Il Copyleft è un tipo di licenza che permette a chiunque di utilizzare, modificare e distribuire un'opera (come un software, un testo o un dataset), a condizione che anche le versioni derivate mantengano la stessa libertà d’uso. In pratica, garantisce che un’opera rimanga sempre accessibile e condivisibile, impedendo che qualcuno possa appropriarsene e limitarne l’uso con restrizioni proprietarie.
- Copyright / Diritto d'autore
Il diritto d'autore è un diritto legale che attribuisce la proprietà intellettuale di un’opera (come un libro) al suo creatore. Mentre i singoli fatti o dati non sono protetti dal diritto d’autore, una banca dati può esserlo, in quanto protegge la selezione e l'organizzazione dei dati al suo interno. Nell'Unione Europea, una banca dati può essere tutelata da un diritto speciale che riconosce il lavoro svolto per raccogliere i dati. Chi possiede il copyright può concedere una licenza per consentire il riutilizzo del materiale, ma con specifiche limitazioni.
- Creative Commons
Creative Commons è un'organizzazione no-profit fondata nel 2001 per promuovere il riuso e la condivisione dei contenuti attraverso licenze aperte e standardizzate. Alcune di queste licenze includono clausole come l'uso non commerciale e forniscono una chiara spiegazione dei termini per consentire il riutilizzo dei contenuti in modo trasparente e regolamentato.
- Crowdsourcing
Il crowdsourcing è un metodo collaborativo per raccogliere dati, suddividendo il lavoro in piccoli compiti eseguibili da volontari. Un esempio emblematico è Wikipedia, un'enciclopedia creata grazie al contributo collettivo di numerosi utenti.
- CSV (Comma Separated Values)
Un file CSV (Comma Separated Values) è un formato di file di testo semplice che rappresenta informazioni tabellari o fogli di calcolo in modo essenziale. Ogni riga del file corrisponde a un record, con valori separati da virgole per indicare le diverse colonne. Questo formato aperto, di facile utilizzo, è ampiamente adottato per la pubblicazione e lo scambio di dati aperti.
- Database / Banca Dati
(i) Qualsiasi raccolta organizzata di dati può essere definita un database.
(ii) Si riferisce anche a un sistema software per gestire ed elaborare i dati, dotato di funzionalità per l'estensione, l'aggiornamento, la trasformazione e l'interrogazione dei dati.
- Datalet
Un datalet è una rappresentazione visiva e interattiva dei dati, creata tramite widget grafici come istogrammi, diagrammi a torta o mappe, che facilitano la comprensione e l'analisi delle informazioni.
- Dataset
Un dataset è una raccolta organizzata di dati, spesso rappresentata nella forma più semplice da una tabella. In questa struttura, ogni colonna corrisponde a una variabile specifica, mentre ogni riga rappresenta un determinato valore o aspetto relativo a quella variabile. Il termine "dataset" è flessibile e può indicare un’intera banca dati, un foglio di calcolo, un file contenente dati, o un insieme di risorse di dati correlati, con caratteristiche omogenee ed eventualmente estratte da un database.
- Dati
I dati rappresentano dichiarazioni elementari e non elaborate di fatti. Spesso si riferiscono a raccolte organizzate di informazioni numeriche, come quelle presenti in tabelle, fogli di calcolo o database. Quando i dati vengono strutturati e presentati in modo da essere utili per uno scopo specifico, diventano informazioni comprensibili e utilizzabili dagli esseri umani.
- Dati aperti
I dati che presentano le seguenti caratteristiche:
1. Licenza aperta: sono disponibili con una licenza o previsione normativa che ne consente l'uso da parte di chiunque, anche a scopi commerciali, e in formato disaggregato.
2. Accessibilità: possono essere consultati e utilizzati tramite tecnologie dell'informazione, incluse reti pubbliche e private, e sono forniti in formati aperti idonei all'elaborazione automatica e corredati dai relativi metadati.
3. Costo: sono resi disponibili gratuitamente o ai costi marginali necessari per la loro riproduzione e distribuzione.
- Dati della Pubblica Amministrazione - Government Data
La Pubblica Amministrazione raccoglie grandi quantità di dati, molti dei quali non confidenziali, come dati economici, demografici, sulla spesa pubblica, sui crimini o sui trasporti. Il valore di questi dati aumenta significativamente quando vengono resi open data, permettendone il riutilizzo in ambiti imprenditoriali, di ricerca, per la società civile, per il giornalismo e altri contesti.
- Dati grezzi - Raw data
I dati grezzi rappresentano informazioni originali in formato machine-readable, utilizzate come base per applicazioni, visualizzazioni, ricerche scientifiche o interpretazioni. Si tratta del formato primario da cui derivano ulteriori elaborazioni o analisi.
- Dati Nativi
I dati nativi sono informazioni generate direttamente dalle amministrazioni pubbliche durante lo svolgimento delle proprie funzioni istituzionali. Gran parte di questi dati può essere pubblicata come open data, rendendoli disponibili per usi secondari.
- Dati strutturati
I dati strutturati sono caratterizzati da una relazione esplicita tra i loro elementi, definita nel modo in cui sono memorizzati su un computer. Formati come XML e JSON sono comunemente usati per rappresentare dati strutturati.
- Dato
Un dato è una descrizione elementare di una realtà. In informatica, è un'informazione che può essere elaborata da un computer. L'insieme di dati organizzati costituisce una banca dati o base dati, nota anche come database.
- De-identificazione
La de-identificazione è una tecnica di anonimizzazione che conserva i dati personali ma sostituisce le informazioni identificative, come i nomi, con identificatori anonimi.
- Diritto sulle banche dati
Il diritto sulle banche dati consente al titolare di impedire a terzi di estrarre o riutilizzare contenuti dalla banca dati. Questo diritto è riconosciuto nella maggior parte delle giurisdizioni europee.
- DOI (Digital Object Identifier)
Il Digital Object Identifier (DOI) è un identificatore univoco assegnato a oggetti digitali, come documenti o dataset, da un ente centrale di registrazione. Garantisce l’univocità globale dell’identificatore, impedendo che due oggetti digitali diversi possano condividere lo stesso DOI.
- ETL (Extract, Transform, Load)
ETL, acronimo di "Extract, Transform, Load", rappresenta un processo composto da tre fasi principali utilizzate per la gestione dei dati tra database:
- Extract (Estrazione): i dati vengono prelevati da una fonte, come un database o un file.
- Transform (Trasformazione): i dati estratti vengono convertiti o elaborati per adattarsi al formato richiesto dal sistema di destinazione.
- Load (Caricamento): i dati trasformati vengono caricati nel database o sistema di destinazione.
Questa combinazione di funzioni è fondamentale per integrare dati provenienti da diverse fonti in un unico repository o sistema di analisi.
- Filtro
Un filtro è uno strumento che consente di restringere una ricerca o una selezione di dati applicando condizioni specifiche per isolare i risultati desiderati.
- Flat file
Un flat file è un file di dati autonomo, privo di collegamenti o riferimenti ad altri file, spesso usato per rappresentazioni semplici e lineari di dati.
- Formato Aperto
Un formato aperto è un tipo di file la cui struttura è definita secondo standard pubblici e mantenuti da enti indipendenti e non commerciali. Questo garantisce che il file possa essere letto o utilizzato correttamente da diversi software, favorendo l'interoperabilità. È opposto ai formati proprietari.
- Formato di file
Il formato di un file descrive come i dati sono strutturati e rappresentati sul disco di un computer. È spesso identificato dall'estensione del file (es. .csv per file di testo tabellari). Il formato interno di un file determina come viene gestito dai programmi, indipendentemente dall'aspetto che potrebbe assumere quando aperto in un'applicazione, come ad esempio un file CSV o XLS che possono apparire simili in un foglio di calcolo, ma hanno strutture diverse.
- Formato non proprietario
Un formato non proprietario è una caratteristica di un dato o di un file che può essere manipolato liberamente, senza essere soggetto a vincoli o restrizioni legali e tecniche derivanti dall'uso di software protetti da licenza proprietaria. Questo tipo di formato favorisce l'interoperabilità e l'accesso universale ai dati.
- Geodata, geodati / Dati geografici
I geodati sono dataset che includono informazioni di localizzazione, come latitudine e longitudine o altre codifiche standard. Sono utilizzati per rappresentare informazioni geografiche, come mappe, percorsi di trasporto, dati ambientali, dati catastali e molte altre categorie di dati che possono essere pubblicati in formato geografico.
- GeoJSON
GeoJSON è un'estensione del formato JSON specificamente progettata per descrivere dati geografici. È ampiamente utilizzato per l'interscambio di informazioni geospaziali grazie alla sua flessibilità e semplicità.
- Geospaziale
Il termine geospaziale si riferisce a dati che contengono una componente geografica. Ciò implica che i record di un dataset includano informazioni sulla posizione, come coordinate, indirizzi, città o codici postali, utilizzabili per analisi e rappresentazioni geografiche.
- Gestione dei dati
La gestione dei dati comprende le politiche, le procedure e le scelte tecniche adottate per supervisionare i dati lungo tutto il loro ciclo di vita, dalla raccolta all'archiviazione, preservazione e utilizzo. Una strategia di gestione dei dati deve considerare aspetti quali la qualità, la disponibilità, la protezione e la conservazione dei dati, garantendo che soddisfino le esigenze degli utenti e rispettino le normative vigenti.
- GIS (Geographic Information System)
GIS, acronimo di Geographic Information System, indica i Sistemi Informativi Geografici. Si tratta di strumenti progettati per leggere, rappresentare, analizzare e manipolare dati geografici. I GIS organizzano le informazioni in strati spaziali che possono essere creati, archiviati, analizzati e mappati per applicazioni geospaziali.
- GPS (Global Positioning System)
Il GPS (Global Positioning System) è un sistema satellitare che fornisce informazioni precise sulla posizione attraverso dispositivi riceventi, ormai comuni negli smartphone moderni. È utilizzato in molte applicazioni basate sulla localizzazione, come il calcolo di percorsi o l’accesso a dati meteo locali. Il GPS rappresenta un esempio di successo di open data, essendo gestito dal governo degli Stati Uniti e reso disponibile gratuitamente per tutti i ricevitori compatibili.
- Host
Un host è una società che offre servizi di memorizzazione dei dati per i clienti sui propri server, rendendoli accessibili tramite internet. Un servizio di hosting implica quindi l'uso di computer del provider che archiviano i dati e li rendono disponibili attraverso la rete.
- Human Readable
Il termine "human-readable" si riferisce a dati in un formato facilmente comprensibile per una persona. Tuttavia, alcuni formati leggibili dall'uomo, come il PDF, non sono leggibili dalle macchine, poiché non rappresentano dati strutturati. Ad esempio, la visualizzazione dei dati su un disco non riflette necessariamente le relazioni logiche tra i dati stessi.
- Identificatore
Un identificatore è il nome assegnato a un oggetto o concetto in un database. Può corrispondere al nome reale dell’oggetto (es. "Milano" o "20121", un codice postale di Milano), a una parola che descrive il concetto (es. "popolazione") o a un codice arbitrario (es. "XY123") interpretabile solo all’interno di un determinato dataset. La scelta accurata degli identificatori, seguendo standard appropriati, può semplificare l’integrazione tra diversi set di dati. Vedi anche linked data.
- Integrazione fra dati
L'integrazione fra dati consiste nella combinazione di informazioni provenienti da diverse fonti per ottenere un utilizzo più significativo e approfondito. Affinché ciò sia possibile, è fondamentale che i dataset siano compatibili, utilizzando gli stessi nomi per gli oggetti, unità di misura, sistemi di coordinate e standard comuni. La qualità dei dati influisce direttamente sulla semplicità del processo: dati di alta qualità rendono l'integrazione agevole, mentre dati di bassa qualità possono rendere il procedimento complesso. Un obiettivo dei linked data è semplificare l'integrazione, rendendola in parte automatizzata.
- Interoperabilità
L’interoperabilità è la capacità di sistemi, applicazioni o organizzazioni diverse di comunicare, scambiare dati e lavorare insieme in modo efficace. In ambito dei dati aperti, si riferisce alla possibilità di combinare e utilizzare dataset provenienti da fonti diverse, grazie a formati standardizzati, vocabolari condivisi e protocolli comuni, garantendo che le informazioni siano facilmente integrabili e utilizzabili su larga scala.
- JSON (JavaScript Object Notation)
JSON (JavaScript Object Notation) è un formato di dati semplice ma potente, progettato per rappresentare strutture di dati complesse in modo leggibile sia dalle macchine che, in misura ragionevole, dagli esseri umani. È indipendente dalla piattaforma e dal linguaggio di programmazione, il che lo rende estremamente versatile e ampiamente utilizzato come formato di scambio dati tra programmi e sistemi. Grazie alla sua leggerezza e semplicità, JSON è oggi uno standard per molte applicazioni e interfacce.
- KML (Keyhole Markup Language)
KML (Keyhole Markup Language) è un formato aperto basato su XML progettato per rappresentare geodati. Inizialmente sviluppato per il Keyhole Earth Viewer, un software poi acquisito da Google e rinominato Google Earth, KML è stato standardizzato come formato internazionale dall'Open Geospatial Consortium (OGC) nel 2008. È ampiamente utilizzato per visualizzare e condividere informazioni geografiche, come punti di interesse, percorsi e poligoni, su mappe e applicazioni geospaziali.
- Licenza
In ambito informatico, una licenza è un contratto o un accordo negoziale che regola i diritti morali e patrimoniali relativi al software o ai dati, stabilendo le condizioni d'uso, distribuzione ed, eventualmente, modifica degli stessi.
- Licenza Share-alike (condividi allo stesso modo)
Una licenza share-alike impone che i contenuti derivati da un prodotto originale siano rilasciati con le stesse condizioni di licenza dell'opera originale, garantendo la continuità della condivisione.
- Linked data
I Linked Data rappresentano una modalità di strutturazione dei dati in cui ogni identificatore è una URI (es. http://...), utilizzando, quando possibile, vocabolari standard di identificatori. I dataset collegati includono riferimenti ad altri dataset che trattano degli stessi oggetti, facilitando l'integrazione automatica dei dati, anche su vasta scala. Solitamente, i Linked Data vengono rappresentati tramite RDF (Resource Description Framework).
- Machine-readable
Un dato è considerato machine-readable quando può essere automaticamente letto e processato da un computer. Formati come CSV, JSON e XML sono esempi di formati strutturati che permettono l’elaborazione automatica. I dati machine-readable devono essere organizzati e strutturati, distinguendosi dai formati puramente human-readable, che sono leggibili per le persone ma spesso difficili da processare automaticamente.
- Mashup
Un mashup è un'applicazione web che combina dati o contenuti provenienti da fonti diverse per creare nuove funzionalità o applicazioni. L'integrazione delle informazioni avviene in modo innovativo, offrendo un valore aggiunto rispetto alle singole risorse originarie. I dati di mashup sono quindi quei dati in cui il Comune è titolare soltanto di una parte dei dati che si intendono pubblicare, la restante parte dei dati invece proviene da altre amministrazioni che a loro volta producono dataset e li rilasciano in formato aperto. In questo caso, il lavoro del Comune si sostanzia nell’unire i dati provenienti da fonti differenti ottenendo un nuovo prodotto (dataset) di interesse per la comunità Milanese, nazionale ed europea.
- Metadati
I metadati sono informazioni che descrivono e contestualizzano altri dati, fornendo dettagli sul loro contenuto, struttura e utilizzo. Associati a un documento, un fascicolo o un'aggregazione documentale, i metadati ne identificano il contesto e facilitano la gestione nel tempo. Possono includere informazioni sul modo in cui i dati sono rappresentati, gli intervalli di valori accettabili, le relazioni con altri dati, il responsabile dei dati, le normative correlate, e la politica di accesso. Per un dataset, i metadati possono includere dettagli come nome, descrizione, metodi di raccolta, autore o pubblicatore, area geografica o periodo storico coperto, licenza, frequenza di aggiornamento e data di rilascio. Pubblicare dati con metadati adeguati è fondamentale per garantirne la reperibilità e la fruibilità da parte degli utenti.
- Non commerciale
a clausola "non commerciale" in una licenza impone che il contenuto o i dati non possano essere utilizzati per scopi commerciali. Tuttavia, secondo la Open Definition, contenuti con questa restrizione non sono considerati "open data". Tale limitazione può ridurre il valore economico del contenuto, complicando la combinazione di licenze diverse e creando ambiguità su cosa sia effettivamente considerato "commerciale" (ad esempio, usi educativi potrebbero essere esclusi). Spesso, l'intento di una clausola non commerciale può essere raggiunto in modo più efficace con una licenza che richiede la condivisione allo stesso modo (share-alike).
- ODbL (Open Database Licence)
La Open Database Licence (ODbL) è una licenza sviluppata per promuovere l'apertura dei dati, coprendo sia il "diritto sulle banche dati" sia il copyright, attraverso obblighi contrattuali sul riutilizzo dei dati. Tuttavia, esiste una differenza fondamentale tra il diritto contrattuale e il diritto d’autore: mentre il copyright si applica automaticamente a tutti gli utenti successivi, i vincoli di un contratto si limitano alle parti che lo sottoscrivono, senza influire direttamente sui successivi utilizzi o ripubblicazioni dei dati. Nonostante questi limiti, la ODbL è una risorsa utile.
- ODS (OpenDocument Spreadsheet)
Il formato ODS (OpenDocument Spreadsheet) è un formato di file aperto utilizzato per i fogli di calcolo, parte dello standard OpenDocument (ODF). È il formato predefinito per LibreOffice Calc e OpenOffice Calc, ma è compatibile anche con altri software, inclusi Microsoft Excel e Google Sheets. Il formato ODS utilizza XML per strutturare i dati ed è progettato per garantire interoperabilità, accessibilità e indipendenza dai software proprietari, favorendo la condivisione e il riutilizzo dei dati senza vincoli.
- OGP (Open Government Partnership)
L’Open Government Partnership (OGP) è una collaborazione internazionale avviata nel 2011 per promuovere i principi dell’open government tra i paesi membri. L'iniziativa favorisce la trasparenza, la partecipazione civica e l'adozione di buone pratiche attraverso accordi multilaterali.
- Ontologia
Un'ontologia è un modello che rappresenta la realtà descrivendo le entità e le relazioni reciproche tra di esse. Questo approccio consente di strutturare e organizzare informazioni in modo semantico, facilitando l'integrazione e l'elaborazione dei dati.
- Open data
Gli open data sono tipologie di dati liberamente accessibili a tutti, non soggetti a brevetti o altre forme di controllo che ne limitino la riproduzione. Un dato è considerato aperto se chiunque è libero di utilizzarlo, riutilizzarlo e ridistribuirlo, eventualmente rispettando requisiti come l'attribuzione dell'origine o l'obbligo di condivisione allo stesso modo. Questa filosofia promuove la trasparenza, l’innovazione e l’accessibilità dell’informazione.
Gli Open Data presentano le seguenti caratteristiche:- Licenza aperta: sono disponibili con una licenza o previsione normativa che ne consente l'uso da parte di chiunque, anche a scopi commerciali, e in formato disaggregato.
- Accessibilità: possono essere consultati e utilizzati tramite tecnologie dell'informazione, incluse reti pubbliche e private, e sono forniti in formati aperti idonei all'elaborazione automatica e corredati dai relativi metadati.
- Costo: sono resi disponibili gratuitamente o ai costi marginali necessari per la loro riproduzione e distribuzione.
- Open data Manager (Data Manager)
All’interno del Comune di Milano, è la figura che svolge attività di coordinamento e che è riconducibile alla figura dirigenziale che sovraintende le tre unità organizzative che costituiscono il Gruppo che si occupa dei dati aperti dell’Amministrazione.
- Open definition
La Open Definition, rilasciata per la prima volta da Open Knowledge nel 2005, stabilisce i criteri secondo cui dati e contenuti possono essere considerati "open" (aperti). Questo standard è essenziale per massimizzare il valore degli open data, garantendo la possibilità di combinare facilmente fonti diverse grazie a compatibilità giuridica e tecnica. La Open Definition previene la frammentazione derivante dalla proliferazione di licenze e condizioni d'uso incompatibili, assicurando coerenza e semplicità. La Open Definition preserva il significato autentico del termine, consolidandosi come standard internazionale per open data e licenze correlate.
- Open Source
L’open source si riferisce a software il cui codice sorgente è reso disponibile con una licenza aperta. Ciò consente non solo l’uso libero del software, ma anche la possibilità, per gli utenti con competenze tecniche, di esaminare il codice, modificarlo, creare versioni personalizzate, correggere bug e sviluppare nuove funzionalità.
- OWL (Ontology Web Language)
OWL (Ontology Web Language) è uno standard W3C che estende le capacità di RDFS, consentendo la definizione di schemi evoluti per dati RDF. Rispetto a RDFS, OWL introduce formalismi avanzati, semantica formale e il supporto alle logiche descrittive. Con OWL è possibile definire ontologie ricche e articolate per rappresentare conoscenze di domini specifici, verificare automaticamente la correttezza logica dei dati rappresentati, grazie al supporto delle logiche descrittive, ed abilitare l’interoperabilità semantica tra sistemi attraverso la condivisione globale di ontologie standardizzate. L’aspetto logico di OWL permette di utilizzare ragionatori automatici per dedurre nuove informazioni dai dati già rappresentati, generando nuove triple RDF e arricchendo così il dataset con conoscenze aggiuntive. Questo processo facilita la comprensione, il riutilizzo di schemi e metadati e l’integrazione tra sistemi differenti.
- PDF (Portable Document Format)
Il PDF (Portable Document Format) è un formato di file progettato per rappresentare documenti in modo che l'impaginazione e l'aspetto rimangano invariati indipendentemente dal software, sistema operativo o hardware utilizzato. Inizialmente proprietario di Adobe Systems, il formato è stato reso aperto nel 2008. I dati contenuti in file PDF non sono generalmente machine-readable, a differenza dei dati strutturati.
- Portale di dati
Un portale di dati è una piattaforma web dedicata alla pubblicazione e alla gestione di dati. Il suo scopo è fornire un catalogo di dati facilmente accessibile e ricercabile dagli utenti, semplificando i flussi di lavoro delle organizzazioni che pubblicano i dati. Le funzionalità tipiche includono interfacce web per pubblicare e visualizzare dati, API per l'accesso automatizzato, anteprime e strumenti per la visualizzazione dei dati.
- Privacy
La privacy è il diritto degli individui a proteggere la propria vita privata e a non divulgare informazioni personali. Questo diritto è sancito dalla Dichiarazione Universale dei Diritti dell’Uomo e dalla Convenzione Europea dei Diritti dell’Uomo.
- Proprietario
(i) Il software proprietario è detenuto e controllato da un'azienda che impone restrizioni sull'uso, la modifica e la distribuzione del software. Gli utenti devono generalmente pagare per utilizzarlo, non possono accedere al codice sorgente, né copiarlo o rivenderlo come parte di un prodotto proprio. In contrapposizione, il software non proprietario è solitamente denominato open source.(ii) Un formato di file proprietario è posseduto e gestito da un'azienda, spesso richiedendo software specifici per essere utilizzato. A differenza dei formati aperti, le specifiche di un formato proprietario possono essere confidenziali o non pubblicate, e soggette a modifiche frequenti. Ad esempio, le diverse versioni di Microsoft Excel utilizzano formati proprietari come XLS e XLSX.
- Protocollo di accesso ai dati / Data access protocol
Un protocollo di accesso ai dati è un sistema che consente a utenti esterni di accedere a una banca dati senza sovraccaricare i sistemi principali, fornendo un'interfaccia efficiente e controllata per la gestione delle richieste di dati.
- Pubblico dominio
Un contenuto è considerato di pubblico dominio quando il copyright non si applica, ad esempio perché scaduto. Chiunque è libero di utilizzare tali contenuti senza restrizioni. Il tool legale CC0, sviluppato da Creative Commons, consente di rinunciare al copyright a livello globale, rendendo i contenuti di pubblico dominio.
- Publisher - Pubblicatore
Un pubblicatore è chiunque distribuisca e renda disponibili dati o contenuti. I pubblicatori di dati possono includere dipartimenti governativi, agenzie, istituti di ricerca, ONG, aziende, organizzazioni mediatiche e individui.
- Pulizia dei dati
La pulizia dei dati è il processo di ottimizzazione di un dataset per renderlo più semplice e accurato da utilizzare. Può includere la correzione di errori o inconsistenze, l'eliminazione di elementi non machine-readable, l'adozione di etichette standard per intestazioni, la rappresentazione coerente di numeri, date e quantità, la conversione in formati di file più idonei e la riconciliazione delle etichette con altri dataset per facilitarne l'integrazione.
- Qualità dei dati
La qualità dei dati misura l’usabilità di un dataset. Un dataset ideale è:- Accurato: privo di errori e corrispondente alla realtà rappresentata.
- Completo: include tutte le informazioni necessarie.
- Tempestivo: aggiornato e pubblicato nei tempi utili per il suo scopo.
- Coerente: utilizza denominazioni e strutture uniformi, evitando incoerenze come dati mancanti o ambiguità.
- Machine-readable: direttamente leggibile e processabile da computer (vedi pulizia dei dati).
- Standardizzato: conforme a denominazioni standard dei campi e accompagnato da metadati adeguati, che descrivano chi ha pubblicato il dataset e il significato delle variabili.
- Query
Una query è un'interrogazione formulata per estrarre informazioni da un database. Le query possono variare in complessità, da semplici richieste di selezione dei dati a operazioni più avanzate, come filtri basati su criteri specifici o aggregazioni per calcolare quantità o statistiche. La maggior parte dei database utilizza il linguaggio SQL o un suo dialetto per gestire le query.
Le web API consentono alle applicazioni di inviare query a un database tramite il web, riducendo il carico di calcolo sull'applicazione stessa e minimizzando la larghezza di banda necessaria rispetto al download e all’elaborazione dell'intero dataset.
- RDF (Resource Description Framework)
RDF è il modello standard per rappresentare i linked data. Più che un formato dati specifico, è una struttura concettuale che può essere espressa in diversi formati equivalenti, tra cui uno basato su XML. I dati RDF sono organizzati in triple, ciascuna composta da un soggetto, un predicato e un oggetto, che descrivono un'informazione elementare. Le triple possono essere archiviate in un tipo di database specifico chiamato triple store.
- RDFS (RDF Schema)
RDFS (RDF Schema) è un'estensione dello standard RDF che consente di definire schemi semplici per i dati. Introduce costrutti come le classi, le collezioni e una serie di proprietà per descrivere tassonomie e relazioni tra classi e proprietà.
Grazie a RDFS, è possibile gestire relazioni insiemistiche, definire ereditarietà tra classi e proprietà, applicare vincoli per strutturare i dati in modo semantico. Gli schemi creati con RDFS sono comunemente noti come ontologie, fornendo un framework per rappresentare conoscenze complesse e relazioni tra concetti in modo standardizzato e interoperabile.
- Real time - tempo reale
I dati in tempo reale sono informazioni costantemente aggiornate, come la posizione attuale di un treno sulla rete ferroviaria. Per accedere a questi dati, è necessario utilizzare query che restituiscano la versione più recente, consentendo un aggiornamento immediato e continuo.
- Referente tecnico-tematico della Banca Dati
Componente del gruppo coordinato dal responsabile della Banca dati. Deve avere conoscenze informatiche e deve conoscere il dominio applicativo della banca dati. Il suo ruolo è quello di proporre i dataset che possono essere ottenuti partendo dal sistema gestionale che gestisce. Inoltre, rappresenta la prima figura operativa che effettua una lavorazione sui dati per passarli poi al gruppo Open data.
- Responsabile della Banca dati
Il titolare della banca dati è la figura, all'interno di un'amministrazione, responsabile del procedimento amministrativo che alimenta una specifica fonte di dati e che ne cura la qualità e il relativo aggiornamento. Di solito, si tratta di un dirigente o quadro che coordina un team di lavoro intorno alla fonte dati. Il titolare ha anche il potere di apportare modifiche ai dati, ad esempio, in risposta a segnalazioni o richieste.
- Responsabile per la transizione al digitale (RTD)
Il Responsabile per la Transizione al Digitale è la figura incaricata di guidare la trasformazione digitale nella Pubblica Amministrazione. Tra le sue principali funzioni vi è il coordinamento dello sviluppo dei servizi pubblici digitali e l'implementazione di modelli di relazione trasparenti e aperti con i cittadini, come previsto dall'articolo 17 del Codice dell’Amministrazione Digitale.
- Risorsa
Nel contesto di CKAN, una risorsa è un singolo oggetto associato a un dataset, come un file (es. un foglio di calcolo) o un'API che consente l'accesso ai dati.
- Ri-uso
I dati raccolti per uno scopo specifico possono quasi sempre trovare applicazioni ulteriori. Una volta messi a disposizione con una licenza aperta, i dati diventano una risorsa infinita, riutilizzabile in modi spesso non previsti originariamente. Questo potenziale di riuso dipende dalla disponibilità e dall'accessibilità garantita dal titolare dei dati.
- SaaS (Software as a Service)
SaaS, o Software as a Service, è un modello in cui un programma software viene eseguito su server remoti di un’azienda di hosting anziché sulla macchina dell’utente. L’utente accede al servizio tramite il web, mentre il server remoto si occupa della gestione dell’archiviazione e dell’elaborazione dei dati. Le aziende che offrono SaaS spesso monetizzano il servizio attraverso abbonamenti o altri modelli di business.
- Scraping
Lo scraping è il processo di estrazione di dati da fonti non machine-readable, come siti web o documenti PDF, per convertirli in dati strutturati. Questa tecnica è spesso utilizzata come ultima risorsa, dopo il fallimento di tentativi di ottenere i dati in un formato più accessibile.
- SDMX (Statistical Data and Metadata eXchange)
SDMX è uno standard ISO progettato per lo scambio di dati statistici utilizzando una sintassi basata su XML. Lo standard implementa un modello dati per rappresentare informazioni multidimensionali, descrivendo la struttura di un particolare dataflow attraverso dimensioni (elementi come territorio o tempo che definiscono le coordinate del dato), attributi (informazioni aggiuntive come unità di misura), e classificazioni (sistemi per organizzare i dati in categorie standardizzate). Sebbene SDMX sia stato originariamente concepito per facilitare lo scambio di dati tra sistemi, è ampiamente utilizzato anche per la loro rappresentazione, grazie alla capacità di modellare dati complessi in modo strutturato e interoperabile.
- Server
Un server è un computer connesso a internet, solitamente gestito da un’azienda di hosting, che risponde alle richieste degli utenti. Esempi di funzioni di un server includono la fornitura di pagine web, il download di file o l'accesso a funzionalità di un software SaaS installato sul server stesso.
- SHP (Shapefile)
Uno shapefile è un formato di archiviazione vettoriale digitale utilizzato per memorizzare informazioni geografiche, supportando rappresentazioni di punti, linee e aree. È un formato molto popolare per i geodati, sviluppato e mantenuto da Esri, un'azienda specializzata in GIS (Geographic Information Systems). Anche se tecnicamente proprietario, Esri ha reso pubbliche le specifiche dello standard, permettendo agli shapefile di essere letti da numerosi software, rendendoli di fatto simili agli open standard. Uno shapefile è composto da un insieme di file correlati.
- Sistema di origine
Il sistema di origine, o System of Record, è il sistema principale utilizzato per archiviare informazioni che rappresentano la fonte autorevole di dati per un determinato elemento o insieme di informazioni. È il riferimento centrale per garantire l'accuratezza e la coerenza dei dati.
- SPARQL (Sparql Protocol And Rdf Query Language)
SPARQL è un linguaggio di interrogazione simile a SQL, utilizzato per accedere e interrogare dati collegati (linked data) memorizzati in un triple store. Consente di estrarre informazioni specifiche da dati organizzati secondo il modello RDF.
- Spreadsheet - Foglio di calcolo
Un foglio di calcolo è una tabella di dati e calcoli che può essere gestita in modo interattivo utilizzando software specializzati come Microsoft Excel o OpenOffice Calc. È uno strumento versatile per analisi, elaborazione e presentazione di dati.
- SQL (Structured Query Language)
SQL è un linguaggio di programmazione standard progettato per interrogare, gestire e modificare dati in sistemi di gestione di database. È ampiamente utilizzato per selezionare, filtrare e aggregare informazioni archiviate in database relazionali. Per approfondire, vedi anche query.
- Standard
Uno standard è una specifica pubblica utilizzata per definire regole o strutture comuni, come il formato di un file, una nomenclatura per un dominio specifico o un insieme condiviso di campi di metadati. L’aderenza agli standard migliora la leggibilità dei dati da parte delle macchine (machine readability) e facilita l'integrazione tra diversi dataset, aumentando significativamente il valore dei dati pubblicati.
- Tab-separated values - Valori separati da tabulatore
Il formato Tab-separated values (TSV), o valori separati da tabulatori, è un formato di file di testo comunemente utilizzato per condividere dati tabellari. Ogni record è rappresentato su una riga separata, con i valori dei campi delimitati da tabulatori. È un formato semplice, altamente machine-readable e ideale per l'elaborazione automatica.
- Tracciato record
Il tracciato record è la definizione strutturata dei campi e, se presenti, dei sottocampi che compongono un dataset. Ogni campo è accompagnato da una descrizione dettagliata e dal tipo di dato previsto, fornendo uno schema completo per la rappresentazione del dataset.
- Trasparenza
La trasparenza si riferisce alla capacità di governi e organizzazioni di rendere il proprio operato e i processi decisionali facilmente comprensibili, adeguatamente documentati e verificabili. È una caratteristica fondamentale dell'open government e uno dei principali benefici derivanti dalla pubblicazione degli open data.
- Triple store
Un triple store è un tipo di database specifico per archiviare le triple RDF, che rappresentano dati in forma di soggetto, predicato e oggetto. Questo tipo di database permette di effettuare interrogazioni utilizzando il linguaggio SPARQL, facilitando l'accesso e l'elaborazione di dati collegati (linked data).
- Unique identifier (UID) / Identificatore univoco
Un UID è un identificatore che garantisce l'unicità di un oggetto rispetto a tutti gli altri all'interno di una collezione o di un database. Ogni oggetto in un database ha un UID unico in quel contesto. Gli UID assegnati da un registro centrale, come l'ISBN per i libri o il DOI per i dati, sono unici a livello globale per i rispettivi oggetti. Nei linked data, gli identificatori basati su URI (http://...) offrono una soluzione decentralizzata per creare UID senza la necessità di un'autorità centrale.
- URI
Un URI è una stringa di caratteri utilizzata per identificare univocamente una risorsa generica su Internet. Può fare riferimento a indirizzi web (URL), documenti, immagini, file, servizi, indirizzi email, codici ISBN di libri o numeri di telefono. È un concetto ampio che include anche gli URL come sottocategoria.
- URL (Uniform Resource Locator)
Un URL è un tipo specifico di URI che serve come riferimento a una risorsa web, come un sito, una pagina o un file specifico. È comunemente usato per localizzare risorse su Internet.
- Visualizzazione
La visualizzazione dei dati consiste nel rappresentare informazioni in forma grafica per comunicare in modo efficace le caratteristiche principali, le correlazioni e le anomalie presenti nei dati. Sebbene siano disponibili molti strumenti per creare visualizzazioni, il processo non è completamente automatico. È fondamentale considerare attentamente il significato delle variabili, le relazioni tra esse e le storie che i dati raccontano, al fine di progettare una rappresentazione visiva che trasmetta il messaggio in modo chiaro e persuasivo.
- Vocabolario
Un vocabolario è uno standard che definisce identificatori specifici per una collezione di oggetti in un determinato dominio. L'uso di vocabolari standardizzati è essenziale per abilitare l'integrazione tra dati provenienti da diverse fonti. Nei linked data, esistono molti vocabolari dedicati a diversi argomenti, che facilitano la descrizione e la condivisione coerente delle informazioni.
- Web API
Una Web API è un'interfaccia di programmazione (API) progettata per essere accessibile tramite il web. Consente a diverse applicazioni o sistemi di comunicare tra loro attraverso richieste e risposte basate su protocolli web standard, come HTTP, facilitando l'integrazione e lo scambio di dati.
- XLS(X)
XLS e XLSX sono formati proprietari utilizzati per i fogli di calcolo nel software Microsoft Excel. Le versioni più vecchie del programma utilizzano il formato .xls, mentre le versioni più recenti adottano il formato .xlsx, basato su XML per migliorare la flessibilità e la compatibilità. Entrambi i formati sono ampiamente utilizzati per rappresentare e condividere dati tabellari, ma .xlsx è più efficiente e standardizzato.
- XML (Extensible Markup Language)
XML è uno standard semplice e potente per rappresentare dati strutturati. È progettato per essere leggibile sia dalle macchine che dagli esseri umani, e trova applicazione in una vasta gamma di domini, dai documenti ai database e agli scambi di dati su Internet.
- ZIP
ZIP è un formato di compressione che riduce le dimensioni dei file, facilitandone archiviazione e condivisione. Può contenere più documenti o cartelle mantenendo la struttura originale. È supportato nativamente da molti sistemi operativi e software.
- ZTL
La ZTL è un’area urbana con accesso regolamentato ai veicoli, per ridurre traffico e inquinamento. L’ingresso è consentito a residenti, mezzi autorizzati o in fasce orarie stabilite. Il controllo avviene tramite telecamere o varchi elettronici.