Come consultare dataset di grandi dimensioni con Excel: una guida pratica

Alcuni dataset pubblicati sul portale Open Data del Comune di Milano hanno un numero di righe che eccede quelle visualizzabili con le applicazioni di fogli di calcolo. 

Ad esempio, il dataset Popolazione: residenti per cittadinanza e quartiere (1999-2024) è composto da 2.981.525 righe, ma Excel può gestire al massimo 1.048.576 righe. 

Dal momento che non è possibile aprire, visualizzare e lavorare il dataset completo, in questa guida vediamo come è possibile selezionare solo una parte dei dati e lavorare con quelli all’interno delle applicazioni di fogli di calcolo. 

Il dataset utilizzato come esempio è Popolazione: residenti per cittadinanza e quartiere (1999–2024), disponibile sul portale Dati Milano.

1. Anteprima

La prima cosa da fare è visualizzare la schermata di anteprima del dataset per vedere quali colonne sono presenti. 

Aggiungendo un filtro su una colonna usando il tasto rosso “Aggiungi filtro” è possibile vedere quante sono le righe corrispondenti al dataset filtrato. 

Se ad esempio filtriamo per anno impostando il 2020 come anno di interesse, vediamo che le righe che riportano i dati dell’anno 2020 sono 135.803, un numero che si può visualizzare e lavorare dentro i fogli di calcolo, perchè inferiore a 1.048.576 di righe. 

Se impostiamo come anno il 2024, vediamo che il numero di righe corrispondenti è 148.940, anche questo inferiore a 1.048.576 di righe.

A questo punto potrei ipotizzare di voler lavorare sulle annualità 2020 e 2024, perché sommando le righe dei due anni, 135.803 per il 2020 e 148.940 per il 2024, ottengo 284.743 righe, un numero ancora lavorabile con i fogli di calcolo, perché inferiore a 1.048.576 righe. 

In base ai miei interessi di ricerca, potrei decidere ad esempio di voler lavorare i dati degli anni 2020 e 2024 per i seguenti quartieri di Milano, identificati dai NIL: Giambellino, Lorenteggio, P.ta Ticinese – Conchetta, Moncucco - San Cristoforo, Barona, Cantalupa, Ronchetto sul Naviglio - Q.re Lodovico il Moro, P.ta Genova, Bande Nere, Parco dei Navigli. 

2. Scaricare il file CSV

Dalla pagina del dataset selezionare: Download → CSV.

Viene scaricato il dataset completo, a prescindere dai filtri che abbiamo usato nell’anteprima.

Il download può richiedere alcuni minuti a causa delle dimensioni del file.

3. Importare il file in Excel

Aprire Excel e selezionare:

Dati → Recupera dati → Da file → Da testo/CSV

Selezionare il file e cliccare su Importa.

4. Impostare i parametri di importazione

Nella schermata di anteprima impostare:

  • Origine file: Unicode (UTF-8)
  • Delimitatore: Virgola

Cliccare sul bottone Trasforma dati per accedere all’editor.

5. Filtrare gli anni di interesse

Nell’editor di Power Query:

  • Aprire il filtro della colonna Anno cliccando sulla freccia verso al basso alla destra della colonna "Anno":
  • Cliccare su Carica altro
  • Selezionare gli anni 2020 e 2024 che sono, in questo caso, di nostro interesse
  • Confermare con OK

6. Filtrare i NIL di interesse

Ripetere l’operazione sulla colonna NIL usando la freccia che va verso al basso della colonna "NIL":

  • Cliccare su Carica altro
  • Selezionare i NIL di interesse, Giambellino, Lorenteggio, P.ta Ticinese – Conchetta, Moncucco - San Cristoforo, Barona, Cantalupa, Ronchetto sul Naviglio - Q.re Lodovico il Moro, P.ta Genova, Bande Nere, Parco dei Navigli
  • Confermare con OK

7. Caricare i dati filtrati

Cliccare su Chiudi e carica (in alto a sinistra).

8. Dataset pronto per l’analisi

Nota finale

Questa procedura è applicabile a qualsiasi dataset CSV strutturato in modo analogo, ed è particolarmente utile per utenti che non dispongono di software dedicati all’analisi dei dati.


Consulta altre guide

Come consultare dataset di grandi dimensioni con LibreOffice: una guida pratica

Segui la guida che spiega anche ai meno esperti come consultare dataset di grandi dimensioni.

Come visualizzare con QGIS un dataset Open Data georeferenziato

Segui la guida che spiega anche ai meno esperti come visualizzare un dataset Open Data con l'applicazione libera e gratuita QGIS.

Come utilizzare gli strumenti di Milano Statistica

Segui la guida all'utilizzo della piattaforma Milano Statistica, per visualizzare, utilizzare e scaricare i tuoi dati d'interesse.