Come consultare dataset di grandi dimensioni con LibreOffice: una guida pratica
Alcuni dataset pubblicati sul portale Open Data del Comune di Milano hanno un numero di righe che eccede quelle visualizzabili con le applicazioni di fogli di calcolo.
Ad esempio, il dataset Popolazione: residenti per cittadinanza e quartiere (1999-2024) è composto da 2.981.525 righe, ma LibreOffice può gestire al massimo 1.048.576 righe.
Dal momento che non è possibile aprire, visualizzare e lavorare il dataset completo, in questa guida vediamo come è possibile selezionare solo una parte dei dati e lavorare con quelli all’interno delle applicazioni di fogli di calcolo.
Il dataset utilizzato come esempio è Popolazione: residenti per cittadinanza e quartiere (1999–2024), disponibile sul portale Dati Milano.
1. Analisi preliminare: l'anteprima
Il primo passo consiste nell'utilizzare la funzione di anteprima del dataset Open Data per identificare le colonne disponibili.
Attraverso il pulsante rosso "Aggiungi filtro", è possibile selezionare criteri specifici e verificare immediatamente quante righe compongono il dataset filtrato.

Per comprendere meglio il funzionamento, consideriamo un esempio pratico basato sull'anno di interesse. Se applichiamo un filtro per isolare i dati del 2020, il sistema ci mostra che le righe corrispondenti sono 135.803.

Allo stesso modo, impostando come anno il 2024, otteniamo 148.940 righe.

Qualora decidessimo di lavorare contemporaneamente sulle annualità 2020 e 2024, la somma complessiva delle righe sarebbe pari a 284.743. Poiché questo volume di dati rimane significativamente al di sotto della soglia massima di 1.048.576 righe, il file risulta perfettamente gestibile e lavorabile all'interno delle applicazioni di fogli di calcolo.
In base alle proprie esigenze di ricerca, è inoltre possibile raffinare ulteriormente la selezione selezionando specifici quartieri di Milano, identificati tramite i codici NIL.
Nel nostro caso di studio, potremmo decidere di concentrare l'analisi sui dati del 2020 e 2024 relativi a quartieri come Giambellino, Lorenteggio, Barona, Porta Genova, Bande Nere, Parco dei Navigli.
2. Scaricare il file CSV
Una volta pianificata la strategia di filtraggio, procedere al download cliccando sul tasto "Download → CSV".
Nota: Il portale scarica sempre il dataset completo: i filtri dell’anteprima servono solo per la consultazione e non modificano il file scaricato. Date le dimensioni del file, l'operazione di scaricamento potrebbe richiedere alcuni minuti.

3.Procedura di importazione e trasformazione su LibreOffice
Dato che il dataset è troppo grande per essere aperto direttamente in LibreOffice Calc, conviene effettuare un primo filtraggio utilizzando LibreOffice Base, che consente di lavorare su file di grandi dimensioni senza caricarli interamente nel foglio di calcolo.
Il primo filtro da applicare in LibreOffice Base riguarda le annualità 2020 e 2024.
Vediamo come procedere.

Dopo aver cliccato su “Database Base”, si apre la procedura guidata di LibreOffice per la creazione di un database.
Selezionare “Collega a un database esistente” e, nel menù a tendina, scegliere “Testo/CSV”.

Nella schermata successiva, utilizziamo il pulsante “Sfoglia” per selezionare la cartella che contiene il file .CSV.
È importante selezionare la cartella in cui si trova il file, e non il file stesso.
Nel menu “Specifica il tipo di file a cui accedere” selezioniamo l’opzione “File con valori separati da virgole (*.csv)”.
Nella sezione “Formato riga”, impostiamo come “Separatore di campo” il punto e virgola (;) e come "Separatore di testo" le virgolette (").
Infine, clicchiamo su “Successivo”.

A questo punto, selezioniamo le opzioni “Sì, registra il database” e “Apri il database per la modifica”, quindi clicchiamo su “Fine”.

Assegniamo un nome al database e procediamo con il salvataggio.

Nella sezione “Tabelle” sarà presente una nuova tabella. Facciamo doppio clic per aprirla.

Si aprirà la tabella completa contenente tutti i dati.

4. Filtrare gli anni di interesse
Per filtrare gli anni, apriamo il menu “Dati” e selezioniamo “Filtro standard”.

Impostiamo i criteri del filtro nel seguente modo:
- Nome di campo: Anno
- Condizione: =
- Operatore: O
- Valori: 2020 e 2024

Si può osservare che l’operatore “O” (oppure) consente di includere nel filtro più valori alternativi per lo stesso campo, in questo caso gli anni 2020 e 2024.
Se, invece, si utilizzasse l’operatore “E” (and), il filtro richiederebbe il rispetto contemporaneo di più condizioni e potrebbe quindi essere utilizzato, ad esempio, per aggiungere un ulteriore criterio relativo a un’altra colonna.
Una volta impostati i criteri desiderati, clicchiamo su “OK”.
Dopo qualche istante verrà visualizzata la tabella filtrata, contenente solo i dati relativi alle annualità 2020 e 2024.

Per selezionare tutta la tabella, clicchiamo sul riquadro in alto a sinistra (il rettangolo bianco posto alla sinistra dell’intestazione “Anno”). In questo modo verranno selezionati tutti i dati visualizzati.

Facciamo clic con il tasto destro del mouse per aprire il menu contestuale, quando compare l’elenco delle opzioni, clicchiamo su “Copia”.

5. Importare su LibreOffice Calc
A questo punto possiamo passare al foglio di calcolo. Apriamo un nuovo documento vuoto in LibreOffice Calc, in cui incolleremo i dati copiati in precedenza.

Facciamo clic con il tasto destro del mouse e selezioniamo la voce “Incolla” per incollare i dati.

Dopo alcuni istanti di elaborazione, i dati verranno incollati nel foglio di calcolo e saranno visibili nel nuovo documento.

6. Filtrare i NIL di interesse
Per filtrare i dati per quartiere, selezioniamo l’icona con l’imbuto e il fulmine, chiamata “Filtro automatico”.

Posizioniamoci sulla colonna C, corrispondente ai “NIL”. Facendo clic sulla freccia verso il basso nell’intestazione della colonna, verrà aperto il menu del filtro automatico.

Nel filtro selezioniamo i NIL di interesse, ossia Giambellino, Lorenteggio, Porta Ticinese–Conchetta, Moncucco–San Cristoforo, Barona, Cantalupa, Ronchetto sul Naviglio–Quartiere Lodovico il Moro, Porta Genova, Bande Nere e Parco dei Navigli. Una volta completata la selezione, clicchiamo su “OK”.

A questo punto i dati risultano filtrati sia per annualità sia per NIL di interesse; possiamo quindi procedere con l’elaborazione direttamente nel foglio di calcolo.

Nota finale
Questa procedura è applicabile a qualsiasi dataset CSV strutturato in modo analogo, ed è particolarmente utile per utenti che non dispongono di software dedicati all’analisi dei dati.