Scrivo anche qui un testo inviato in mailing list.
Vi scrivo per una piccola novità.
Da un po' di tempo il file opendata scaricabile in questa pagina (c'è il tasto in basso) è cambiato: infatti se scorrete sulla destra, trovate un po' tutti i dati in formato grezzo.
E' una sorta di xls che contiene dentro un csv. L'URL è http://88.53.168.210/Bollettino2/MAria_report.xls, ma purtroppo nelle ultime settimana non è quasi mai raggiungibile.
Una copia non aggiornatissima la potete scaricare da qui.
Si presenta più o meno così:
Non è adatto a farci subito delle elaborazioni: ci sono intestazioni da rimuovere, colonne totalmente vuote e/o inutili, nomi di colonna da normalizzare, ecc..
Però è un file che si presta a essere modificato e "ricostruito". Ho creato uno script in bash che consente di avere come output un file csv che può essere usato per analisi, grafici e mappe.
Questo file csv di output non è ancora la fine del mondo, così come non lo è lo script, ma consente di avere un file pronto per ulteriori elaborazioni.
L'output attuale dello script è questo, mentre lo script è questo.
Il file originario presenta due righe di intestazione:
- una con nome stazione, inquinante e unità di misura (ad esempio "partinico SO2(µg/m3)-2014");
- una con il tipo di misura in elenco (ad esempio "Max orario").
Ho ridotto tutto a una sola intestazione con un nome di questo tipo "partinico_SO2_Max_orario".
In questo file trovate il passaggio dalle due intestazioni alla singola.
Lo script
E' basato su csvkit, agate e sulle classiche meravigliose utility di Linux.
Fa essenzialmente questo:
- estrae soltanto le colonne che possono essere utili;
- rimuove le righe di intestazione;
- inserisce i nomi di colonna normalizzati;
- verifica quali colonne sono vuote;
- rimuove le colonne vuote.
Le stazioni
Non ho verificato, ma dovrebbero essere sempre quelle di questo elenco.
Futuro
Per il momento mi fermo qui, e lascio sopratutto a Patrick, Giovanni e Davide (che hanno lavorato sui primi dati ARPA) la palla.
Un grazie ad Antonio Conti di ARPA che mi ha dato informazioni utili sul file xls (ne è il creatore).