siciliahub / arpasicilia_od Goto Github PK

Python 0.03% Shell 0.12% R 0.01% HTML 99.84%

arpasicilia_od's Introduction

Intro

ARPA Sicilia, e in particolar modo il gruppo di lavoro di Giovanni Vacante, ha chiesto a Open Data Sicilia di costruire insieme una procedura e una modalità di pubblicazione dei i dati aperti sulle centraline dell'aria che gestisce.

ARPA pubblica già questi dati qui, ma ci sono delle piccole barriere di utilizzabilità che vanno eliminate.

Questo repository è stato creato per lavorare in gruppo.

arpasicilia_od's People

Contributors

Watchers

Forkers

gitter-badger

arpasicilia_od's Issues

Perché i nomi dei file hanno strutture diverse?

I file di questa stazione ad esempio alle volte hanno spazio nel nome, alle volte no.

Si può fare in modo di rendere la cosa uniforme?

Documentazione valori di soglia

Ho raccolto i primi dati sui valori di soglia. Li trovate qui:

https://github.com/SiciliaHub/arpasicilia_od/tree/master/doc/soglia

@patperu inserisci nei grafici una linea rossa che indica il valore di soglia? Per il PM10/media 24h è 50 ug/m3?

Grazie

Farsi dare da ARPA Sicilia la descrizione dello schema dati

rimuovere file "gabbia 065092015.CSV"

Contiene dati per due giorni (5 e 6 settembre 2015) ed è quindi fuori standad

E' normale che le stazioni espongano "inquinanti" diversi?

Ad esempio nella stazione "gabbia" ci sono SO2, NO2 e Benzene, mentre in quella "exautoparco" solo Benzene.

Se ARPA può scegliere l'ideale è che tutte le stazioni contengano lo stesso numero di inquinanti. Se invece le stazioni espongono dati diversi, abbiamo bisogno di un documento che ci indichi le differenze stazione per stazione.

Creare script che cancella le righe inutili di intestazione dei CSV

Ad esempio le prime 6 righe di:

"NetC";"ARPA Sicilia";;;;;;;
"Stat";"VILLA AUGUSTA";;;;;;;
"Parm";"Benzene";"Benzene";"Benzene";"Benzene";"Benzene";"Benzene";"Benzene";"Benzene"
"PtId";"3";"3";"3";"3";"3";"3";"3";"3"
"Unit";"ug/m3 293K";;;"ug/m3 293K";;"ug/m3 293K";"ug/m3 293K";
"Field";"Aver";"SWrd";"MinT";"Min";"MaxT";"Max";"Sigma";"Samp"
"05/09/2015 00:00";;;;;;;;
"05/09/2015 01:00";"0.25395812";"80000000";"01:00";"0.0";"00:02";"4.8326762";"0.9897983";"720"
"05/09/2015 02:00";"0.84494699";"80000000";"02:00";"0.0";"01:17";"1.98060547";"0.87410642";"720"
"05/09/2015 03:00";"1.37112855";"80000000";"02:01";"0.0";"02:16";"3.8027603";"1.52284766";"720"
"05/09/2015 04:00";"0.00121023";"80000000";"04:00";"0.0";"03:00";"0.1584486";"0.01057578";"720"
"05/09/2015 05:00";"0.58846163";"80000000";"05:00";"0.0";"04:30";"2.29750267";"0.98001374";"720"
"05/09/2015 06:00";"0.82305098";"80000000";"06:00";"0.0";"05:59";"3.24819122";"1.39018815";"720"

Modica script download and clean MariaReport

Aggiungere allo script la rimozione delle righe con data nel futuro (quindi righe vuote).

Piccole novità sui dati ARPA

Scrivo anche qui un testo inviato in mailing list.

Vi scrivo per una piccola novità.

Da un po' di tempo il file opendata scaricabile in questa pagina (c'è il tasto in basso) è cambiato: infatti se scorrete sulla destra, trovate un po' tutti i dati in formato grezzo.

E' una sorta di xls che contiene dentro un csv. L'URL è http://88.53.168.210/Bollettino2/MAria_report.xls, ma purtroppo nelle ultime settimana non è quasi mai raggiungibile.
Una copia non aggiornatissima la potete scaricare da qui.

Si presenta più o meno così:

Non è adatto a farci subito delle elaborazioni: ci sono intestazioni da rimuovere, colonne totalmente vuote e/o inutili, nomi di colonna da normalizzare, ecc..

Però è un file che si presta a essere modificato e "ricostruito". Ho creato uno script in bash che consente di avere come output un file csv che può essere usato per analisi, grafici e mappe.
Questo file csv di output non è ancora la fine del mondo, così come non lo è lo script, ma consente di avere un file pronto per ulteriori elaborazioni.

L'output attuale dello script è questo, mentre lo script è questo.

Il file originario presenta due righe di intestazione:

una con nome stazione, inquinante e unità di misura (ad esempio "partinico SO2(µg/m3)-2014");
una con il tipo di misura in elenco (ad esempio "Max orario").

Ho ridotto tutto a una sola intestazione con un nome di questo tipo "partinico_SO2_Max_orario".
In questo file trovate il passaggio dalle due intestazioni alla singola.

Lo script

E' basato su csvkit, agate e sulle classiche meravigliose utility di Linux.

Fa essenzialmente questo:

estrae soltanto le colonne che possono essere utili;
rimuove le righe di intestazione;
inserisce i nomi di colonna normalizzati;
verifica quali colonne sono vuote;
rimuove le colonne vuote.

Le stazioni

Non ho verificato, ma dovrebbero essere sempre quelle di questo elenco.

Futuro

Per il momento mi fermo qui, e lascio sopratutto a Patrick, Giovanni e Davide (che hanno lavorato sui primi dati ARPA) la palla.
Un grazie ad Antonio Conti di ARPA che mi ha dato informazioni utili sul file xls (ne è il creatore).

Dataviz / Arrotondare i numeri nel tooltip (round)

ho visto questa soluzione per arrotondare i numeri nel tooltip

tooltip: { valueDecimals: 2 },

http://stackoverflow.com/questions/9085644/rounding-results-in-highcharts-jquery-script

Rimuovere dal set di dati di esempio i file con raggruppamento mensile

enna_082015.CSV
misterbianco_082015.CSV
partinico_082015.CSV
termica_082015.CSV
termini_082015.CSV
trapani_082015.CSV

Farlo in quanto i file esposti saranno quelli giornalieri.