teamdigitale / daf-data-science Goto Github PK
View Code? Open in Web Editor NEWThis repository contains all the efforts made to create interesting analysis on Italian data
This repository contains all the efforts made to create interesting analysis on Italian data
Per ogni azienda aggiungere
A partire da agosto 2017 è stato introdotto il "Registro Nazionale Aiuti di Stato".
Il nuovo Registro è operativo dal 12 agosto 2017 sul sito http://www.rna.gov.it
Il registro Nazionale Aiuti di Stato è il primo strumento informatizzato attivato da un Paese membro per il controllo e la pubblicità degli aiuti di Stato, Il Registro permette di verificare che le agevolazioni pubbliche siano concesse nel rispetto delle disposizioni previste dalla normativa comunitaria, specie al fine di evitare il cumulo dei benefici e, nel caso degli aiuti de minimis, il superamento del massimale di aiuto concedibile imposto dall’Unione europea.
Sul sito viene fornito un form di ricerca attraverso il quale è possibile interrogare il registro per consultare gli aiuti e le misure in modo testuale. Non è possibile effettuare un'analisi geografica.
I dati consultabili partono da ottobre 2009.
Fornire uno strumento che permetta di condurre un'analisi esplorativa anche base geografica di come sono stati assegnati gli aiuti di stato
Arricchire i dati sugli aiuti attraverso l'integrazione con sorgenti dati esterne.
Ribadire l'importanza di pubblicare in formato OPEN DATA i dati in modo da agevolare lo scambio di informazioni e la creazione di valore aggiunto tra le PA attraverso l'utilizzo di uno strumento condivisp (DA).
In particolar modo in questo contesto sarebbe utile poter interagire con i dati relativi a:
- anagrafiche delle aziende (PIVA e CODICI FISCALI): il servizio offerto non è gratuito. Ad oggi non è possibile accedere gratuitamente all'anagrafica di una realtà commerciale tramite la P.IVA o il Codice Fiscale.
- dati fiscali delle azienda Agenzia delle Entrate: controllare se i riceventi dell'aiuto hanno avuto un beneficio nella propria azienda (impatto sul territorio in termini occupazionali, aumento di fatturato...)
Assumption: per gli aiuti in cui è presente il codice fiscale beneficiario stabiliamo che il luogo di nascita coincide con la sede dell'azienda. Per estrarre informazioni delle partite iva comunitarie si è utilizzato il servizio web della comunità europea (vedi link), mentre per estrarre informazioni da codici fiscali e partite iva non comunitarie si è utilizzato un servizio web privato (vedi link).
Analisi su imprese contenente i codici fiscali
analizzare la distribuzione tra aziende e persone fisiche
analisi demografica dei fondi destinati alle persone fisiche.
quale e' la distribuzione rispetto al sesso e alla posizione geografica?
imprenditoria femminile/maschile?
Anno di nascita di imprenditori, distribuzione?
Analisi dei dati per codice NACE (simile codice ATECO):
analisi dei campi testuali su "DESCRIZIONE PROGETTO":
cercare se l'azienda ha un sito web (pagina facebook, account instagram), come proxy per capire se l'azienda e' ancora attiva:
Perche':
Generale: Ognuna di questa analisi deve permette la visione dei trend sugli anni
Il MiSe ci ha comunicato che i dati contenuti nel registro sono affidabili solo a partire da agosto 2017 poichè prima non c'era l'obbligo di registrare l'aiuto.
FUTURE Works
Utilità lato azienda:
Revisione:
Draft: Fabio Fumarola
versione 1.0: Maria Claudia Bodino
Dopo un confronto tra i dati online e i dati del pac_sose relativi ai fabbisogni dei comuni sembra che manchino delle colonne di dati nel pac_sose che sono invece presenti nei dati online
Ad esempio il file http://docs.opencivitas.it/2013_FC05B_Comuni_Fabbisogni_caratteristiche_prestazioni_csv.zip
contiene gli header "CAT_DET_COD_8";"IND8";"IND9";"IND10";"IND11";"IND12";"IND13" che non sono presenti nel pac_sose nel file FC05B_funz_ambiente.csv
Sarebbe interessante studiare le spese fatte dai comuni e enti in termini si spesa sw e hw
Tematica: Redditi e principali variabili Irpef su base comunale
Classificazione: Comune
Campi contenuti nel dataset:
Task:
Aggiornare il file daf-data-science/requirements.txt mettendo le release aggiornate non vulnerabili
il questionario QUESTIONARIO CP01U - QUESTIONARIO UNICO PER LE PROVINCE E CITTA' METROPOLITANE viene fatto su base annuale?
Potremmo avere accesso ai risultati di questo questionario?
to [altroisi]
tutto quello che serve per capire di cosa stiamo parlando
Aggiunta ad ogni dataset di fabbisogni dei comuni del:
integrate the opencivitas data with the geo position from http://ckan.ancitel.it/dataset/comuni-italiani-dati-territoriali-e-demografici
integrare i dati dei comuni di open civitas con i dati dei bilanci comunali estratti da openbilanci.it
Esempio
Analisi preliminare del dataset:
Creare un notebook che analizzi l'indicatore Differenza percentuale spesa storica e fabbisogni
per la voce viabilità
dei bilanci comunali.
Nel corso delle analisi la variabile è confrontata con:
!domande riportate in grassetto!
Estendere il grafico Percentuale di raccolta differenziata nei comuni con più di 150000 abitanti: servizi vs spesa nel comune di Milano per renderlo interattivo su tutti i comuni con filtri per selezionare comuni con <150000 abitanti o > 150000 abitanti come accade in questa visualizzazione ma aggiungendo schede per ciascun comune.
asse x: efficienza delle spesa nell'anno A (LQP_COD_5 del file fabbisogni)
asse y: livello dei servizi erogati nell'anno A (LQP_COD_6)
raggio di ciascun punto: numero di abitanti
controllo dimensionalità dati
anno | LQP_COD_5 LQP_COD_6 | Metadata Enti |
---|---|---|
2010 | 6702 comuni con 539 NaN | |
2013 | 6699 comuni con 225 NaN |
Utilizzando file topojson dei comuni (caso 1) e delle regioni (caso 2) relativi agli anni 2010 e 2013 e anche i dati relativi all raccolta differenziata che credo siano disponibili nei file determinanti rifiuti o sono anche disponibili su ISPRA? realizzare le seguenti visualizzazioni
Oppure eventualmente utilizzare dati che non sono ora disponibili nel pac-sose:
Oltre che nel pac_sose i dati relativi al fabbisogno (ma anche le spese) sono disponibili sul sito Open Civitas (fonti MISE e ISPRA) ai link:
Online i metadati degli indicatori per il fabbisogno non sono corretti.
Il sito riporta le seguenti keyword:
Fabbisogni standard, indicatori, livelli quantitativi delle prestazioni, variabili e pesi determinanti, Addetti totali ASIA,Comune litoraneo,Densita' (Numero di abitanti per kmq di Centri, Nuclei, Attivita' Produttive e Case Sparse),Distanza in Km Comune-Impianto (media pesata) - Ponderata con tonnellate,Livello delle locazioni immobiliari ad uso ufficio - Prezzo al mq,Numero di alunni che fruiscono del servizio di mensa nelle scuole d'infanzia, primarie e secondarie di primo grado (statali, comunali e private),Numero di famiglie e convivenze,Numero di immobili non residenziali,Numero di immobili residenziali,Numero di posti letto ospedalieri,Numero di unita' locali ASIA che svolgono attivita' di servizi di alloggio e di ristorazione,Presenze turistiche in alberghi e strutture complementari
e riporta i metadati relativi agli enti.
Analizzare i dataset per capire se ci sono subset di dati comuni e proporre analisi integrata #1 @davideveronese
Perform:
Come proposto da @CriMenghini, mi sembra interessante fare un clustering dei comuni basato sui fabbisogni e produrre una visualizzazione dei risultati.
Credo sia importante far vedere come con lo strumento DAF si possano fare analisi basate su tecniche avanzate, diverse da quelle rese disponibili in Excel o SQL (per fare due esempi banali).
Chiedere informazioni relative alle variabili:
CAT_DET_COD_1
CAT_DET_COD_2
CAT_DET_COD_3
CAT_DET_COD_4
CAT_DET_COD_5
LQP_COD_4
LQP_COD_5
LQP_COD_6
Questo portale contiene i dati relativi a costi e fabbisogni di comuni e province italiane.
Il portale e’ stato creato come caso di studio per riorganizzare il modo in cui i fondi dei comuni sono distribuiti sul territorio italiano, per favorire una equa distribuzione dei fondi prelevati ai comuni e distribuiti in base ai fabbisogni.
La spesa pubblica italiana e’ di 830 miliardi: circa 300 rappresentano il cuore dei servizi pubblici (scuola, sanita’ e forze di polizia) una sessantina di miliardi sono investimenti in conto capitale. La spesa sociale è quasi 340 miliardi e poi gli interessi sul debito fonte sole 24 ora.
Con il blocco dei turnover e’ stato diminuito il numero di persone della P.A. 4%, mentre le p.a. locali hanno contribuito per il 17%. Tuttavia, rimane un problema aperto come:
Possibili soluzioni potrebbero voler dire riorganizzare alcune voci di costo come ad esempio quanto fatto per la sanita’ dove nel 2015 tre quarti degli acquisti erano fatti dai singoli ospedali mentre nel 2017 gli acquisti sono centralizzati.
Un altro esempio e’ quello del comune di Roma dove e’ stato fatta la chiusura-accorpamento
di 10 stazioni di polizia con la creazione di 5 nuove. Le nuove stazioni sono state aperte privilegiando le aree periferiche che hanno minori costi in termini di affitto e un bisogno oggettivo di controllo sul territorio.
Questo lo si può fare raccogliendo i dati, misurando e incrociando diverse sorgenti dati.
Integrazione e analisi dei dati di Open Civitas per mettere in evidenza pattern geo riferiti sui costi relativi a:
Opencivitas contiene dati sui costi sostenuti dai vari comuni per le macro voci sopra e degli indicatori sulla ripartizione dei fabbisogni. I dati sono rappresentati a livello di comune e interpolati a livello provinciale.
In questo modo potremo analizzare i dati avendo una connotazione geografica che permetta di scoprire dei pattern interessanti per la distribuzione delle voci di competenza dei servizi.
In particolare, i dati di open civitas saranno integrati con: redditi su base comunale, posizione geografica dei comuni, openbilanci.it.
Si analizzeranno:
Esempi:
0.1 draft 10/01/2018 Maria Claudia Bodino
1.0 prima revisione 10/01/2018 Fabio Fumarola
L'oggetto di questo notebook è una analisi esplorativa su base comunale dei Redditi e principali variabili IRPEF.
L'idea di base è quella di utilizzare i dati IRPEF Legati
I dataset utilizzati e presenti nella cartella "Data" sono pubblici e rilasciati sul portale del MEF in formato .zip al seguente link
Nell'ottica di produrre esempi di data integration, i dati di OpenCoesione possono essere riferiti alla base per comune presente in OpenCivitas:
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.