Giter VIP home page Giter VIP logo

daf-data-science's Introduction

daf-data-science

This repository contains all the ongoing work on data science done by the DAF team.

The repository is organized in topics. Each topics has a folder name that contains:

  1. data,
  2. notebooks and
  3. a environment.yml or a requirement.txt file with the python libraries used for the analysis.

Work Organization

  1. all the activities are listed as issues
  2. use labels to categorize your Work
  3. use the wiki if you want to create additional documentation
  4. update the readme each time you are adding a new topic to this project.

Data Security [Not Ready Yet]

In case you need to push some data or analysis and your not sure if you can publish it please encrypt your data using git crypt.

To install git-crypt for mac

brew install git-crypt
  1. Please read this tutorial to have an idea on how to use it.

  2. how to generate a gpg key

daf-data-science's People

Contributors

crimenghini avatar davideveronese avatar fabiana001 avatar fabiofumarola avatar mariaclaudia avatar

Stargazers

 avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

daf-data-science's Issues

One Pager Dati Registro Nazionale Aiuti di Stato Mise

Registro Nazionale Aiuti di Stato

A partire da agosto 2017 è stato introdotto il "Registro Nazionale Aiuti di Stato".

Il nuovo Registro è operativo dal 12 agosto 2017 sul sito http://www.rna.gov.it

Il registro Nazionale Aiuti di Stato è il primo strumento informatizzato attivato da un Paese membro per il controllo e la pubblicità degli aiuti di Stato, Il Registro permette di verificare che le agevolazioni pubbliche siano concesse nel rispetto delle disposizioni previste dalla normativa comunitaria, specie al fine di evitare il cumulo dei benefici e, nel caso degli aiuti de minimis, il superamento del massimale di aiuto concedibile imposto dall’Unione europea.

Sul sito viene fornito un form di ricerca attraverso il quale è possibile interrogare il registro per consultare gli aiuti e le misure in modo testuale. Non è possibile effettuare un'analisi geografica.

I dati consultabili partono da ottobre 2009.

Obiettivi:

Fornire uno strumento che permetta di condurre un'analisi esplorativa anche base geografica di come sono stati assegnati gli aiuti di stato

  1. Arricchire i dati sugli aiuti attraverso l'integrazione con sorgenti dati esterne.

  2. Ribadire l'importanza di pubblicare in formato OPEN DATA i dati in modo da agevolare lo scambio di informazioni e la creazione di valore aggiunto tra le PA attraverso l'utilizzo di uno strumento condivisp (DA).

In particolar modo in questo contesto sarebbe utile poter interagire con i dati relativi a:
- anagrafiche delle aziende (PIVA e CODICI FISCALI): il servizio offerto non è gratuito. Ad oggi non è possibile accedere gratuitamente all'anagrafica di una realtà commerciale tramite la P.IVA o il Codice Fiscale.
- dati fiscali delle azienda Agenzia delle Entrate: controllare se i riceventi dell'aiuto hanno avuto un beneficio nella propria azienda (impatto sul territorio in termini occupazionali, aumento di fatturato...)

  1. Geo localizzare i beneficiari per estrarre comune, provincia, regione:
    Nel dataset non è presente l'informazione geografica: l'indirizzo e comune dell'azienda che ha ricevuto l'aiuto non è presente, esiste unicamente la ragione sociale e la regione.
    Introducendo il campo comune si puo' offire una nuova funzionalita' di ricerca rispetto a quella presente nella form web offerto dal Registro sugli Aiuti di Stato.

Assumption: per gli aiuti in cui è presente il codice fiscale beneficiario stabiliamo che il luogo di nascita coincide con la sede dell'azienda. Per estrarre informazioni delle partite iva comunitarie si è utilizzato il servizio web della comunità europea (vedi link), mentre per estrarre informazioni da codici fiscali e partite iva non comunitarie si è utilizzato un servizio web privato (vedi link).

  1. Analisi su imprese contenente i codici fiscali

    • analizzare la distribuzione tra aziende e persone fisiche

    • analisi demografica dei fondi destinati alle persone fisiche.

    • quale e' la distribuzione rispetto al sesso e alla posizione geografica?

    • imprenditoria femminile/maschile?

    • Anno di nascita di imprenditori, distribuzione?

  2. Analisi dei dati per codice NACE (simile codice ATECO):

    • capire la distribuzione dei fondi rispetto al codice di attivita' delle aziende (Quale categorie di aziende stanno chiedendo aiuti allo stato) ?
    • capire se i fondi sono stati assegnati su categorie di interesse per le aziende italiane?
  3. analisi dei campi testuali su "DESCRIZIONE PROGETTO":

    • correlare la distribuzione dei termini rispetto ai dati geografici
    • quali sono le parole che si mi danno un maggiore ritorno economino e maggiore possibilita' in termini fondi? Perche': io come azienda capirei su cosa investire
  4. cercare se l'azienda ha un sito web (pagina facebook, account instagram), come proxy per capire se l'azienda e' ancora attiva:
    Perche':

    • in questo modo si puo' capire se l'aiuto ha dato vantaggio

Generale: Ognuna di questa analisi deve permette la visione dei trend sugli anni
Il MiSe ci ha comunicato che i dati contenuti nel registro sono affidabili solo a partire da agosto 2017 poichè prima non c'era l'obbligo di registrare l'aiuto.

FUTURE Works

  • incrocio con dati di OpenCoesione
  • incrociare i dati con i dati delle agenzie delle entrate per misurari vantaggi derivanti dagli aiuti.
  • beneifici sul territorio dei fondi assegnati. Esempio quanto questa azienda crea per il territorio in termini di occupazione o altro
  • avere accesso a chi a presentato le domande fondi per capire se ci sono aziende che in maniera sistematica cercano fondi (possibili tentativi di frode e comportamento anomalo)

Utilità lato azienda:

  • sono una azienda e devo chiedere fondi, quale amministrazione, posizione geografica e quale fondo massimizza la mia possibilita' di ottenere i fondi?

Revisione:
Draft: Fabio Fumarola
versione 1.0: Maria Claudia Bodino

Clustering dei comuni

Come proposto da @CriMenghini, mi sembra interessante fare un clustering dei comuni basato sui fabbisogni e produrre una visualizzazione dei risultati.
Credo sia importante far vedere come con lo strumento DAF si possano fare analisi basate su tecniche avanzate, diverse da quelle rese disponibili in Excel o SQL (per fare due esempi banali).

  • Preparare il dataset con le variabili di cluster
  • Provare 2/3 tecniche diverse ed esplorare i risultati (K-means, t-SNE, ...)
  • Produrre una visualizzazione ed aggiungere le etichette di cluster al dataset

[Data Integration] - Collegare dati OpenCoesione su base comunale

Nell'ottica di produrre esempi di data integration, i dati di OpenCoesione possono essere riferiti alla base per comune presente in OpenCivitas:

  • Definire i campi di interesse da collegare (es: pagamenti nel tempo per settore e comune)
  • Produrre script che fornisca dataset con codice comune ISTAT in chiave
  • Importare in OpenCivitas

Analisi Dati MEF Redditi e principali variabili Irpef su base comunale

Tematica: Redditi e principali variabili Irpef su base comunale
Classificazione: Comune

Campi contenuti nel dataset:

  • Numero contribuenti
  • Reddito da fabbricati
  • Reddito da lavoro dipendente e assimilati
  • Reddito da pensione
  • Reddito da lavoro autonomo (compresi nulli)
  • Reddito spettanza imprenditore ordinaria (compresi nulli)
  • Reddito spettanza imprenditore semplificata (compresi nulli)
  • Reddito da partecipazione (compresi nulli)
  • Reddito imponibile, Imposta netta
  • Reddito imponibile addizionale
  • Addizionale regionale dovuta
  • Addizionale comunale dovuta
  • Reddito complessivo minore o uguale a zero euro
  • Reddito complessivo da 0 a 10000 euro
  • Reddito complessivo da 10000 a 15000 euro
  • Reddito complessivo da 15000 a 26000 euro
  • Reddito complessivo da 26000 a 55000 euro
  • Reddito complessivo da 55000 a 75000 euro
  • Reddito complessivo da 75000 a 120000 euro
  • Reddito complessivo oltre 120000 euro

Task:

  • scaricare i dati (1 dataset per anno con allineamento dati MISE -2009)
  • caricamento e analisi dati per possibili incroci con dati di aiuto MISE

Dati relativi fabbisogni header mancanti per le serie temporali 2013-2015

Dopo un confronto tra i dati online e i dati del pac_sose relativi ai fabbisogni dei comuni sembra che manchino delle colonne di dati nel pac_sose che sono invece presenti nei dati online

Ad esempio il file http://docs.opencivitas.it/2013_FC05B_Comuni_Fabbisogni_caratteristiche_prestazioni_csv.zip
contiene gli header "CAT_DET_COD_8";"IND8";"IND9";"IND10";"IND11";"IND12";"IND13" che non sono presenti nel pac_sose nel file FC05B_funz_ambiente.csv

Analisi dati tema viabilità

Creare un notebook che analizzi l'indicatore Differenza percentuale spesa storica e fabbisogni per la voce viabilità dei bilanci comunali.

Nel corso delle analisi la variabile è confrontata con:

  • Il reddito medio dei cittadini del comune
  • Il rapporto percentuale tra servizi offerti e servizi standard.

Integrazione Dati da MEF su Redditi e principali variabili IRPEF su base comunale

Dati da MEF su Redditi e principali variabili IRPEF su base comunale

L'oggetto di questo notebook è una analisi esplorativa su base comunale dei Redditi e principali variabili IRPEF.
L'idea di base è quella di utilizzare i dati IRPEF Legati

I dataset utilizzati e presenti nella cartella "Data" sono pubblici e rilasciati sul portale del MEF in formato .zip al seguente link

Analisi Aiuti Mise

AIUTI DI STATO: registro nazionale

  • Ministero dello Sviluppo economico, Agenzia Coesione Territoriale, UE
  • Granularità elevata
  • Probabilmente non ancora mai usati in dashboard istituzionali
  • XML
  • Profondità temporale: dal 2010 - 1 file XML per mese
  • METADATI AIUTO

One Pager Dati Open Civitas

Open Civitas

Questo portale contiene i dati relativi a costi e fabbisogni di comuni e province italiane.
Il portale e’ stato creato come caso di studio per riorganizzare il modo in cui i fondi dei comuni sono distribuiti sul territorio italiano, per favorire una equa distribuzione dei fondi prelevati ai comuni e distribuiti in base ai fabbisogni.

Pain

La spesa pubblica italiana e’ di 830 miliardi: circa 300 rappresentano il cuore dei servizi pubblici (scuola, sanita’ e forze di polizia) una sessantina di miliardi sono investimenti in conto capitale. La spesa sociale è quasi 340 miliardi e poi gli interessi sul debito fonte sole 24 ora.
Con il blocco dei turnover e’ stato diminuito il numero di persone della P.A. 4%, mentre le p.a. locali hanno contribuito per il 17%. Tuttavia, rimane un problema aperto come:

  1. ridurre le voci di costo cercando di non ridurre la qualita’ dei servizi offerti
  2. non aumentare la pressione fiscale sui contribuenti.

Possibili soluzioni potrebbero voler dire riorganizzare alcune voci di costo come ad esempio quanto fatto per la sanita’ dove nel 2015 tre quarti degli acquisti erano fatti dai singoli ospedali mentre nel 2017 gli acquisti sono centralizzati.
Un altro esempio e’ quello del comune di Roma dove e’ stato fatta la chiusura-accorpamento
di 10 stazioni di polizia con la creazione di 5 nuove. Le nuove stazioni sono state aperte privilegiando le aree periferiche che hanno minori costi in termini di affitto e un bisogno oggettivo di controllo sul territorio.
Questo lo si può fare raccogliendo i dati, misurando e incrociando diverse sorgenti dati.

Solution

Integrazione e analisi dei dati di Open Civitas per mettere in evidenza pattern geo riferiti sui costi relativi a:

  • entrate tributarie
  • ufficio tecnico
  • anagrafe
  • polizia locale
  • istruzione
  • viabilità
  • ambiente
  • sociale

Opencivitas contiene dati sui costi sostenuti dai vari comuni per le macro voci sopra e degli indicatori sulla ripartizione dei fabbisogni. I dati sono rappresentati a livello di comune e interpolati a livello provinciale.

In questo modo potremo analizzare i dati avendo una connotazione geografica che permetta di scoprire dei pattern interessanti per la distribuzione delle voci di competenza dei servizi.
In particolare, i dati di open civitas saranno integrati con: redditi su base comunale, posizione geografica dei comuni, openbilanci.it.
Si analizzeranno:

  • anomalie geografiche
  • anomalie tra costi e valori osservati in openbilanci
  • disomogeneità tra voci di costo e fabbisogno su base spaziale e demografica.

Esempi:

  • Comuni con un alto investimento sul sociale ti aspetti che ci siano meno persone nella forbice (poveri e ricchi)
  • comuni con una forte forbice tra fabbisogni e costi reali.

Revisione

0.1 draft 10/01/2018 Maria Claudia Bodino
1.0 prima revisione 10/01/2018 Fabio Fumarola

Analisi Dataset Mise

  • Analisi descrittiva delle variabili presenti nel dataset.
  • aggiungere legenda delle colonne dal dataset

tutto quello che serve per capire di cosa stiamo parlando

Realizzare una web application basata sui dati relativi al Servizio Smaltimento Rifiuti

!domande riportate in grassetto!

DATI DA UTILIZZARE

  • Open data sul Servizio Smaltimento Rifiuti (FC05B) nel pac-sose
  • metadata relativi a indicatori disponibili su daf-dataset-doc FC05B
  • metadata relativi a codice catastale comuni disponibili ai link Metadati Enti 2010, Metadati Enti 2013
  • popolazione comuni 2010 e 2013 (ho scaricato i file da ISTAT: link diretto agli zip file del 2011 - non ho trovato il 2010 e 2013)

VISUALIZZAZIONE 1

Estendere il grafico Percentuale di raccolta differenziata nei comuni con più di 150000 abitanti: servizi vs spesa nel comune di Milano per renderlo interattivo su tutti i comuni con filtri per selezionare comuni con <150000 abitanti o > 150000 abitanti come accade in questa visualizzazione ma aggiungendo schede per ciascun comune.

asse x: efficienza delle spesa nell'anno A (LQP_COD_5 del file fabbisogni)
asse y: livello dei servizi erogati nell'anno A (LQP_COD_6)
raggio di ciascun punto: numero di abitanti

NOTE PERSONALI RELATIVE ALLA VISUALIZZAZIONE

controllo dimensionalità dati

anno LQP_COD_5 LQP_COD_6 Metadata Enti
2010 6702 comuni con 539 NaN
2013 6699 comuni con 225 NaN

ALTRE POSSIBILITA'

Utilizzando file topojson dei comuni (caso 1) e delle regioni (caso 2) relativi agli anni 2010 e 2013 e anche i dati relativi all raccolta differenziata che credo siano disponibili nei file determinanti rifiuti o sono anche disponibili su ISPRA? realizzare le seguenti visualizzazioni

  1. Smaltimento rifiuti: andamento della raccolta differenziata dal 2010 al 2013 nelle principali città italiane

  2. Smaltimento Rifiuti nelle province del Veneto

Oppure eventualmente utilizzare dati che non sono ora disponibili nel pac-sose:

NOTE PERSONALI

Oltre che nel pac_sose i dati relativi al fabbisogno (ma anche le spese) sono disponibili sul sito Open Civitas (fonti MISE e ISPRA) ai link:

Online i metadati degli indicatori per il fabbisogno non sono corretti.

Il sito riporta le seguenti keyword:

Fabbisogni standard, indicatori, livelli quantitativi delle prestazioni, variabili e pesi determinanti, Addetti totali ASIA,Comune litoraneo,Densita' (Numero di abitanti per kmq di Centri, Nuclei, Attivita' Produttive e Case Sparse),Distanza in Km Comune-Impianto (media pesata) - Ponderata con tonnellate,Livello delle locazioni immobiliari ad uso ufficio - Prezzo al mq,Numero di alunni che fruiscono del servizio di mensa nelle scuole d'infanzia, primarie e secondarie di primo grado (statali, comunali e private),Numero di famiglie e convivenze,Numero di immobili non residenziali,Numero di immobili residenziali,Numero di posti letto ospedalieri,Numero di unita' locali ASIA che svolgono attivita' di servizi di alloggio e di ristorazione,Presenze turistiche in alberghi e strutture complementari

e riporta i metadati relativi agli enti.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.