opencovid19-fr / data Goto Github PK

View Code? Open in Web Editor NEW

285.0 26.0 103.0 89.68 MB

Consolidation des données de sources officielles concernant l'épidémie de COVID19

License: MIT License

JavaScript 100.00%

covid covid-19 coronavirus covid19-france

data's Introduction

🇬🇧 English

Données nationales concernant l'épidémie de COVID19

L'information officielle sur la progression de l'épidémie en France est assez fragmentée, et n'est presque jamais structurée sous forme de données.

L'objectif de ce dépôt est de consolider l'information officielle, et de la rendre disponible dans des formats ouverts et aisément réutilisables (JSON, CSV…).

Inutile de perdre du temps à écrire des scrappers, à ce stade il est plus efficace de recopier les données à la main, et d'indiquer la source.

Données résultantes

Sources utilisées

Santé publique France - 📂 /sante-publique-france
- Chiffres clés et cas par région
- Données GÉODES
Agences Régionales de Santé - 📂 /agences-regionales-sante
- Merci de prendre les issues ouvertes pour traiter les ARS x DATE, et que ce travail ne soit pas fait en double.
Préfectures - 📂 /prefectures
Ministère des Solidarités et de la Santé - 📂 /ministere-sante
- Vidéos / Vidéos en direct
- Points de situation (vidéos + PDF)
- Communiqués de presse

Fichiers sources

Les informations à la source sont au format PDF ou dans des communiqués au format HTML, ou pour les vidéos ce sont des informations partagées à l'oral.

Ces informations sont collectées et regroupées dans des fichiers YAML.

1 fichier YAML par source et par publication (donc par date). Le nom de chaque fichier a pour modèle YYYY-MM-DD.yaml.

Comment contribuer ?

Vous pouvez vous proposer comme volontaire sur un département ou une région dans ce pad.

Vous pouvez aussi consulter le guide de contribution pour l'ensemble des projets de collecte de données.

🚨 Les contributions se font via les fichiers YAML et non dans le fichier de sortie (CSV/JSON)

⚠️ Faites une pull request par fichier YAML (ça facilite les relectures et accélère l'intégration des data)

Tâches :

Créer les fichiers YAML manquants. Voir section 1️⃣
Vérifier les pull requests. Voir section 2️⃣

1️⃣ Comment créer un fichier Yaml

⚠️ vérifier dans les PR que le fichier n'est pas déjà proposé

Le plus simple pour contribuer est de copier un fichier YAML existant et de l'adapter avec les nouvelles données. Les données doivent être recopiées à la main depuis les différentes sources de données. Le fichier YAML doit être placé dans le bon répertoire et son nom doit être sous la forme YYYY-MM-DD.yaml (date du bulletin).

Les sources de données (PDF, videos ou site web) sont notées dans chaque fichier YAML. Si vous cherchez des sources de données, les sources actuelles sont regroupées dans le fichier de sortie (CSV/JSON).

💡 Pour les novices, ce guide complet détaille comment contribuer via GitHub.

2️⃣ Comment vérifier un pull request (PR)

Choisir une pull requests
Relire les fichiers YAML de la PR en les comparant avec les données du bulletin pointé par url ou archive
Faire code review en notant les défaut si existant (exemple: le nombre de cas est incorrect)
Soumettre sa code review en "approvant" ou en "demandant des modifications"
- Si vous ne trouvez aucun défaut, il faut "approuver" la PR

(Tutoriel vidéo)

Convention de nommage des pull requests

⚠️ Rappel: un seul nouveau fichier YAML par PR.

Lorsque vous faites une pull request, il convient de respecter les règles de nommage suivantes:

Pour l'ajout d'un nouveau fichier YAML : ADD nom_de_de_source jj/mm

Exemple avec le fichier du 24 mars de l'ARS de La Réunion : ADD ARS La Réunion 24/03
Pour une correction sur un fichier YAML existant : FIX nom_de_la_source jj/mm

Exemple avec le fichier du 20 mars de Santé Publique France : FIX SPF 20/03

Comment compléter les fichiers YAML

Consignes générales :
➡️ le nombre d'espaces en début de ligne est très important, ainsi que la position des tirets -, soyez vigilant en complétant les fichiers
➡️ Ne pas mettre d'espaces entre les nombres. 255 000 ▶️ 255000

Entête de fichier YAML

Voici un exemple de bloc YAML pour une entête de fichier :

date: 2020-03-10
time: 15:00 # champ optionnel
source:
  nom: nom-de-la-source-de-donnees
  url: https://site.web/lien-vers-le-bulletin.pdf
  archive: https://web.archive.org/web/XXXXXX/https://site.web/lien-vers-le-bulletin

Le fichier YAML doit commencer par la date du bulletin, suivi pour un bloc source. Il convient de mettre le nom et l'url de la source (de préférence un bulletin PDF ou à defaut une page web). Pour les pages web et les PDF, il convient de rajouter une archive:, voir section suivante.

💡 Le champ time est optionnel. L'heure au format hh:mm peut être précisée, si elle est indiquée dans le bulletin. Exemple 'Chiffres retenus à 15h00 le 27 mars'.

⚠️ Attention, un seul fichier par date. S'il existe plusieurs bulletins pour le même jour à des heures différents, il conviendra de regrouper les données dans un seul fichier en prenant les données les plus récentes. Notez que ce n'est pas toujours possible de regrouper ces données.

Comment créer une 'archive'

Rendez-vous sur le site https://web.archive.org/save
Dans le champ texte, collez l'url de votre source
Appuyez sur 'save page'. Un lien commençant par https://web.archive.org/web/ sera généré
Vérifiez que ce lien fonctionne : en l'ouvrant dans votre navigateur, vous devez voir la bone page apparaître
Collez le lien complet derrière la balise archive:

Notez que le lien peut prendre du temps avant d'être fonctionnel. Il est également possible d'archiver un fichier PDF. Certains bulletins web ou PDF sont écrasés chaque jour donc pensez à faire des archives sur https://web.archive.org/save.

Les données collectées

Les données nationales

casConfirmes : total cumulé du nombre de cas confirmés
deces : total cumulé du nombre de décès
decesEhpad : total cumulé du nombre de décès en EHPAD (si indiqué)
hospitalises : nombre de personnes hospitalisées le jour du bulletin
reanimation : nombre de personnes en réanimation le jour du bulletin
gueris : total cumulé du nombre de personnes guéries (sorties de l'hôpital)
depistes : total cumulé du nombre de personnes dépistées (testées par PCR)

Les données internationales

casConfirmes : total cumulé du nombre de cas confirmés au niveau mondial
gueris : total cumulé du nombre de cas guéris au niveau mondial
deces : total cumulé du nombre de décès au niveau mondial
paysTouches : nombre de pays touchés

Autres données collectées (si elles sont mentionnées dans les sources)

Sur les types d'hopitalisations:

hospitalisesConventionnelle : quand le bulletin indique patients en hospitalisation conventionnelle
hospitalisesReadaptation : patients "en soins de suite et réadaptation" (attention ce n'est pas réanimation)
hospitalisesAuxUrgences : patients "en soins aux urgences"

Sur la capacité de lits, la capacite totale de lits disponibles capaciteTotaleLitsDisponibles est définie par la somme de :

capaciteLitsReanimation : capacite de lits de réanimation (équipés de respirateurs)
capaciteLitsSoinsContinus : capacité de lits de soins continus*
capaciteLitsSoinsIntensifs : capacité de lits de soins intensifs

📒 * Les USC (Unités de Soins Continus) ont pour vocation de prendre en charge « des malades qui nécessitent, en raison de la gravité de leur état ou du traitement qui leur est appliqué, une observation clinique (incluant une surveillance rapprochée des paramètres vitaux) et biologique répétée et méthodique ».

Source : Décret n° 2002-466 du 5 avril 2002 relatif aux conditions techniques de fonctionnement auxquelles doivent satisfaire les établissements de santé pour pratiquer les activités de réanimation, de soins intensifs et de surveillance continue

Bloc YAML par région ou département

Voici un exemple de bloc YAML pour une région ou un département:

  nom: region-ou-departement-exemple
  code: Exemple
  casConfirmes: 500
  gueris: 40 # ceci est un commentaire pour détailler une valeur
  deces: 10
  depistes: 5000
  hospitalises: 10 # ceci est un autre commentaire
  reanimation: 5
  victimes:
    - age: 85
      date: 2020-03-10
      sexe: homme
    - sexe: femme
      date: 2020-03-10
    - date: 2020-03-10

Les champs casConfirmes, gueris, deces et depistes comptabilisent le total par catégorie depuis le début de la crise Covid-19.
Les champs hospitalises et reanimation donnent le nombre de patient par catégorie à l'instant de l'édition du bulletin d'information, ces 2 chiffres peuvent bien sûr évoluer à la hausse ou à la baisse.
Le bloc victimes détaille les informations du bulletin concernant les personnes décédées (et non les personnes contaminées). Attention ce champ ne comptabilise pas toutes les victimes depuis le début de la crise, mais uniquement les victimes annoncées dans le bulletin.
- Pour chaque victime, on ajoute un tiret -, puis les informations sur la personne. Si aucune information, ajoutez la date du décès date: 2020-03-10. Si vous disposez de plus d'information, ajoutez un tiret - par victime puis toutes les informations disponibles age, sexe et/ou date (cf. exemple ci-dessus)

💡 Notez qu'il est possible si besoin d'ajouter des commentaires en fin de ligne en utilisant le caractère #

💡 Notez qu'il est possible que certains bulletins soient érronés. Dans ce cas, corrigez le fichier YAML sur lequel l'erratum s'applique. Il convient de noter via un commentaire # la raison de la différence entre le nombre indiqué dans le YAML et le nombre indiqué dans sa source. Exemple :

  casConfirmes: 29 # Erratum du bulletin 13/03 : 1 cas compté en double. La valeur 30 du bulletin du 12/03 est donc erronée

Produire les fichiers JSON et CSV

Pré-requis

Node.js >= 10
yarn ou npm

En action

yarn
yarn build

npm install
npm run build

Licence

2020 © Les contributeurs du dépôt.

Les données sont publiées sous Licence Ouverte 2.0 (sauf mention contraire).

Les codes sources sont publiés sous licence MIT.

data's People

Contributors

Stargazers

Watchers

Forkers

bzg teleboas caeck colinmaudry jchampionfr liszto natim eymiks marion-paclot missnita jerbou samastro quincy0909 borishejblum hhy5277 tberriot shalevy1 magopian antoineaugusti jrmie alextuil nicho2 cecilaki guillaumefe mfourniol xapitoun xdurang solenne2790 abdoulsn payoto raphaelpra elkolotfi scrouzet lcp5y3 renaudb42 dubrulln chamtec garronej naybnet adileg adilelghali cofri nicolasgrosjean jlph987 pvillatel poil corvid19 antoan2 melisandeteng jipibi jean3108 mohamedamine92 mckmonster dwinkler1 tiphaine 5l1v3r1 hmartinez69 lucasiscovici charbelrseif cedricguadalupe modevinfo maelakloareg lordgun nsocheleau abulte obdm mariollejc mqu correg alphanut costantinicarlo margulies jeromehugueny turukawa geonp guignardbenjamin lichen79 mtaieb aodex senethially18 popendekl p-bouche shadowfurtive montemurropaolo remivine badele zc94589523 remi-j karthikpms ihabbendidi leogue hoanganhngo610 sc979 kqtqk93 samhajjar samerhjr lbaraton 56-source virusblade dzaleska

data's Issues

ARS PACA 17/03

Le communique n'indique pas clairement la repartition des cas entre les departements

4 personnes testées positives au coronavirus COVID-19 sont décédées. Il s’agit de quatre personnes hospitalisées dans les Alpes-Maritimes, les Bouches-du-Rhône et le Vaucluse.

Cependant le fichier yaml les attribue specifiquement a chaque departement (1 pour le 06, 2 pour le 13, 1 pour le 83)

Cela pose un probleme de cintinuite avec le fichier du 18 qui n'annoce plus de deces par departement

ARS Auvergne-Rhone-Alpes 2020-03-16

Indiquez que vous gérez cette date x ARS avant de vous lancer. Evite les multiples pull request sur le même sujet. Merci

ARS Bourgogne-Franche-Comté 2020-03-16

Indiquez que vous gérez cette date x ARS avant de vous lancer. Evite les multiples pull request sur le même sujet. Merci

ARS Occitanie 2020-03-16

Indiquez que vous gérez cette date x ARS avant de vous lancer. Evite les multiples pull requests sur le même sujet. Merci

Polynésie française (éplucher les communiqués de presse)

Les communiqués de presse des points de situation sont mélangés aux autres CP. Il faut donc parcourir la colonne de gauche. Une recherche (en haut à droite) peut peut-être aider.

http://www.polynesie-francaise.pref.gouv.fr/Actualites/Communiques-de-presse/2020/Coronavirus-Aucun-nouveau-cas-en-Polynesie-francaise

ARS Centre-Val-de-Loire 2020-03-16

Indiquez que vous gérez cette date x ARS avant de vous lancer. Evite les multiples pull requests sur le même sujet. Merci

ARS Grand-Est 2020-03-16

Indiquez que vous gérez cette date x ARS avant de vous lancer. Evite les multiples pull requests sur le même sujet. Merci

Interopérabilité avec coronadatascraper

Sur le site https://coronadatascraper.com/ le mapping des données pour la France n'est pas correct. Le problème semble connu, cf. https://github.com/lazd/coronadatascraper/issues/102. En attente de leur retour pour améliorer.

ARS Hauts-de-France 18/03

Terminé

ARS Nouvelle-Aquitaine 2020-03-17

Code région erroné au sein des données ARS

Bug #134 de retour sur les données du 17 et 18 mars.

Insertion des données #casRéa du point video Ministère Santé

Je m'en suis occupée et j'ai relevé avec @scrouzet les données relatives aux cas en réanimation (principalement) des vidéos aux dates :

4 mars
5 mars
6 mars
9 mars
10 mars
11 mars
14 mars
17 mars
18 mars
19 mars

Pas de point Min. Santé aux dates manquantes (15/16 mars+ 12/13 mars), ou pas de vidéo trouvée sur ce canal (Dailymotion)

ARS Guyane (intégralité / comptage par nb nouveaux cas...)

Ça se passe par ici : https://www.guyane.ars.sante.fr/liste-communiques-presse?themes_publications%5B13855%5D=13855&archive=All

Chiffres SPF 15/03/2020 à ajuster ?

Source concernée : https://www.santepubliquefrance.fr/content/download/237536/2535424
Pourrait remettre en cause les chiffres du fichier SPF du 15/03

Par contre, les chiffres de ce fichier sont supérieurs aux chiffres saisis dans le fichier SPF du 16/03

Comment interpréter donc cette nouvelle source ?

ARS Normandie 2020-03-16

Indiquez que vous gérez cette date x ARS avant de vous lancer. Evite les multiples pull requests sur le même sujet. Merci

ARS Bourgogne-Franche-Comté

Terminé

ARS Hauts-de-France 2020-03-16

Indiquez que vous gérez cette date x ARS avant de vous lancer. Evite les multiples pull requests sur le même sujet. Merci

ARS Bretagne 2020-03-16

Indiquez que vous gérez cette date x ARS avant de vous lancer. Evite les multiples pull requests sur le même sujet. Merci

'gueris' dans le CSV

Est-ce que il y a la possibilité d'avoir aussi le guéri dans les fichiers récapitulatifs ?

Ceci permettrait de calculer les actifs et, donc, la pression actuelle sur la santé publique.

Merci.

[QUESTION] Comment rentrer certaines données dans nos fichiers ?

Concernant la Nouvelle Aquitaine, les les chiffres sont rectifiés d'un communiqué à l'autre.
Comment soumettre les valeurs dans ces cas là ?

Dans le cas ou un cas passe d'un jour en confirmé en négatif le lendemain via un Erratum, comment le rentrer dans nos datas ?

ARS Auvergne-Rhône-Alpes 17/03

Je le fais de suite

ARS Haut-de-France 2020-03-17

IDF 2020-03-19 and update 2020-03-15

Je m'en occupe.

ARS Nouvelle-Aquitaine 2020-03-16

Indiquez que vous gérez cette date x ARS avant de vous lancer. Evite les multiples pull requests sur le même sujet. Merci

Nouvelle-Calédonie : aucun cas recensé. On l'enregistre ?

Communiqué de presse du 17 mars : https://gouv.nc/sites/default/files/atoms/files/2020.03.17_dp_nouvelles_mesures_du_gouvernement.pdf

Possibilité de renseigner plusieurs sources

Même si la règle est un fichier YAML = 1 source, dans certains cas l'information d'une même source est éclatée sur plusieurs pages.

On pourrait accepter les tableaux pour le champ source.

Cf #158

ARS Pays-de-Loire 2020-03-16

Indiquez que vous gérez cette date x ARS avant de vous lancer. Evite les multiples pull requests sur le même sujet. Merci

Saint Barthelemy et Saint-Barthélémy

Bonjour

Je viens par des chemins detournés (depuis le repo du JHU en regardant les repos d'un intervenant) d'arriver sur ce repo

J'essayais moi meme de recuperer les données de santé publique france et localement je recupère les infos de réanimation hospitalisation de bourgogne franche comté sur un site local

J'ai donc eu le meme doublon que vous pour Saint Barthelemy

ARS PACA 2020-03-16

Indiquez que vous gérez cette date x ARS avant de vous lancer. Evite les multiples pull requests sur le même sujet. Merci

ARS Guadeloupe (intégralité)

Ça se passe ici : https://www.guadeloupe.ars.sante.fr/coronavirus-informations-et-recommandations-0

ARS Occitanie 18/03

Je m'en charge

ARS Auvergne Rhone Alpes 18/03

Je m'en occupe

Nombre de décès en France le 18 Mars 2020

Bonjour,

Sur vos données (et l'archive le montre aussi) le nombre de décès en france est de 244 pour le jour du 18/03/2020. Or, sur toutes les autres sources, je retrouve que le nombre est de 264 pour ce jour ci.

Ceci, fausse le calcul du nombre de morts par jour entre le 18 et le 19 et donne 218 au lieu de 208 affiché un peu partout.

ARS Ile-de-France 2020-03-16

Indiquez que vous gérez cette date x ARS avant de vous lancer. Evite les multiples pull requests sur le même sujet. Merci

ARS Occitanie 19/03

Je m'en occupe

Données PACA: définition des descripteurs

Quelle est la définition exacte des données? Ou bien y-a-t-il des points manquants?

Sur cette image, on voit que le descripteur 'décès' n'est pas complet ou que la définition que j'en ai comprise n'est pas bonne.
Qu'en pensez-vous?

Add readme in other languages

While discussing about "how to scale the data gathering done by CSSEGISandData/COVID-19" I was notified about your consolidation effort. So I followed the reference and... and I see everything is in your national language. Oh non. Pourquoi?!?

Well, using national language(s) may make the work easier for you but it effectively seals off any communication between yours and other similar project(s) or in the better case makes if one-directional.

Nobody from the rest of the world can learn from your example, nobody else can contribute to your effort. Everyone has to start his/her own effort from the scratch, trip over the same mistakes, etc.

Can you do something about it guys?

We have a global problem I doubt we can solve it every nation on its own.

suggestion: fournir des données historisées

bonjour,
merci pour ce travail.

juste un suggestion : vous pourriez constituer un fichier avec les séries temporelles comme par exemple ce que fait john hopkins :
https://github.com/CSSEGISandData/COVID-19/tree/master/csse_covid_19_data/csse_covid_19_time_series
ça permet de voir la dynamique au cours du temps en plus d'une image insantannée.

ARS Corse 2020-03-16

Indiquez que vous gérez cette date x ARS avant de vous lancer. Evite les multiples pull request sur le même sujet. Merci

ARS Occitanie 17/03

Je m'en charge de suite

ARS Bourgogne-Franche-Comté 17/03

Je le fais maintenant

ARS PACA 17/03/2020

Code région erroné au sein des données ARS

Les données de l'auvergne https://github.com/opencovid19-fr/data/tree/master/agences-regionales-sante/auvergne-rhone-alpes contiennent le même code (27) que celles de la bourgogne. Ceci peut poser des problèmes de croisement des données pour des outils se basant sur le code et non le nom de la région.

Le code région devrait être 84 pour l'auvergne.

Nouvelle source ? ECDC

Hello, j'ai remarqué que la majeure partie des données de Santé Publique France viennent de l'ECDC.
Je pense que ça faudrait le coup d'extraire leurs données. Qu'en pensez-vous ?

Quid de la licence de ces données ?
On pourrait les contacter directement afin d'obtenir un extract de leur data ?

@jdesboeufs: tu en penses quoi ?

Voici quelques pointeurs, avec d'immenses tableaux remplis de données:

ARS Nouvelle-Aquitaine 2020-03-18

Saint-Pierre-et-Miquelon : pas de cas recensés. On l'enregistre ?

Article de presse : https://la1ere.francetvinfo.fr/saintpierremiquelon/coronavirus-resultats-deux-premiers-tests-realises-saint-pierre-miquelon-encore-attente-prefet-s-exprime-ce-mardi-812882.html

[TO DO] SPF du 24/01 au 07/02 à compléter et à rectifier

A cette archive on trouve quelques infos sur la localisation des cas au tout début, ils seraient à ajouter aux fichiers SPF, ainsi cela éviterait d'avoir des cas à l'échelle nationale non indiqué sur la carte.
On peut également remarquer que certaines données sont décalées d'1 jour par rapport aux infos de SPF.

Du coup l'analyse n'est pas facile.

opencovid19-fr / data Goto Github PK

data's Introduction

Données nationales concernant l'épidémie de COVID19

Données résultantes

Sources utilisées

Fichiers sources

Comment contribuer ?

1️⃣ Comment créer un fichier Yaml

2️⃣ Comment vérifier un pull request (PR)

Convention de nommage des pull requests

Comment compléter les fichiers YAML

Entête de fichier YAML

Comment créer une 'archive'

Les données collectées

Les données nationales

Les données internationales

Autres données collectées (si elles sont mentionnées dans les sources)

Bloc YAML par région ou département

Produire les fichiers JSON et CSV

Pré-requis

En action

Licence

data's People

Contributors

Stargazers

Watchers

Forkers

data's Issues

Recommend Projects

Recommend Topics

Recommend Org