Giter VIP home page Giter VIP logo

paquete-apertura-datos's Introduction

paquete-apertura-datos

Documentation Status

Repositorio de ejemplos, documentación y recursos del Paquete de Apertura de Datos de la República Argentina.

Componentes del Paquete

Herramientas

  • Portal Andino: portal empaquetado y distribuible desarrollado sobre la base de la plataforma CKAN. Fue diseñado para hacer más fácil la apertura y federación de activos de datos en Argentina.
  • pydatajson: librería en python para analizar, generar y validar metadatos en formato data.json. Facilita el manejo de metadatos de catálogos de datos en Argentina.

Guías de buenas prácticas

Las guías de buenas prácticas son un trabajo colaborativo y en progreso. Valoramos e invitamos a todas las organizaciones y ciudadanos a plantear ideas, sugerencias y comentarios que contribuyan a crear mejores documentos.

Podés hacer esto cargando un nuevo issue, o respondiendo a un issue ya existente.

Si querés contribuir activamente con las guías o ir mirando lo que se viene en futuras versiones, te recomendamos ver la versión en desarrollo, donde trabajamos los próximos cambios antes de su publicación definitiva.

Estructura del repositorio

  • assets: archivos auxiliares para la generación de ejemplos.
  • docs: documentación y guías de buenas prácticas.
  • examples: ejemplos generados para las guías de buenas prácticas.
  • standards: recursos que compilan estándares recomendados en las guías o listas curadas de valores admitidos para algún campo (especialmente en metadatos), en formatos fáciles de consumir desde un script.

Contacto

Te invitamos a crearnos un issue en caso de que encuentres algún bug o tengas feedback de alguna parte de paquete-apertura-datos.

Para todo lo demás, podés mandarnos tu comentario o consulta a [email protected].

paquete-apertura-datos's People

Contributors

abenassi avatar aescobar-gob avatar cesarquilmes avatar fpetrone avatar gabycugliari avatar jazzido avatar nsampi avatar paulafernandezlopes avatar pavloae avatar pepeciavirella avatar pilimayora avatar solpar avatar sromani-datos avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

paquete-apertura-datos's Issues

En la sección "nomenclatura de archivos" agregar referencia a especificaciones técnicas

Una de las organizaciones incluidas en el PAD había nomenclado sus archivos utilizando espacios, ej: "base_estadistica 2015.csv". Lo cual terminaba reflejandose en un URL de descarga que incluía espacios, inválida para la herramienta pydatajson. En nuestra Guía recomendamos no incluir espacios en la nomenclatura de los archivos, pero en base a este caso concreto se estudiaron los estándares aplicables a las URL.
Por lo anterior, entiendo que deberíamos agregar en la sección " nomenclatura de archivos" (como nota al pie o incluida en el texto) la referencia a las especificaciones técnicas. Pudiendo utilizar la totalidad o parte del texto de @capitantoto :

RFC 1738 (1994):
https://www.ietf.org/rfc/rfc1738.txt
Unsafe:
Characters can be unsafe for a number of reasons. The space character is unsafe because significant spaces may disappear and insignificant spaces may be introduced when URLs are transcribed or
typeset or subjected to the treatment of word-processing programs.
The characters "<" and ">" are unsafe because they are used as the delimiters around URLs in free text; the quote mark (""") is used to delimit URLs in some systems. The character "#" is unsafe and should
always be encoded because it is used in World Wide Web and in other systems to delimit a URL from a fragment/anchor identifier that might follow it. The character "%" is unsafe because it is used for
encodings of other characters. Other characters are unsafe because gateways and other transport agents are known to sometimes modify such characters. These characters are "{", "}", "|", "", "^", "~", "[", "]", and "`". All unsafe characters must always be encoded within a URL. For example, the character "#" must be encoded within URLs even in systems that do not normally deal with fragment or anchor identifiers, so that if the URL is copied into another system that does use them, it will not be necessary to change the URL encoding.

RFC 3986 (2005)
Definitivamente los espacios en blanco no son parte de una URL válida. No figuran en la notación regular del Apéndice A, y se sugiere eliminarlos de todo input de usuarios:
http://www.ietf.org/rfc/rfc3986.txt
In practice, URIs are delimited in a variety of ways, but usually within double-quotes
http://example.com/", angle brackets http://example.com/, or just by using whitespace. These wrappers do not form part of the URI.
[...]
In some cases, extra whitespace (spaces, line-breaks, tabs, etc.) may have to be added to break a long URI across lines. The whitespace should be ignored when the URI is extracted.
[...]
For robustness, software that accepts user-typed URI should attempt to recognize and strip both delimiters and embedded whitespace.

Agregar recomendaciones respecto a formatos de archivos geográficos

A partir de algunas consultas y análisis de casos concretos que están surgiendo en los Planes de Apertura de diversas organizaciones que comenzaron a publicar datos geográficos, y ya que la versión 0.1 de nuestras recomendaciones no incorpora este tema, me parece que deberíamos comenzar a discutirlo.

Propongo tratar las siguientes preguntas para empezar a debatir el tema:
¿Qué formatos de archivo son los más utilizados para publicar datos geográficos? ¿Cuáles son sus ventajas y desventajas? ¿Cuál es el más recomendable? ¿Podemos establecer una escala, del más recomendado al menos?

Los formatos más difundidos sobre los que debatir, entiendo que son:

  • Shapefile.
  • KML.
  • GeoJSON
  • GML (Geography Markup Language)
  • GeoPackage

En mi opinión lo ideal sería llegar a una tabla organizada a partir de los siguientes variables: Formato; Breve descripción; Nivel de apertura; Nivel de recomendación.
Espero sus contribuciones!

Fragmentación de archivos según códigos cartográficos de INDEC en lugar de nombres?

Actualmente los ejemplos que ponemos para nomenclatura de archivos para el caso de datos que se dividen en varias distribuciones separando por provincia (por ejemplo) promueven la creación de archivos nombrados sin ningún estándar:

acceso-informacion-publica-caba.csv
acceso-informacion-publica-jujuy-20130208.csv

Esto puede tener los siguientes problemas:

  • Los nombres de los archivos podrían cambiar, si los criterios del área para estos "nombres cortos" de provincias cambian. No tendríamos una URI muy estable de esta forma.
  • Las distribuciones divididas por provincia no se nombrarían homogéneamente entre distintos datasets, catálogos u organismos del estado (algunos van a poner caba y otros ciudad-de-buenos-aires, buenos-aires o ciudad-autonoma-buenos-aires)
  • Es más difícil programar una rutina desatendida sobre un nombre desestandarizado que puede tener varias palabras (ciudad-autonoma-buenos-aires) que sobre alguna convención que tenga una sola palabra (ej.: si usáramos los códigos de INDEC de provincias tendríamos acceso-informacion-publica-02.csv, acceso-informacion-publica-06.csv, acceso-informacion-publica-94.csv, etc)

Posibles soluciones:

  • Recomendar la adopción de los códigos de la cartografía censal de INDEC para estos casos (similar al tratamiento de una entidad interoperable )
acceso-informacion-publica-02.csv
acceso-informacion-publica-06.csv
acceso-informacion-publica-94.csv
  • Definir "nombres cortos" para provincias (y tal vez departamentos?) que se recomienden siempre para nombrar archivos.
acceso-informacion-publica-caba.csv
acceso-informacion-publica-pba.csv
acceso-informacion-publica-tierrafuego.csv  # difícil este caso...

Recomendaciones para la publicación de informes

Como diferenciamos datos de informes? que tipo de recomendación deberíamos realizar desde las guías. En caso de que se decida publicarlos en el portal de datos, como los identificamos automáticamente?

Actualizar recomendaciones sobre direcciones y lugares

https://datosgobar.github.io/paquete-apertura-datos/guia-interoperables/#direcciones-y-lugares

  • Agregar aquellos campos individuales que hacen a una dirección completa, caso de que falten.
  • Agregar los ejemplos de los distintos casos de direcciones, cuál es su forma canónica de escribirlos y cuándo corresponde usar cada una.
  • Agregar una referencia al endpoint de georef para normalizar direcciones con un ejemplo de uso del endpoint y un link a la sección relevante de la documentación de la API.

Re-factor de la guía de metadatos

Hoy la guía de metadatos es un poco larga y confusa porque apunta a dos tipos de usuarios muy diferentes:

  • Aquellos que tienen que llenar un formulario de metadatos, generalmente en un Andino u otro tipo de portal de datos: sólo quieren entender qué deben poner en cada campo.
  • Aquellos que quieren hacer una implementación propia del perfil de metadatos o consumir un data.json: quieren entender qué se debe poner en cada campo y cómo este se traduce o aparece en el data.json.

Hay que pensar un re-factor de la guía de metadatos para servir mejor a los dos tipos de público, lo que podría incluir una separación de la guía en dos.

Además debería referenciar mejor a las herramientas disponibles para producir y validar catálogos.

Cuál es la mejor manera de incorporar documentación metodológica a un dataset

Aparte de la caracterización de un dataset usando los campos de metadatos existentes, muchas veces existe el caso en el que 1 o más documentos metodológicos son necesarios.

A veces se puede acceder a estos mediante la "Página de referencia" (landingPage) pero muchas veces no, especialmente si se usa como página de referencia a la de un portal de datos como CKAN (no es la página donde originalmente fue publicado el dataset.

Formas posibles de tratar el tema:

Documentos metodológicos linkeados en la metadata

  • Agregar un campo al perfil de metadatos para linkear a una o más URLs con documentos metodológicos.
  • Si se permite poner varias URLs, el campo debería contener objetos {} con la posibilidad de (al menos) poner un Título y una URL.

Documentos metodológicos como distribuciones del dataset

  • Recomendar el agregado de documentos metodológicos al dataset como nuevas distribuciones
  • Se debería poder marcar claramente qué distribución es un documento y cuál tiene datos? Es suficiente con ver el formato de la distribución para que el usuario entienda cuándo se enfrenta a datos y cuándo a un documento?

Incorporar una recomendación para valores que son _listas_

Contexto

Actualmente recomendamos la separación de campos en uno "primario" y uno "secundario" cuando hay hasta 2 valores en una misma columna, que refieren al mismo tipo de entidad.

Hay columnas que incluyen más de 2 valores, en cuyo caso esta recomendación deja de ser práctica y requiere recomendar alguna forma de generar listas.

Propuesta

Investigar 2 o 3 alternativas (con sus pros y contras) para generar valores que son listas.

Mejorar la descripción de los temas globales en la taxonomía temática global

Después de revisarlos entre ustedes dos @fpetrone @solpar , @fpetrone por favor fijate de actualizarlos en las guías y en los ejemplos de data.json de este repo.

Después porfa hay que revisar que se cambie en los siguientes lugares, preguntando a sus responsables:

  • Ver con @capitantoto para actualizar en pydatajson
  • Ver con @iheredia todos aquellos lugares en datos.gob.ar y Andino donde haya que actualizar también

Gracias!!

Pensar recomendaciones para crear y usar ID's

  • proponer sistemas (casos de uso, pros, contras)
  • caracteres especiales permitidos

En la guía nos parece mejor ubicar el tema antes de hablar de cada tipo de entidad interoperable.

Corregir enlaces de: catálogo, dataset, distribución, campo, tema. Para los títulos "Portal Andino" y "campos del perfil".

Corregir enlaces de: catálogo, dataset, distribución, campo, tema. Para los títulos "Portal Andino" y "campos del perfil".

Los enlaces redirigen todos a los items de "Portal Andino". Esto sucede debido a la imposibilidad de modificar los tags href generados de manera automática por el procedimiento "make docs".

Se propone diferenciar el nombre asignado a esos enlaces para cada uno de los dos apartados, o encontrar la manera de hacerlo mediante "make docs".

Revisión completa de las guías en `docs` y cómo quedan cuando se compilan para RTD

  • Chequear que el formato en markdown de cursivas, negrillas, etc coincida bien con el de las guías en PDF
  • Chequear que las listas en markdown queden con la misma jerarquía y separación entre elementos que en las guías en PDF
  • Chequear que los anchos de las columnas de las tablas permitan leer bien los nombres de los campos y tengan sentido de proporción respecto del contenido de las columnas
  • Agregar las imágenes que falten en el markdown, dentro de la carpeta assets.
  • Relevar todos aquellos cambios de formato más complicados (colores, imágenes donde se complica el centrado o tamaño correcto, etc) que requieren consultas con @abenassi o @iheredia para mejorar el formato.

Agregar recomendaciones respecto a formatos de archivos para documentos

Actualmente la guía no contempla recomendaciones respecto a formatos de archivos para documentos. En la experiencia de trabajo con distintas organizaciones nos han realizado consultas relacionadas a este tema. En función de ellas, considero que deberíamos tratar al menos los siguientes formatos:

  • DOC/X.
  • PDF.
  • (X)HTML.
  • ODT.
  • TXT.

Pudiendo resumir el análisis en una tabla con las siguientes variables: Formato; Descripción breve; Principal funcionalidad, ej: edición, colaboración, visualización; Nivel de apertura.

Revisar y corregir "Guía para el uso y la publicación de metadatos" apartado referente a "catalog.csv"

Revisar y corregir "guía de uso y publicación de metadatos", específicamente el siguiente apartado:

El data.json de quienes usen el portal Andino contará con los metadatos correspondientes a los datasets y distribuciones.

Los metadatos a nivel de catálogo deberán ser completados en una planilla de cálculo y publicados en formato CSV en el directorio raíz del portal, quedando disponibles para su descarga en una URL como http://datos.[entidad].gob.ar/catalog.csv.

El resto de los metadatos generados al cargar o actualizar un dataset o una distribución en el portal, se generan a través de los formularios completados y se publican automáticamente en http://datos.[entidad].gob.ar/data.json.

Mejorar las recomendaciones para fragmentar archivos grandes

La redacción de la sección http://paquete-apertura-datos.readthedocs.io/es/stable/guia_abiertos.html#fragmentacion-de-archivos puede mejorarse / actualizarse siguiendo los criterios de fragmentación de archivos que fueron madurando en la discusión con los organismos publicadores:

  • Clarificar criterios "umbral" que sugieren que es deseable la fragmentación de archivos (añadir uno basado en el peso en MB del archivo)
  • Clarificar pros y contras de los 3 criterios de fragmentación, y sugerir una priorización / conveniencia a priori en la selección de cuál usar
  • Agregar ejemplos

Recomendaciones para el uso de abreviaturas

En versión 0.1, nuestra recomendación general sigue la línea de "mejor explícito que implícito" y es más bien aversa al uso profuso de abreviaturas.

Nos parece que los nombres de los campos más largos pero muy declarativos son mejores que los más cortos pero confusos, o ilegibles sin leer una descripción adicional por fuera del recurso tabular.

Sin embargo existen casos genuinos donde abreviar puede ser necesario, por ejemplo:

  • Software o aplicaciones que no permiten más de X caracteres para el nombre de los campos (Carto, shp: admiten hasta 10 caracteres)
  • Algoritmos o rutinas que procesan varios campos a la vez y el uso de nombres largos es contraproducente o incluso afecta la legibilidad del algoritmo

Estaría bueno que tratemos de encontrar/discutir criterios generales o listas curadas de abreviaturas de uso muy difundido a las que podamos remitirnos para abreviar las mismas entidades, siempre de la misma manera. Esto reduciría las desventajas del uso de abreviaturas bastante.

Aclaración a la propiedad "accessURL"

Para la clase "Distribución", propiedad "URL de acceso" (accessURL) deberíamos agregar a la descripción un texto similar al siguiente: "De no existir un valor apropiado en los términos descriptos, deberá completarse este valor con el mismo que "URL de descarga" (downloadURL)".

Debería además considerarse cambiar la condición requerido de "Sí" a "Recomendado" o "No".

Spike: opciones para la documentación de "paneles"

Contexto

Queremos poder especificar que una tabla publicada en CSV sigue el formato de "panel", con el objetivo inmediato de leerlo y transformarlo a series de tiempo.

Propuesta

Generar un documento con campos de metadatos adicionales y/o nuevos casos comprendidos en los 2 campos previstos para extensiones especiales que permita documentar paneles.

Colaboración guías GCBA

Hola,

Les pasamos los puntos que agregamos en las guías de GCBA para que analicen si son pertinentes para incorporarlas en las de Nación.

  1. Guía para la publicación de datos en formatos abiertos
  • Agregamos algunos tipos de formato: kml, geojson, geopackage.

  • Sumamos estándares "sectoriales": WKT, GTFS, OC.

  • Incluimos la sugerencia de incluir para datos geográficos dos archivos: un CSV con WKT y datos en formato propiamente geo (Geojson, shp).

  • Agregamos referencia para entidades de gobierno (muy parcialmente desarrollada hasta tener devolución de SECLyT), las siglas las define un x organismo (SECLyT en GCBA).

  • Incluimos una aclaración de cómo levantar un archivo CSV desde un excel para facilitar la accesibilidad.

  • En los rangos horarios, hay un error de tipeo: donde va "Jueves de 8 a 12 hs y de 16 a 20 hs -> "JUE__08:12-17:00_16:00-20:00"" debería ir "Jueves de 8 a 12 hs y de 16 a 20 hs -> "JUE__08:00-12:00_16:00-20:00"".

  1. Guía para la identificación y uso de entidades interoperables
  • Aclaramos que los nomencladores de INDEC son dinámicos y pueden cambiar, que los citados refieren al Censo 2010.

  • Desarrollamos las particularidades de CABA que ustedes mencionan, escribimos la interoperabilidad dentro de CABA, en la guía de Nación menciona que es una particularidad y los motivos. Si quieren, podemos pasarles un párrafo con la interoperabilidad de CABA o pueden referenciar directamente a la guía de GCBA.

  1. Guía para el uso y la publicación de metadatos
  • Agregamos Normativa aplicable a la Protección y Clasificación según Normativa como campos de la metadata de distribución.

La guía de metadatos es la con la que más estamos trabajando ahora ya que no agregamos tantos cambios. Cuando haya nuevos, abrimos otro issue.

Muchas gracias!! Cualquier duda avisen.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.