Giter VIP home page Giter VIP logo

7506-od2's People

Contributors

crossnox avatar fdelmazo avatar florencia-97 avatar nachoraik avatar ndvazquez avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar

7506-od2's Issues

Wiki

Quizas serviria hacer una wiki de instalacion de entorno, algo de teoria y algunos tips de resolucion de problemas

2018C1_1

Nintendo of America (EEUU) tiene información de ventas de videojuegos físicas mensuales totalizadas en EEUU las cuales se realizan en cadenas de tiendas de videojuegos en el siguiente RDD: (id_videojuego, id_tienda, mes, anio, total_ventas_mensuales).

Por otro lado tenemos un RDD con información de las tiendas y de su ubicación (id_tienda, direccion, latitud, longitud, codigo_postal, estado).
Con esta información escribir un programa en pySpark para obtener la tienda que realizó menor cantidad de ventas en el estado de “Georgia” en todo el año 2017. (***) (15 pts)

2017C2_2

  1. A partir de la plataforma online (e-shop) de los países en los que opera, Nintendo tiene información de ventas de videojuegos diarias digitales por país en el siguiente RDD: (id_videojuego, codigo_pais,
    fecha, visitas_diarias, total_ventas_diarias). Por otro lado se tienen otro RDD que tiene información de todos los videojuegos que se venden en su plataforma con el siguiente formato (id_videojuego, titulo, rating_pegi, rating_esbr). Tener en cuenta que un mismo videojuego se puede vender en distintos
    países y esos nos permitirá obtener métricas a nivel global. Con esta información escribir un programa en pySpark que permita: a) Obtener el videojuego con más ventas digitales globales (es decir en
    todos los países) en un RDD con el siguiente formato: (id_videojuego, titulo, total), siendo total la cantidad total de ventas digitales globales b) Para el videojuego con mas ventas, obtener cual es el país para el cual ser registra una mayor tasa de conversión (es decir, mayor total_ventas_diarias / visitas_diarias) (**) (15 pts)

2014C1_3

Se tiene una colección de textos almacenados en un cluster. Se quiere construir un índice invertido para la colección completa. Programar usando Map-Reduce la construcción del índice usando el esquema Tf-IDF

2014C1_1

Se tiene un archivo con información sobre visitas a páginas web de la forma: (URL, visitas, fecha). Existe solo un registro por día para cada URL. Se quiere generar un archivo que, por
cada URL, indique cuál fue la fecha en la que tuvo mas visitas y la cantidad de visitas.

Pandas

Agregar resueltos de Pandas

Pandas - 2018C2_1

https://piazza.com/class_profile/get_resource/jkr2voxi1yw4wt/jnj49wdk7mfw9

  1. (***) Dada la exitosa convocatoria de los Juegos Olímpicos de la Juventud por parte del público, sus organizadores realizan distintos análisis para planificar las jornadas finales del certamen
    [...]
    Se desea obtener:
    a) Nombre de la sede que acumuló la mayor cantidad de espectadores en eventos durante el certamen del 14 al 15 de octubre inclusive. Esto es de vital importancia para distribuir el merchandising oficial del evento, para las fechas finales. (7 pts)
    b) Nombre del evento y nombre de la categoría deportiva de aquellos eventos cuya cantidad de espectadores superó la capacidad de la locación, más allá de la capacidad extendida. Esto es de vital importancia para detectar problemas de seguridad o si es necesario realizar algún cambio de locación. (8 pts)

2014C1_2

Se tiene un archivo distribuido con información de una red social en la cual cada registro tiene
información sobre un usuario y una lista de sus amigos y sus enemigos (user_id, vector_ids_amigos,vector_ids_enemigos). Queremos encontrar al usuario que figura en mas listas de enemigos, para designarlo el enemigo público número uno

Proteger master

La branch master no está protegida, en este momento un colaborador hace un PR y lo automergea sin review previo.

2017C2_1

  1. Se cuenta con un RDD con información sobre patentamientos de autos con la siguiente información (patente, marca, modelo, versión, tipo_vehiculo, provincia, fecha), donde tipo_vehiculo indica si la unidad patentada es auto, pickup, camión o moto. Se pide generar un programa en pySpark que indique la marca y modelo del auto más patentado por tipo de vehículo en la provincia de Buenos Aires en el mes de Abril de 2017. (***) (15 pts)

Ejercicios de spark (el segundo es de pandas pero se puede hacer en spark) 1c-2018

Nintendo of America (EEUU) tiene información de ventas de videojuegos físicas mensuales totalizadas en EEUU las cuales se realizan en cadenas de tiendas de videojuegos en el siguiente RDD: (id_videojuego, id_tienda, mes, anio, total_ventas_mensuales).
Por otro lado tenemos un RDD con información de las tiendas y de su ubicación (id_tienda, direccon, latitud, longitud, codigo_postal, estado).
Con esta información escribir un programa en pySpark para obtener la tienda que realizó menor cantidad de ventas en el estado de "Georgia" en todo el año 2017.

El GCPD (Gotham City Police Dept) recolecta la información de casos policiales que acontecen en Ciudad Gótica. Esta información se encuentra guardada en un dataframe con el siguiente formato: (fecha, id_caso, descripcion, estado_caso, categoría, latitud, longitud).
Los posibes estados que puede tener un caso son 1: caso abierto, 2: caso resuelto, 3: cerrado sin resolución. Las fechas se encuentran en el formato YYYY-MM-DD.
Por otro lado el comisionado Gordon guarda un registro detallado sobre en cuáles fue activada la batiseñal para perid ayuda del vigilante, Batman. Esta información se encuentra en un Dataframe con el siguiente formato (id_caso, respuesta), siendo campo respuesta si la señal tuvo respuesta positiva (1) o negativa (0) de parte de él.
El sector encargado de las estadísticas oficiales del GCPD quiere con esta información analizar las siguientes situaciones:
Tasa de resolución de casos de la fuerza policial por categoría de caso (considerando aquellos casos en los que no participó Batman). Esto abarca tanto los casos en los que no se activó la batiseñal como en los que se activó pero hubo respuesta negativa
Tasa de resolución de casos con la ayuda de Batman (considerando que aquellos casos en los que fue llamado con la batiseñal, participó en la resolución). Cambia la definición de que se considera como participación pero bueno, las consignas son consignas
Indicar el mes del año pasado en el que Batman tuvo mayor participación en la investigación de los casos. Aca mantuve la segunda definición de participación

Perdón por la letra.
meme1
meme2

Configurar Travis

Revisar si se puede o bien "ejecutar" notebooks o extraer el codigo y ejecutarlo en un pipeline de travis

Spark - 2018C2_1

https://piazza.com/class_profile/get_resource/jkr2voxi1yw4wt/jnj49wdk7mfw9

  1. (***) Tenemos información sobre recetas en 3 RDD de Spark.
    Recetas: (id_receta, nombre, tiempo_preparación, dificultad)
    Ingredientes: (id_ingrediente, nombre)
    Ingredientes por Receta: (id_receta, id_ingrediente, cantidad)
    Se pide:
    a) Obtener el nombre de todas las recetas que tengan Cordero. (7 puntos)
    b) Calcular la cantidad total de cada ingrediente si queremos hacer todas las recetas con Cordero que sean fáciles. (8 puntos)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.