Giter VIP home page Giter VIP logo

lab_spark's Introduction

lab_spark

Лабораторная работа по spark Домашнее задание Сборка витрины на PySpark

Цель: В этом задании предлагается собрать статистику по криминогенной обстановке в разных районах Бостона. В качестве исходных данных используется датасет https://www.kaggle.com/AnalyzeBoston/crimes-in-boston

Цель задания - разработать прогрумму построения витирины. Результат - ссылка на репозиторий с кодом.

Программа должна запускаться через spark-submit. Пути к данным и к результату должны передаваться в качестве аргументов вызова.

Инструкция:

Загрузить данные. Проверить данные на корректность, наличие дубликатов. Очистить. Собрать витрину (агрегат по районам (поле district)) со следующими метриками: crimes_total - общее количество преступлений в этом районе crimes_monthly - медиана числа преступлений в месяц в этом районе frequent_crime_types - три самых частых crime_type за всю историю наблюдений в этом районе, объединенных через запятую с одним пробелом “, ” , расположенных в порядке убывания частоты crime_type - первая часть NAME из таблицы offense_codes, разбитого по разделителю “-” (например, если NAME “BURGLARY - COMMERICAL - ATTEMPT”, то crime_type “BURGLARY”) lat - широта координаты района, расчитанная как среднее по всем широтам инцидентов lng - долгота координаты района, расчитанная как среднее по всем долготам инцидентов Сохранить витрину в один файл в формате .parquet в папке path/to/output_folder. Подсказки:

Функция percentile_approx может посчитать медиану. Конкретный месяц идентифицируется не только номером месяца, но и номером года. В справочнике кодов есть дубликаты. Нужно выбрать уникальные коды, взяв любое из названий.

lab_spark's People

Contributors

prokmar avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.