Giter VIP home page Giter VIP logo

spark-manipulacao-dados's Introduction

Manipulação de Dados com Spark - PySpark

Objetivo

Este repositório representa um passo adiante na minha jornada de manipulação de dados. Enquanto o projeto anterior focava em usar Python com Pandas para processamento de dados, este projeto explora a capacidade do Spark através da interface PySpark para lidar com grande volume de dados - Big Data. Ambos os projetos usam o mesmo dataset e abordam as mesmas demandas de negócio, tornando-os perfeitos para comparação. Se você está interessado em entender as diferenças, desafios e benefícios de cada ferramenta, recomendo fortemente que acompanhe ambos os projetos em paralelo.

Demandas da Área de Negócio

As demandas deste projeto refletem as do projeto anterior baseado em Python/Pandas. A ideia é replicar as mesmas análises, mas agora com a potência do processamento distribuído do PySpark. Mais informações podem ser vistas no Projeto de Manipulação de Dados com Python

Pacotes e Módulos Utilizados

  • PySpark: Framework principal utilizado para processamento distribuído de grandes conjuntos de dados.
    • SparkSession: Ponto de entrada para funcionalidades do Spark.
    • Functions (F): Conjunto de funções para operações e transformações em dataframes.
    • Data Types (como FloatType): Para definição e conversão de tipos de dados em colunas de dataframes.
    • Window: Para operações de funções de janela em dataframes.

Sobre os Dados

  • Dataset: Gas Prices in Brazil
  • Descrição: O conjunto de dados reflete os preços médios semanais dos combustíveis no Brasil de 2004 a 2019.

Estrutura do Projeto

  • Notebook: manipulacao_dados_pyspark.ipynb

  • output: Arquivos gerados durante a execução do notebook.

  • dados: O dataset base do projeto: GasPricesinBrazil_2004-2019.csv

Projeto Paralelo em Python

Se você estiver interessado em comparar as abordagens deste projeto com a versão Python/Pandas, confira o Manipulação de Dados com Python. Este projeto anterior serve como base para este e é uma excelente maneira de entender os contrastes entre as ferramentas e suas aplicações em cenários práticos.

spark-manipulacao-dados's People

Contributors

cinthialet avatar

Stargazers

Leonardo Soares avatar Marco Tulio avatar  avatar  avatar Henrique Rodrigues dos Santos avatar Lucas Miranda de Sena avatar Mauro Risonho de Paula Assumpção avatar Marcos Vasconcellos de Andrade avatar Fabricio Almeida da Silva Nunes avatar Leonardo Russo avatar

Watchers

 avatar  avatar

Forkers

wagnerchagas

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.