Manipulação de Dados com Spark - PySpark

Objetivo

Este repositório representa um passo adiante na minha jornada de manipulação de dados. Enquanto o projeto anterior focava em usar Python com Pandas para processamento de dados, este projeto explora a capacidade do Spark através da interface PySpark para lidar com grande volume de dados - Big Data. Ambos os projetos usam o mesmo dataset e abordam as mesmas demandas de negócio, tornando-os perfeitos para comparação. Se você está interessado em entender as diferenças, desafios e benefícios de cada ferramenta, recomendo fortemente que acompanhe ambos os projetos em paralelo.

Demandas da Área de Negócio

As demandas deste projeto refletem as do projeto anterior baseado em Python/Pandas. A ideia é replicar as mesmas análises, mas agora com a potência do processamento distribuído do PySpark. Mais informações podem ser vistas no Projeto de Manipulação de Dados com Python

Pacotes e Módulos Utilizados

PySpark: Framework principal utilizado para processamento distribuído de grandes conjuntos de dados.
- SparkSession: Ponto de entrada para funcionalidades do Spark.
- Functions (F): Conjunto de funções para operações e transformações em dataframes.
- Data Types (como FloatType): Para definição e conversão de tipos de dados em colunas de dataframes.
- Window: Para operações de funções de janela em dataframes.

Sobre os Dados

Dataset: Gas Prices in Brazil
Descrição: O conjunto de dados reflete os preços médios semanais dos combustíveis no Brasil de 2004 a 2019.

Estrutura do Projeto

Notebook: manipulacao_dados_pyspark.ipynb
output: Arquivos gerados durante a execução do notebook.
dados: O dataset base do projeto: GasPricesinBrazil_2004-2019.csv

Projeto Paralelo em Python

Se você estiver interessado em comparar as abordagens deste projeto com a versão Python/Pandas, confira o Manipulação de Dados com Python. Este projeto anterior serve como base para este e é uma excelente maneira de entender os contrastes entre as ferramentas e suas aplicações em cenários práticos.

cinthialet / spark-manipulacao-dados Goto Github PK

spark-manipulacao-dados's Introduction

Manipulação de Dados com Spark - PySpark

Objetivo

Demandas da Área de Negócio

Pacotes e Módulos Utilizados

Sobre os Dados

Estrutura do Projeto

Projeto Paralelo em Python

spark-manipulacao-dados's People

Contributors

Stargazers

Watchers

Forkers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent