Digital Innovation One

Código criado para utilização junto a plataforma da Digital Innovation One

Desafio GCP Dataproc

O desafio faz parte do curso na plataforma da Digital Innovation One:

Criando um ecossistema Hadoop totalmente gerenciado com Google Cloud Platform

O desafio consiste em efetuar um processamento de dados utilizando o produto Dataproc do GCP. Esse processamento irá efetuar a contagem das palavras de um livro e informar quantas vezes cada palavra aparece no mesmo.

Etapas do Desafio

Criar um bucket no Cloud Storage
Atualizar o arquivo contador.py com o nome do Bucket criado nas linhas que contém {SEU_BUCKET}.
Fazer o upload dos arquivos contador.py e livro.txt para o bucket criado (instruções abaixo)
- https://cloud.google.com/storage/docs/uploading-objects
Utilizar o código em um cluster Dataproc, executando um Job do tipo PySpark chamando gs://{SEU_BUCKET}/contador.py
O Job irá gerar uma pasta no bucket chamada resultado. Dentro dessa pasta o arquivo resultado.csv irá conter a lista de palavras e quantas vezes ela é repetida em todo o livro.
Se utilizando do arquivo resultado.csv vamos mostrar esses dados em um formato de graficos utilizando o Looker Studio (anteriormente Google Data Studio)
Acesse o Looker Studio (Google Data Studio).
Crie um novo relatório ou abra um relatório existente.
Clique em "Adicionar dados" e selecione o conector do Google Cloud Storage.
Autentique-se e selecione o arquivo resultado.csv dentro do bucket.
Configure o esquema de dados para garantir que as colunas "Word" e "Count" sejam reconhecidas corretamente.
Adicione visualizações ao relatório para analisar a contagem de palavras, como gráficos de barras, tabelas e outros componentes visuais.

Entrega do Resultado

No lookerstudio gerar um link de compartilhamento publico para que as pessoas possam ver como esse link: https://lookerstudio.google.com/s/kgCc1pM1P1k

Considerações Finais

NOTA: Se o Job mostrar um WARN de Interrupt, basta ignorar. Existe um bug no Hadoop que é conhecido. Isso não impacta no processamento.

Qualquer outra dúvida, informação ou sugestão, fique a vontade para entrar em contato.

[email protected]

gabrielsooliveira / dio-desafio-dataproc Goto Github PK

dio-desafio-dataproc's Introduction

Digital Innovation One

Desafio GCP Dataproc

Etapas do Desafio

Entrega do Resultado

Considerações Finais

dio-desafio-dataproc's People

Contributors

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent