Código criado para utilização junto a plataforma da Digital Innovation One
O desafio faz parte do curso na plataforma da Digital Innovation One:
Criando um ecossistema Hadoop totalmente gerenciado com Google Cloud Platform
O desafio consiste em efetuar um processamento de dados utilizando o produto Dataproc do GCP. Esse processamento irá efetuar a contagem das palavras de um livro e informar quantas vezes cada palavra aparece no mesmo.
-
Criar um bucket no Cloud Storage
-
Atualizar o arquivo
contador.py
com o nome do Bucket criado nas linhas que contém{SEU_BUCKET}
. -
Fazer o upload dos arquivos
contador.py
elivro.txt
para o bucket criado (instruções abaixo) -
Utilizar o código em um cluster Dataproc, executando um Job do tipo PySpark chamando
gs://{SEU_BUCKET}/contador.py
-
O Job irá gerar uma pasta no bucket chamada
resultado
. Dentro dessa pasta o arquivoresultado.csv
irá conter a lista de palavras e quantas vezes ela é repetida em todo o livro. -
Se utilizando do arquivo
resultado.csv
vamos mostrar esses dados em um formato de graficos utilizando o Looker Studio (anteriormente Google Data Studio) -
Acesse o Looker Studio (Google Data Studio).
-
Crie um novo relatório ou abra um relatório existente.
-
Clique em "Adicionar dados" e selecione o conector do Google Cloud Storage.
-
Autentique-se e selecione o arquivo
resultado.csv
dentro do bucket. -
Configure o esquema de dados para garantir que as colunas "Word" e "Count" sejam reconhecidas corretamente.
-
Adicione visualizações ao relatório para analisar a contagem de palavras, como gráficos de barras, tabelas e outros componentes visuais.
No lookerstudio gerar um link de compartilhamento publico para que as pessoas possam ver como esse link: https://lookerstudio.google.com/s/kgCc1pM1P1k
NOTA: Se o Job mostrar um WARN de Interrupt, basta ignorar. Existe um bug no Hadoop que é conhecido. Isso não impacta no processamento.
Qualquer outra dúvida, informação ou sugestão, fique a vontade para entrar em contato.