- Abertura e análise inicial dos dados;
- Visualização dos dados;
- Tratamento de valores;
- NaiveBayes - Algoritmo
Quando se fala em tecnologia, um termo que está na boca do povo é aprendizado de máquina (machine learning em inglês). Mas o que exatamente é isso? Uma busca simples no Google, retorna uma multitude de artigos, fóruns, documentos, fontes.
Existem inúmeras definições sobre o que é o aprendizado de máquina, mas uma que nos serve bastante por agora é: “A pesquisa em aprendizado de máquina é um campo de estudo dentro da pesquisa em inteligência artificial, que busca fornecer conhecimento aos computadores através de dados, observações e interações com o mundo. Esse conhecimento adquirido permite que computadores generalizem corretamente novos eventos e configurações”.
Sendo assim, o intuito deste post é introduzir você que está lendo, a esse mundo maravilhoso que será nosso futuro. Hoje, você aprenderá como abrir um dado e visualizar as principais informações dele.
A finalidade desde repositório é criar um projeto prático de machine learning, onde abordarei desde o ínicio no tratamento e visualização dos dados, até os principais algoritmos do mercado, como o Naive Bayes, Random Forest, DecisionTree entre outros.
Agora que você está introduzido neste mundo, vamos preparar nosso ambiente com as bibliotecas básicas que usaremos do começo, até o fim do projeto! Para saber um pouco mais sobre cada uma delas basta clickar em cima do seu nome, e você será direcionado para a documentação da mesma.
Usaremos a biblioteca pandas e numpy para o processamento dos dados e cálculos estatísticos. A seaborn, matplotlib e a ploty, usamos na parte da visualização dos dados. Tudo explicado, agora vamos importar as bibliotecas no nosso código:
Neste readme eu trouxe um overview sobre o que é Machine Learning, o que faremos neste projeto e as principais bibliotecas do python que iremos utilizar. De semana a semana estarei atualizando este repositório acrescentando as novas partes, portanto, acompanhem!