Giter VIP home page Giter VIP logo

apura's People

Contributors

dependabot[bot] avatar douglasars avatar fiuzatayna avatar omadson avatar samyamaria avatar

Stargazers

 avatar

Watchers

 avatar  avatar

apura's Issues

Preparação dos dados

Esta etapa é necessária para efetuar a preparação dos conjuntos de dados que serão utilizados na etapa de modelagem. É uma das etapas mais importantes, pois ela afeta diretamente a possibilidade de bons resultados na etapa de modelagem.

Vocês deverão efetuar as tarefas seguintes (se acharem necessárias):

  • Selecionar os dados: determinar quais conjuntos de dados serão utilizados e documentar os motivos de inclusão/exclusão.
  • Limpar dados: Corrigir, imputar ou remover valores erroneamente inseridos nos conjuntos de dados.
  • Construir dados: derivar novos atributos que serão úteis. Por exemplo, derivar o IMC de alguém a partir da altura e peso.
  • Integrar dados: criar novos conjuntos de dados combinando dados de várias fontes.
  • Formatar dados: Formatar novamente os dados conforme as necessidades dos modelos.

Criem um notebook com o nome 02-data-preparation.ipynb (dentro da pasta de notebooks/) e documentem o máximo necessário para que pessoas que não estão participando do processo todo também consigam entender.

Entendimento de dados

A etapa de entendimento dos dados direciona o foco para identificar, coletar e analisar os conjuntos de dados que podem ajudá-lo a cumprir os objetivos do projeto. Esta fase também possui quatro tarefas:

  • Coletar os dados iniciais: adquirir os dados necessários e (se necessário) carregá-los em ferramentas de análise.
  • Descrever os dados: examinar os dados e documentar suas propriedades superficiais, como formato de dados, número de registros ou identidades de variáveis.
  • Explorar os dados: realizar uma análise mais aprofundada nos dados. Consultar, visualizar e identificar relações entre dados e variáveis.
  • Verificar a qualidade dos dados: realizar análises a respeito da qualidade dos dados: o quão limpos são? Também é necessário documentar qualquer tipo de problema de qualidade dos dados.

Essa entrega será feita utilizando um notebook com o nome 01 - Exploratory Data Analysis.ipynb, dentro do diretório notebooks/. Tal notebook conterá a descrição dos dados, bem como a Exploração dos mesmos, através da utilização de gráficos e estatísticas descritivas sobre os dados. Além disso, uma análise de qualidade será necessária.

Entendimento de negócio

A etapa de entendimento de negócio se destina a compreensão dos objetivos e requisitos do projeto. Nessa fase vocês precisam executar as seguintes tarefas:

  • Determinar os objetivos de negócio: nessa etapa a equipe deve "entender completamente, de uma perspectiva de negócios, o que o cliente realmente deseja realizar" e, em seguida, definir os critérios de sucesso do negócio.
  • Avaliar a situação: após definir quais os critérios de sucesso, deve-se determinar a disponibilidade de recursos, os requisitos do projeto, avaliar os riscos e contingências e conduzir uma análise de custo-benefício.
  • Determinar as metas de mineração de dados: além de definir os objetivos de negócios, a equipe também deve definir o que é sucesso de uma perspectiva técnica de mineração de dados.
  • Produzir o plano do projeto: selecionar tecnologias e ferramentas e definir planos detalhados para cada fase do projeto.

Vocês precisam documentar cada uma dessas coisas. Por hora, coloquem em documentos separados. Mais tarde iremos colocar tudo na documentação.

Raspagem de Dados / Web Scraping

Notícias Falsas

  • Boatos: entender, programar e realizar web scraping da página de verificação de notícias falsas Boatos.org
  • G1 Fato ou Fake: entender, programar e realizar web scraping da seção de verificação de notícias do G1, a G1 Fato ou Fake
  • Agência Lupa: entender, programar e realizar web scraping do site da Agência Lupa

Notícias Verdadeiras

  • A
  • B

Ainda buscando quais portais de notícias verdadeiras usar.

Aplicação do modelo

  • Construção do site: utilizando o streamlit, disponibilizado via heroku
  • Integração dos códigos: do modelo ao site
  • Relatório final: redação e revisão do relatório de todas as atividades
  • Apresentação: confecção da apresentação

20min, 2 apresentadores + 10 min de perguntas

Análise Comparativa de Dados

Seguindo a rubrica, esses são as áreas e critérios mínimos de sucesso:

  • Validação Cruzada: estabelecer método e programar etapa de validação cruzada dos modelos
  • Modelos: escolher modelos de tipos diferentes para aplicar
  • Métricas: definir duas ou mais métricas de avaliação dos modelos
  • Documentação: comentar e organizar código para facilitar a replicabilidade
  • Resumo: sumarizar os dados em tabelas e/ou gráficos explicativos e diagramas.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.