Giter VIP home page Giter VIP logo

webscrapingcda's People

Contributors

exata0mente avatar

Watchers

 avatar

webscrapingcda's Issues

Obtenção de último cabeçalho via cache

Descrição

Motivo da issue: Fazemos a validação das colunas do data.frame através de um arquivo Cabecalhos.RDS que é atualizado automaticamente cada vez que uma obra é convertida em data.frame. Este processo é necessário pois o número de campos de cada obra varia.
Sugestão: Relembrar as aulas do Coursera e montar um cache para manter armazenado esta informação.

Validação da quantidade de colunas ao tratar colunas aglutinadas

Descrição

Motivo da issue: Ao realizar a conversão de lista para data.frame há colunas que precisam ser seperadas conforme seu conteúdo. Exemplo a coluna Avaliação da Obra que possui 3 informações separadas por "|"

Influência direta em ...

função listaObras2csv

Observações em Geral

Erro gerado:
Warning message:
In (function (..., deparse.level = 1) :
number of columns of result is not a multiple of vector length (arg 1211)

Arquivo utilizado: Portinari

Melhoria na Expressão Regular

Descrição

Motivo da issue: Melhorar a extração dos dados de colunas aglutinadas com a expressão regular.
Sugestão: Dar uma olhada no pacote stringr e ler mais sobre expressões regulares.

Influência direta em ...

Todas as etapas de limpeza de campos de texto

Extração do Lance Inicial do campo "Descrição"

Descrição

Motivo da issue: Uma das informações mais importantes não está separada exatamente em um campo. Ela aparece no campo de descrição sem ordem específica: Ou no começo do texto, ou no meio ou no fim. Há situações em que nem aparece.
Sugestão: Acredito que seja necessário "limpar" este campo várias vezes.

Criar etapas de validação de login

Descrição

Motivo da issue: Quando o conjunto de obras de um artista é grande acaba ocorrendo um time-out do login fazendo com que os dados venham com informações como "Somente para Assinantes".
É necessário verificar se este time-out é parametrizável e tratá-lo na etapa de mineração, seja com refresh ou retorno à pagina de login.

Sugestão: Utilizar o driver de simulação de navegador web para acompanhar visualmente.

Organizar funções

Descrição

Motivo da issue: Há funções que foram implementadas no ínicio mas não são utilizadas nas versões atuais. Verificar então a manutenção destas e documentação das devidamente utilizadas

Tratamento dos NA nos campos de valores

Descrição

Motivo da issue: Os valores de NA aparecem quando o dado de fato não existe (a informação não aparece) no site. Para manter a formatação da coluna como número, tratar os valores NA para 0.
Sugestão: Este tratamento foi realizado na issue #4 e pode ser usado na mesma forma aqui.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.