exata0mente / webscrapingcda Goto Github PK
View Code? Open in Web Editor NEWAlgoritmo para Extração e Transformação de dados de obras de artes.
Algoritmo para Extração e Transformação de dados de obras de artes.
Motivo da issue: Fazemos a validação das colunas do data.frame através de um arquivo Cabecalhos.RDS que é atualizado automaticamente cada vez que uma obra é convertida em data.frame. Este processo é necessário pois o número de campos de cada obra varia.
Sugestão: Relembrar as aulas do Coursera e montar um cache para manter armazenado esta informação.
Motivo da issue: Ao realizar a conversão de lista para data.frame há colunas que precisam ser seperadas conforme seu conteúdo. Exemplo a coluna Avaliação da Obra que possui 3 informações separadas por "|"
função listaObras2csv
Erro gerado:
Warning message:
In (function (..., deparse.level = 1) :
number of columns of result is not a multiple of vector length (arg 1211)
Arquivo utilizado: Portinari
Motivo da issue: Melhorar a extração dos dados de colunas aglutinadas com a expressão regular.
Sugestão: Dar uma olhada no pacote stringr e ler mais sobre expressões regulares.
Todas as etapas de limpeza de campos de texto
Motivo da issue: Uma das informações mais importantes não está separada exatamente em um campo. Ela aparece no campo de descrição sem ordem específica: Ou no começo do texto, ou no meio ou no fim. Há situações em que nem aparece.
Sugestão: Acredito que seja necessário "limpar" este campo várias vezes.
Motivo da issue: Devido a problemas com o uso de vínculos do excel com arquivos CSV, o professor solicitou alteração do arquivo de saída para XLSX.
Sugestão: Ver biblioteca xlsx
Motivo da issue: Esta mudança é necessária para que a integração dos dados realizada em EXCEL (VAMOS MUDAR ISSO!!!!!!!).
Sugestão: Ver funções de string
Motivo da issue: Está saindo valores de vendas para obras que possuem status de não vendida. Não faz sentido
Motivo da issue: Quando o conjunto de obras de um artista é grande acaba ocorrendo um time-out do login fazendo com que os dados venham com informações como "Somente para Assinantes".
É necessário verificar se este time-out é parametrizável e tratá-lo na etapa de mineração, seja com refresh ou retorno à pagina de login.
Sugestão: Utilizar o driver de simulação de navegador web para acompanhar visualmente.
Motivo da issue: Há funções que foram implementadas no ínicio mas não são utilizadas nas versões atuais. Verificar então a manutenção destas e documentação das devidamente utilizadas
Motivo da issue: Os valores de NA aparecem quando o dado de fato não existe (a informação não aparece) no site. Para manter a formatação da coluna como número, tratar os valores NA para 0.
Sugestão: Este tratamento foi realizado na issue #4 e pode ser usado na mesma forma aqui.
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.