cloud56's Introduction

cloud56

学习和使用scrapy框架爬取cloud56网车源数据

这次算是认真的学习了一下爬虫框架，以前爬取数据都是利用nodejs的request、superagent、urllib 或者是使用python的urllib2、requests模块来做一些小爬虫，没尝试过使用框架来做网络爬虫。昨天看了一天的官方文档，也查阅了一些博客资料，终于对scrapy有了一个稍微清晰的认识，于是想着爬取一个网站来练练手。

之前选取了**物通网，但是由于其使用了将手机号加密成图片的方式，尝试使用pytesser库进行图片文字识别，但是会多出一些数字，于是暂时放弃。其他的网站需要模拟用户登录，可能我选的不巧，登录都是经过了好几次跳转。

选择这个网站主要是因为仅仅用到了一个反防盗链的中间件，这样就可以正常爬取子页面的内容。

另外在xpath和css之间徘徊了好久，由于谷歌有个很好用的xpath插件于是果断投入了xpath的怀抱。

Use

安装scrapy不用说
cd cloud56
scrapy crawl cloudspider
等待命令行输出

Todos:

模拟用户登录
防止被ban
redis或者mongo以及postgres接入

Recommend Projects

giserh / cloud56 Goto Github PK

cloud56's Introduction

cloud56

学习和使用scrapy框架爬取cloud56网车源数据

Use

Todos:

cloud56's People

Watchers

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent