刚开始学爬虫,拿豆瓣练练手,过程中感觉豆瓣的页面结构还是比较简单的, 刚学爬虫的小伙伴们可以参考一下
爬取豆瓣上250部最佳影片的基本信息,包括片名、影片恻写、导演、评论数量、 年代、主演、评分等
- 头部处理
- Python实现
- 采用经典爬虫框架 scrapy
- 通过 xpath 动态查找下一页
- 开发环境为windows,可能会有不可预测的状况出现
- 调用windows cmdline API来启动爬虫,其他环境请自行调整
- 每次运行会重复往csv文件中输入数据,建议自行删除douban.csv文件后再运行
- 程序入口位于scrapyspider/spiders目录下main.py文件