一个爬虫程序,开始预期是实现抓取simplecd,yyets的资源链接,数据库可选择导入SQL Server和Oracle,可以使用工具转到Sqlite数据库.
因为从simplecd开始的,所以叫做simplecdspider,起名是个很麻烦的事情。Orz~~~
现在,已经将该程序迭代超过上百个版本,
目前实例站点:
- 文章类:cxzw,
- 图书:ppurl(此站已关),txt99(已停抓)
- 新闻:月光博客(已停抓),cnbeta(不再维护),solidotnews
- 技术:酷客(已停抓)
- 资源:ed2k2000(已停抓),simplecd(已停抓),xverycd(已停抓),yyets(zimuzu)(已停抓)
- 其它站点
等网站。
2016-10-21 update:
- 文章类:cxzw 新增profile
- 新闻: solidotnews 预计 (网易,搜狐,澎湃)
- 其它站点