liuxingming / scrapy_redis_bloomfilter Goto Github PK

基于Redis的Bloomfilter去重，并将其扩展到Scrapy框架。

Python 100.00%

scrapy_redis_bloomfilter's Introduction

##bloomfilterOnRedis.py：## 基于Redis的Bloomfilter去重，已经封装成一个类，只需两行代码即可实现去重。更多介绍见：《基于Redis的Bloomfilter去重（附Python代码）》。

##scrapyWithBloomfilter_demo：## 一个简单的scrapy demo，对scrapy_redis模块作了一些修改，将去重模块替换成了Bloomfilter去重。更多介绍见：《scrapy_redis去重优化（已有7亿条数据），附Demo福利》。

##种子优化：## 在scrapyWithBloomfilter_demo中我对默认的种子作了一些修改，在settings.py中将 SCHEDULER_QUEUE_CLASS 改成 'scrapyWithBloomfilter_demo.scrapy_redis.queue.SpiderSimpleQueue' 即可。详细介绍见：《scrapy_redis种子优化》。

scrapy_redis_bloomfilter's People

Contributors

Stargazers

Watchers

Forkers

qiyeboy andrewwang3 weieast fighter007 giserh wuxinglec king-slayer wuze gantoday-spider tonywangcn jijicanyu mickelfeng qadoor smartdriver001 ginking xiaosimao letitgrow potatoguo carloswang yyyy777 724686158 willame ccyutaotao windzzp freeddser hiekay sophiegithub2015 sibyllalee1688 smilemilk1992 czxbigbrother hanyaya huwei86 niexaccount xiaobona0626 foxundermoon adzon juie vv81p2 icedrunkard linderong khaofugui zichuanhaoyue zuoxiaoxian ok2fly adamxy 2496206029 maxiaoxifeng aegeansea pireerliu bailipeng jixiang-wang mvink123 christings showhilllee mollymmm wangjc888 yanzhaowei zhanmingming ylsn19821104 wuyongdec lewisliang82 readyou bopo zhh722 yuwenlidao factsbenchmarks canvas-j xiangyuwei aladinglamp waitingfy xxz199539 cc-alvin yohee2015 vickzhang yaoaaa zhuyoucai168 mario0729 bluelibra kevinyzy buxiangqing pydoc dawei-gege alpaca-h liuxthu llzhi001 nxdnixiaodong yousongsun hu0097 henrylee123 lucats1993 webbergao1 githubformatt liangyan1120 zzzz123321 abo123456789 1060460048 jhwujialing hyb1234hi daisy-yjx kingking888

scrapy_redis_bloomfilter's Issues

ImportError: Error loading object 'scrapyWithBloomfilter_demo.scrapy_redis.scheduler.Scheduler': No module named dupefilters

dupefilter.py 文件里面from scrapy.dupefilters import BaseDupeFilter 应该改成 from scrapy.dupefilter import BaseDupeFilter

Scrapy_Redis_Bloomfilter支持python3吗

TypeError: zadd() keywords must be strings
有这样的错误

builtins.TypeError: zadd() keywords must be strings

--- ---
File "/usr/local/lib/python3.6/dist-packages/twisted/internet/base.py", line 878, in runUntilCurrent
call.func(*call.args, **call.kw)
File "/usr/local/lib/python3.6/dist-packages/scrapy/utils/reactor.py", line 41, in call
return self._func(*self._a, **self._kw)
File "/usr/local/lib/python3.6/dist-packages/scrapy/core/engine.py", line 135, in _next_request
self.crawl(request, spider)
File "/usr/local/lib/python3.6/dist-packages/scrapy/core/engine.py", line 210, in crawl
self.schedule(request, spider)
File "/usr/local/lib/python3.6/dist-packages/scrapy/core/engine.py", line 216, in schedule
if not self.slot.scheduler.enqueue_request(request):
File "/root/spiders/yunqiCrawl/yunqiCrawl/scrapy_redis/scheduler.py", line 82, in enqueue_request
self.queue.push(request)
File "/root/spiders/yunqiCrawl/yunqiCrawl/scrapy_redis/queue.py", line 84, in push
self.server.zadd(self.key, **pairs)
builtins.TypeError: zadd() keywords must be strings

关于scrapy_redis去重后增量爬取的疑问

比如网站 http://www.xxx.com/list-1 表示第1页，我需要爬取第1页里面特定子 url 的新闻。比如第一天使用 scrapy_redis_bloomfilter 爬取了 http://www.xxx.com/list-1 的新闻，然后第二天由于网站更新了 http://www.xxx.com/list-1 显示子 url 新闻就不一样了。这时候问题就来了，需求是增量爬取子 url 新闻，但是scrapy_redis_bloomfilter 的去重就会导致 http://www.xxx.com/list-1 根本就不再爬取了，这时候就爬不到最新的新闻了，这个问题怎么解决呢？麻烦大神回复下呢

Speed up isContains()

In file 'Scrapy_Redis_Bloomfilter/scrapyWithBloomfilter_demo/scrapyWithBloomfilter_demo/scrapy_redis/BloomfilterOnRedis.py', code lines of 33-42:

def isContains(self, str_input):
    if not str_input:
        return False
    ret = True

    name = self.key + str(int(str_input[0:2], 16) % self.blockNum)
    for f in self.hashfunc:
        loc = f.hash(str_input)
        ret = ret & self.server.getbit(name, loc)
    return ret

When getbit returns 0, it could tell the non-contains. So I think it'd be better to add 2 more code lines like this to speed up this function:

def isContains(self, str_input):
    if not str_input:
        return False
    ret = True

    name = self.key + str(int(str_input[0:2], 16) % self.blockNum)
    for f in self.hashfunc:
        loc = f.hash(str_input)
        ret = ret & self.server.getbit(name, loc)
        if not ret:
            break
    return ret

or might be even better without the '&' operation:

def isContains(self, str_input):
    if not str_input:
        return False
    ret = True

    name = self.key + str(int(str_input[0:2], 16) % self.blockNum)
    for f in self.hashfunc:
        loc = f.hash(str_input)
        ret = self.server.getbit(name, loc)
        if not ret:
            break
    return ret

liuxingming / scrapy_redis_bloomfilter Goto Github PK

scrapy_redis_bloomfilter's Introduction

scrapy_redis_bloomfilter's People

Contributors

Stargazers

Watchers

Forkers

scrapy_redis_bloomfilter's Issues

ImportError: Error loading object 'scrapyWithBloomfilter_demo.scrapy_redis.scheduler.Scheduler': No module named dupefilters

Scrapy_Redis_Bloomfilter支持python3吗

builtins.TypeError: zadd() keywords must be strings

关于scrapy_redis去重后增量爬取的疑问

Speed up isContains()

Recommend Projects

React

Vue.js

Typescript

TensorFlow

Django

Laravel

D3

Recommend Topics

javascript

web

server

Machine learning

Visualization

Game

Recommend Org

Facebook

Microsoft

Google

Alibaba

D3

Tencent