增量式爬虫
增量式爬虫就是检测网站数据更新情况,只会爬取网站最新更新出来的数据
增量式爬虫最主要的操作就是检测要发起请求的url之前有没有请求过
把请求过的url存储到redis中
# 只需要在解析出详情页url后往redis里面存一下数据,就可以检测出是否发过请求
ex = self.conn.sadd('url',detail_url)
if ex == 1:
print("该url没有被爬取过")
yield scrapy.Request(url=detail_url, callback=self.parst)
else:
print('该url被爬取过')
最后更新于