增量式爬虫

增量式爬虫就是检测网站数据更新情况,只会爬取网站最新更新出来的数据

增量式爬虫最主要的操作就是检测要发起请求的url之前有没有请求过

  • 把请求过的url存储到redis中

# 只需要在解析出详情页url后往redis里面存一下数据,就可以检测出是否发过请求
ex = self.conn.sadd('url',detail_url)
if ex == 1:
	print("该url没有被爬取过")
	yield scrapy.Request(url=detail_url, callback=self.parst)
else:
	print('该url被爬取过')

最后更新于