python分布式爬虫中的Redis是什么?怎么用?
来源 :中华考试网 2020-11-26
中利用redis做分布式系统,最经典的就是scrapy-Redis,这是比较成熟的框架。同时我们也可以利用Redis的队列功能或者订阅发布功能来打造自己的分布式系统。
Redis作为通信载体的优点是读写迅速,对爬虫的速度影响可忽略不计,使用比较普遍。
主程序示例:
import scrapy
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
from scrapy.dupefilter import RFPDupeFilter
from scrapy.core.scheduler import Scheduler
import redis
from ..items import XiaobaiItem
from scrapy_redis.spiders import RedisSpider
class RenjianSpider(RedisSpider):
name = 'baidu'
python课程免费试听预约
- 地区:
- 北京
- 天津
- 上海
- 江苏
- 浙江
- 山东
- 江西
- 安徽
- 广东
- 广西
- 海南
- 辽宁
- 吉林
- 黑龙江
- 内蒙古
- 山西
- 福建
- 河南
- 河北
- 湖南
- 湖北
- 四川
- 重庆
- 云南
- 贵州
- 新疆
- 西藏
- 陕西
- 青海
- 宁夏
- 甘肃
- 姓名:
- 手机:
allowed_domains = ['baidu.com']
def parse(self, response):
news_list = response.xpath('//*[@id="content-list"]/div[@class="item"]')
for news in news_list:
content = response.xpath('.//div[@class="part1"]/a/text()').extract_first().strip()
url = response.xpath('.//div[@class="part1"]/a/@href').extract_first()
yield XiaobaiItem(url=url,content=content)
yield Request(url='http://dig..com/',callback=self.parse)