scrapy可以独立在python分布式爬虫内使用吗?
来源 :中华考试网 2020-11-27
中我们都知道很多软件里会自带一些工具,大部分使用起来还是比较顺手的,但是总会遇到一些不好用的工具,这时候我们就需要找一些其他的方法替换一下。提到utf-8小伙伴们肯定不陌生,我们在之前的文章中有反复提及。python的字符串默认的的是另一种编码,很多人还是喜欢用utf-8,所以今天小编教大家改变默认的ascii编码方法。
Python默认字符串采用的是ascii编码方式,如下所示:
python -c "import sys; print sys.getdefaultencoding()"
Ascii
可以通过#coding:utf-8 指定页面默认编码为utf-8(ps:但系统默认还是ascii)
字符串的编解码都是以unicode为中间编码,无法直接完成转换,python会自动按其系统默认编码方式解码为unicode,再编码成另一中编码格式
比如:
#coding:utf-8
s = '中文'
print s.decode('gbk')
报错解决:
#!/usr/bin/python
python课程免费试听预约
- 地区:
- 北京
- 天津
- 上海
- 江苏
- 浙江
- 山东
- 江西
- 安徽
- 广东
- 广西
- 海南
- 辽宁
- 吉林
- 黑龙江
- 内蒙古
- 山西
- 福建
- 河南
- 河北
- 湖南
- 湖北
- 四川
- 重庆
- 云南
- 贵州
- 新疆
- 西藏
- 陕西
- 青海
- 宁夏
- 甘肃
- 姓名:
- 手机:
# -*- coding: utf-8 -*-
import sys
# reload(sys)
# sys.setdefaultencoding('utf-8')
s = '中文'
print [s]
print s.encode('gbk')
此时报错为UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128) 猜测虽然指定了当前页面为utf-8,但因为直接encode()转换程序会自动先按照系统默认的编码(此时还是ascii) decode一次成unicode,再从unicode编码为gbk, 因为s编码为utf-8,明显解码出错
有两种解决办法
1 手动解码 print s.decode(‘utf-8’).encode(‘gbk’)
2 改变系统默认编码,即加入这两句在分布式爬虫中构建好了scrapy之后,不着急去使用框架进行爬取。我们先来思考一个问题,scrapy是否可以独立在python分布式爬虫中使用。虽然知识之间是互通的,但是对使用的条件有所限制。我们在使用之前需要明确scrapy框架的使用范围,才不能导致最后运行结果时的出错。下面我们就scrapy在python分布式爬虫的使用范围进行讨论。
1.scrapy框架是否可以自己实现分布式?
不可以。原因有二。
其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器)
其二:多台机器爬取到的数据无法通过同一个管道对数据进行统一的数据持久出存储。(多台机器无法共享同一个管道)
2.基于scrapy-redis组件的分布式爬虫
scrapy-redis组件中为我们封装好了可以被多台机器共享的调度器和管道,我们可以直接使用并实现分布式数据爬取。
实现方式:
基于该组件的RedisSpider类
基于该组件的RedisCrawlSpider类
3.分布式实现流程:上述两种不同方式的分布式实现流程是统一的
3.1 下载scrapy-redis组件:
pip install scrapy-redis
3.2 redis配置文件的配置:
注释该行:bind 127.0.0.1,表示可以让其他ip访问redis
将yes该为no:protected-mode no,表示可以让其他ip操作redis
3.3 修改爬虫文件中的相关代码:
将爬虫类的父类修改成基于RedisSpider或者RedisCrawlSpider。注意:如果原始爬虫文件是基于 Spider的,则应该将父类修改成RedisSpider,如果原始爬虫文件是基于CrawlSpider的,则应该将其父类修改成RedisCrawlSpider。
注释或者删除start_urls列表,切加入redis_key属性,属性值为scrpy-redis组件中调度器队列的名称
3.4 在配置文件中进行相关配置,开启使用scrapy-redis组件中封装好的管道
看完本篇文章我们知道,因为两点的限制,scrapy框架是不能在python分布式爬虫独立运用的,
reload(sys)
sys.setdefaultencoding('utf-8')
相信看完本篇文章后,我们已经学会把默认字符串采用的ascii编码换成utf-8了,相信后者大家使用起来更为顺手。