python

导航

python爬虫和测试的区别

来源 :中华考试网 2020-12-29

  爬虫的基本流程

  发起请求

  通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应

  获取响应内容

  如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,二进制数据(图片或者视频)等类型

  解析内容

  得到的内容可能是HTML,可以用正则表达式,页面解析库进行解析,可能是Json,可以直接转换为Json对象解析,可能是二进制数据,可以做保存或者进一步的处理

  保存数据

  保存形式多样,可以存为文本,也可以保存到数据库,或者保存特定格式的文件

分享到

您可能感兴趣的文章