python

导航

python考点:网页爬虫的高层体系结构

来源 :中华考试网 2020-09-16

  网络爬虫(web crawler)的高层体系结构如下:

  一个爬虫不能像上面所说的,仅仅只有一个好的抓取策略,还需要有一个高度优化的结构。

  Shkapenyuk和Suel(Shkapenyuk和Suel,2002)指出:设计一个短时间内,一秒下载几个页面的颇慢的爬虫是一件很容易的事情,而要设计一个使用几周可以下载百万级页面的高性能的爬虫,将会在系统设计,I/O和网络效率,健壮性和易用性方面遇到众多挑战。

  网路爬虫是搜索引擎的核心,他们算法和结构上的细节被当作商业机密。当爬虫的设计发布时,总会有一些为了阻止别人复制工作而缺失的细节。人们也开始关注主要用于阻止主要搜索引擎发布他们的排序算法的“搜索引擎垃圾邮件”。

  2.1 URL一般化

  爬虫通常会执行几种类型的URL规范化来避免重复抓取某些资源。URL一般化也被称为URL标准化,指的是修正URL并且使其前后一致的过程。这里有几种一般化方法,包括转化URL为小写的,去除逗号(如‘.’ ‘..’等),对非空的路径,在末尾加反斜杠。

分享到

相关资讯