python

导航

学习Python爬虫要具备哪些基础?

来源 :中华考试网 2020-09-21

   爬虫本质上讲就是获取网页,解析网页,从这个角度上说,必须具备一定的HTTP基础,最简单的包括get,head,post等,有了基础概念的支撑,你能更好理解爬虫机制

  必备的是python语法基础,并且熟悉python的几个常见的数据结构set list dict

  我们常常倾向于把知识包装得相当复杂,以此显得自己很牛逼。爬虫不复杂。

  你不需要学一堆基础知识之后,再来玩爬虫。

  你不需要任何基础,想学爬虫,那么,直接、立即来玩爬虫。

  能让代码运行起来,能读懂里面每行代码有什么 python 的基础知识点,你就可以对人说,我能玩一点爬虫了。

  当然学无止境。

  但学习爬虫最好的方式就是,直接把爬虫玩起来,然后遇到一个盲区解决一个盲区,遇到一个无法解决的需求就尝试一个新的实现。

  当然学习爬虫也可以从下面一些知识点入手学习。

  1、http相关知识。

  2、浏览器拦截、抓包。

  3、python2 中编码知识,python3 中bytes 和str类型转换。

  4、抓取javascript 动态生成的内容。

  4、模拟post、get,header等

  5、cookie处理,登录。

  6、代理访问。

  7、多线程访问、python 3 asyncio 异步。

  8、正则表达式、xpath等

分享到

相关资讯