python

导航

Python爬虫教程之利用正则表达式匹配网页内容

来源 :中华考试网 2020-12-28

  正则表达式是一种描述字符串排列的一种语法规则,通过该规则可以在一个大字符串中匹配出满足规则的子字符串。简单来说,就是给定了一个字符串,在字符串中找到想要的字符串,如一个电话号码,一个IP地址,一个字段,在爬虫过程中,如果灵活使用正则表达式,将极大地提升爬虫效率。

  Python使用正则表达式

  re.match

  1

  2

  3

  4import restr1='123asdfa'mathch1 = re.match("^[0-9]",str1)print(mathch1.group())

  结果

  1

  如果要匹配12,则

  1

  2

  3

  4import restr1='12s3asdfa'mathch1 = re.findall("1[0-9]",str1)print(mathch1)

  结果

  ['12']

  修改[0-9]为[10-19]是无法匹配到的。

  因此,该语句将从头到尾匹配字符,匹配到则结束,需要.group才能获取到匹配到的值。

分享到

您可能感兴趣的文章