Python爬虫教程之利用正则表达式匹配网页内容
来源 :中华考试网 2020-12-28
中正则表达式是一种描述字符串排列的一种语法规则,通过该规则可以在一个大字符串中匹配出满足规则的子字符串。简单来说,就是给定了一个字符串,在字符串中找到想要的字符串,如一个电话号码,一个IP地址,一个字段,在爬虫过程中,如果灵活使用正则表达式,将极大地提升爬虫效率。
Python使用正则表达式
re.match
1
2
3
4import restr1='123asdfa'mathch1 = re.match("^[0-9]",str1)print(mathch1.group())
结果
1
如果要匹配12,则
1
2
3
4import restr1='12s3asdfa'mathch1 = re.findall("1[0-9]",str1)print(mathch1)
结果
['12']
修改[0-9]为[10-19]是无法匹配到的。
因此,该语句将从头到尾匹配字符,匹配到则结束,需要.group才能获取到匹配到的值。