正则表达式在文本匹配中使用广泛。网络爬虫中往往涉及对页面某些信息的提取,正则表达式能够极大的简化我们对信息的筛选过程。
- 邮箱地址的第一部分至少包括一种内容:大写字母,小写字母,数字0-9,点号(.),加号(+)或者下划线(_),对应的正则表达式为[A-Za-z0-9\._+]+
- 之后,包含一个@符号,在@之后,邮箱地址至少包含一个大写或小写字母,对应正则式为[A-Za-z]+,然后包含一个点号,最后邮箱地址以com、org、edu、net等域名结尾,(com|org|edu|net)
- 将这几条规则汇总,可以得到匹配邮箱的正则表达式为:
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:网络爬虫(4)–正则表达式 - Python技术站