网络爬虫（4）–正则表达式

2023年4月13日下午8:55 • 爬虫

正则表达式在文本匹配中使用广泛。网络爬虫中往往涉及对页面某些信息的提取，正则表达式能够极大的简化我们对信息的筛选过程。

对正则表达式的学习可以参考http://www.runoob.com/python/python-reg-expressions.html

我们以对一个邮箱的正则匹配为例，介绍正则表达式的应用。

一个邮箱地址可以分解成以下几种规则：

邮箱地址的第一部分至少包括一种内容：大写字母，小写字母，数字0-9，点号（.)，加号（+)或者下划线（_)，对应的正则表达式为[A-Za-z0-9\._+]+
之后，包含一个@符号，在@之后，邮箱地址至少包含一个大写或小写字母，对应正则式为[A-Za-z]+，然后包含一个点号，最后邮箱地址以com、org、edu、net等域名结尾，(com|org|edu|net)
将这几条规则汇总，可以得到匹配邮箱的正则表达式为：

[A-Za-z0-9\._+]+@[A-Za-z]+\.(com|org|edu|net)

利用这一表达式我们就可以很方便的解析出网页中的邮箱地址而不需要写很多的字符判断。

正则表达式不仅可以独立使用，还可以用在BeautifulSoup中，事实上，大多数支持字符串参数的函数都可以使用正则表达式实现。

如在BeautifulSoup的find函数中，find("img",{“src”:re.compile("xxx")}可以用来查找符合规则的图像。

来自为知笔记(Wiz)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：网络爬虫（4）–正则表达式 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

网络爬虫（3）–Beautiful页面解析

上一篇 2023年4月13日

Python3爬虫(2)_利用urllib.urlopen发送数据获得反馈信息

下一篇 2023年4月13日

ruby之selenium自动化 or ruby爬虫利器-selenium

selenium是什么？自动化测试工具，他支持各种浏览器，chrome，firefox等，我们可以在这些浏览器里面安装插件，可以方便的进行web测试，也可以通过代码操作，直接对web界面进行测试。 selenium支持多种语言开发java、python、ruby、c#、js、php等。这边，我用的是ruby+selenium，通过简单的描述，对selen…

爬虫 2023年4月11日
000
爬虫之路: 字体文件反爬二(动态字体文件)

上一篇解决了但页面的字体反爬, 这篇记录下如何解决动态字体文件, 编码不同, 文字顺序不同的情况源码在最后打开一个页面, 发现字体文件地址是动态的, 这个倒是好说, 写个正则, 就可以动态匹配出来先下载下来一个新页面的字体文件, 做一下对比, 如图 mmp, 发现编码, 字体顺序那那都不一样, 这可就过分了, 心里一万个xxx在奔腾头脑风暴ing…

爬虫 2023年4月13日
000
详解Python爬虫爬取博客园问题列表所有的问题

详解Python爬虫爬取博客园问题列表所有的问题 1. 前言在博客园中，我们可以看到很多技术问题的提问和回答。如果你对某项技术有疑问，可以在博客园中搜索相关问题，可能会有很多人已经提出了类似的问题并且得到了解答。但是手动搜索这些问题费时费力，我们可以使用Python爬虫来快速获取这些问题列表。 2. 爬取过程 2.1 requests库发送HTTP请求获取…

python 2023年5月14日
000
爬虫那些事儿–站点压力控制相关

经过前面的介绍，我们大致了解了站点压力控制对于爬虫的重要性。但是站点压力控制对于爬虫来说，是一个比较Open的话题。即到目前为止也没有一个很准确的压力控制方法。主要的问题由于以下几点：不同站点对于爬虫的压力允许程度不同。即由于站点的规模不同、站点的服务器配置不同等。不同的站点能承受的压力是不同的。同时不同的站点对于爬虫的友好程度不同。有些站点允许爬…

爬虫 2023年4月8日
000
Python网络爬虫笔记（一）：网页抓取方式和LXML示例

（一）三种网页抓取方法 1、正则表达式：模块使用C语言编写，速度快，但是很脆弱，可能网页更新后就不能用了。 2、 Beautiful Soup 模块使用Python编写，速度慢。安装： pip install beautifulsoup4 3、 Lxml 模块使用C语言编写，即快速又健壮，通常应该是最好的选择。（二） Lx…

爬虫 2023年4月16日
000
Python爬取当当、京东、亚马逊图书信息代码实例

Python爬取当当、京东、亚马逊图书信息代码实例在爬虫技术的应用中，Python是非常常见的一种语言，其强大的模块和库支持、语言简洁易学，使其成为了爬虫技术的首选语言之一。本篇文章主要讲解如何使用Python爬取当当、京东、亚马逊图书信息，以下是详细步骤：步骤一：分析页面代码在爬取页面信息之前，我们首先需要对目标页面的结构进行分析。在本例中，我们以当…

python 2023年5月14日
000
网络爬虫有什么应用场景？

网络爬虫是一种自动化程序，可以模拟人类在互联网上的浏览、搜索以及数据采集等行为。网络爬虫可以快速地爬取网络上的各种信息，例如网页、图片、视频、音频等，随着互联网信息的爆炸式增长，网络爬虫的应用场景日益广泛。以下是网络爬虫的几个应用场景：网站抓取示例一：豆瓣电影爬虫以豆瓣电影为例，我们可以写一个Python爬虫程序，抓取所有电影的影片名称、评分、导演、演…

爬虫 2023年4月20日
000
【Python学习之旅】—爬虫数据写入到excel

1 import xlsxwriter 2 3 #创建文件，并创建一个表格 4 workbook=xlsxwriter.Workbook(‘demo.xlsx’) 5 worksheet=workbook.add_worksheet() 6 7 #在指定的位置写入数据 8 worksheet.write(“A1″,”陈果子”) 9 worksheet.wri…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部