python3爬虫初探（三）之正则表达式

2023年4月10日下午11:13 • 爬虫

　　前面已经写了如何获取网页源码，那么接下来就是该解析网页并提取需要的数据了。这里简单写一下正则表达的用法。

　　首先，找个要抓取图片的网站，获取源码。

import requests
import re

# 获取网页源码
url = 'http://www.ivsky.com/tupian/xiaohuangren_t21343/'
data = requests.get(url).text

　　小黄人的图。。。接下来浏览器检查元素，发现图片源码格式,前面均为<img ，结尾均为 .jpg 而我们要提取的就是网址部分。

python3爬虫初探（三）之正则表达式

　　正则表达式如下：

#正则表达式三部曲
#<img src="http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren-009.jpg" width="135" height="135" alt="卑鄙的我小黄人图片">
regex = r'<img src="(.*?.jpg)"'#匹配网址
pa = re.compile(regex)#转为pattern对象
ma = re.findall(pa, data)#findall 方法找到所有的符合pa的对象，添加到一个列表中并返回
print(ma)#图片网址列表
print(len(ma))#列表长度，即找到图片个数

#截取部分列表输出
#['http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren_tupian-007.jpg', 'http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren-009.jpg', 'http://img.ivsky.com/...
#25

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python3爬虫初探（三）之正则表达式 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python3爬虫初探（四）之文件保存

上一篇 2023年4月10日

爬虫再探之mysql简单使用

下一篇 2023年4月10日

【Python爬虫技巧】快速格式化请求头Request Headers

你好，我是 @马哥python说。我们在写爬虫时，经常遇到这种问题，从目标网站把请求头复制下来，粘贴到爬虫代码里，需要一点一点修改格式，因为复制的是字符串string格式，请求头需要用字典dict格式：下面介绍一种简单的方法。首先，把复制到的请求头放到一个字符串里： # 请求头 headers = “”” Accept: text/html,applica…

爬虫 2023年4月12日
000
python爬虫爬取图片的简单代码

下面是关于”python爬虫爬取图片的简单代码”的完整攻略和示例说明：什么是Python爬虫？ Python爬虫是指使用Python编写程序，自动化地从网站抓取数据。Python爬虫是一种非常强大的工具，使用它，可以快速地获取大量的数据。如何使用Python爬虫抓取图片？爬取图片的过程和爬取普通的文本信息的过程大体相似，只是需要使用不同的方法来下载和处…

python 2023年5月14日
000
python爬虫：urlparse模块拆分url

1 from urlparse import urlparse 2 3 parsed = urlparse(‘url地址’) 4 5 print ‘scheme :’+ parsed.scheme #网络协议 6 7 print ‘netloc :’+ parsed.netloc #服务器位置（也可呢能有用户信息） 8 9 print ‘path :’+…

爬虫 2023年4月12日
000
Python网络爬虫(增量式爬虫)

一、增量式爬虫背景：　　当我们在浏览相关网页的时候会发现，某些网站定时会在原有网页数据的基础上更新一批数据，例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等。那么，类似的情景，当我们在爬虫的过程中遇到时，我们是不是需要定时更新程序以便能爬取到网站中最近更新的数据呢？二、增量式爬虫分析与设计概念：通过爬虫…

爬虫 2023年4月12日
000
Python爬虫入门

一. from urllib import requestres=request.urlopen(‘https://www.douban.com’)data = res.read()print(data.decode(‘utf-8’))通过以上代码可以获取到豆瓣网页源码。1.urllib提供的功能就是利用程序去执行各种HTTP请求。如果要模拟浏览器完成特定功…

爬虫 2023年4月13日
000
跟潭州学院的强子老师学习网络爬虫—爬取全书网

真是太白了，python之路还有很长，今天我从这里开始，留作自己备忘。2018-04-05 花了一个下午学习个爬小说的，总的来说是因为自己没什么基础，哪里不会补哪里，磕磕绊绊的，总算是能运行，先把代码放这里，以后请教高手帮助解决一下。 # -*- coding: utf-8 -*- # @Time : 2018/4/5 13:46 # @Author : E…

爬虫 2023年4月11日
000
Redis实现分布式爬虫

redis分布式爬虫概念：多台机器上可以执行同一个爬虫程序,实现网站数据的爬取原生的scrapy是不可以实现分布式爬虫, 原因如下：调度器无法共享管道无法共享 scrapy-redis组件：专门为scrapy开发的一套组件。该组件可以让scrapy实现分布式 pip install scrapy-redis 分布式爬取的流程： 1 redis配置…

爬虫 2023年4月10日
000
爬虫解决网页ip限制的问题的八种方法

方法1. 之前由于公司项目需要，采集过google地图数据，还有一些大型网站数据。经验如下： 1.IP必须需要，像@alswl 说的非常正确，ADSL。如果有条件，其实可以跟机房多申请外网IP。 2.在有外网IP的机器上，部署代理服务器。 3.你的程序，使用轮训替换代理服务器来访问想要采集的网站。好处： 1.程序逻辑变化小，只需要代理功能。 2.根据对方…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部