python3爬虫初探（三）之正则表达式

2023年4月10日下午11:13 • 爬虫

yizhihongxing

　　前面已经写了如何获取网页源码，那么接下来就是该解析网页并提取需要的数据了。这里简单写一下正则表达的用法。

　　首先，找个要抓取图片的网站，获取源码。

import requests
import re

# 获取网页源码
url = 'http://www.ivsky.com/tupian/xiaohuangren_t21343/'
data = requests.get(url).text

　　小黄人的图。。。接下来浏览器检查元素，发现图片源码格式,前面均为<img ，结尾均为 .jpg 而我们要提取的就是网址部分。

python3爬虫初探（三）之正则表达式

　　正则表达式如下：

#正则表达式三部曲
#<img src="http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren-009.jpg" width="135" height="135" alt="卑鄙的我小黄人图片">
regex = r'<img src="(.*?.jpg)"'#匹配网址
pa = re.compile(regex)#转为pattern对象
ma = re.findall(pa, data)#findall 方法找到所有的符合pa的对象，添加到一个列表中并返回
print(ma)#图片网址列表
print(len(ma))#列表长度，即找到图片个数

#截取部分列表输出
#['http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren_tupian-007.jpg', 'http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren-009.jpg', 'http://img.ivsky.com/...
#25

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python3爬虫初探（三）之正则表达式 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python3爬虫初探（四）之文件保存

上一篇 2023年4月10日

爬虫再探之mysql简单使用

下一篇 2023年4月10日

爬虫初始

1.1 什么是爬虫? 就是通过编写程序模拟浏览器上网，让其去互联网中抓取数据的过程。 1.2 爬虫分类? 1.通用爬虫：爬取一整张页面源码数据。 2.聚焦爬虫：爬取页面中局部的数据。一定是在通用爬虫的基础上实现。 3.增量式爬虫：用来监测网站数据更新的情况。以便于爬取最新更新出来的数据！ 1.3 爬虫合法性探究爬虫的风险体现 1.爬虫干扰了被访问网站的正常…

爬虫 2023年4月13日
000
爬虫实战 —— 天气网合肥地区天气数据

抓取天气网中合肥地区11年到18年所有天气数据，并对输出的数据进行可视化。目标网址：http://lishi.tianqi.com/hefei/index.html 一抓取网站数据代码如下： import requests import re from bs4 import BeautifulSoup import time def get_re…

爬虫 2023年4月11日
000
Python爬虫学习笔记（一）

1.urllib2简介 urllib2的是爬取URL（统一资源定位器）的Python模块。它提供了一个非常简单的接口，使用urlopen函数。它能够使用多种不同的协议来爬取URL。它还提供了一个稍微复杂的接口，用于处理常见的情况 – 如基本身份验证，cookies，代理等。 2.抓取URLs 使用urlib2的简单方式可以像下面一样： import urll…

爬虫 2023年4月12日
000
利用python爬取海量疾病名称百度搜索词条目数的爬虫实现

实验原因：目前有一个医疗百科检索项目，该项目中对关键词进行检索后，返回的结果很多，可惜结果的排序很不好，影响用户体验。简单来说，搜索出来的所有符合疾病中，有可能是最不常见的疾病是排在第一个的，而最有可能的疾病可能需要翻很多页才能找到。实验目的：为了优化对搜索结果的排序，想到了利用百度搜索后有显示搜索到多少词条，利用这个词条数，可以有效的对疾病排名进…

爬虫 2023年4月11日
000
爬虫及浏览器开发者工具

Python逆向爬虫之初体验网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。说起网络爬虫，人们常常会用这样一个比喻：如果把互联网比喻成一张网，那么网络爬虫就可以认为是一个在网上爬来爬去的小虫子，它通过网页的链接地址来寻找网页，通过特定的搜索算法来确定路线，通常从网站的某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这…

爬虫 2023年4月12日
000
Python新手爬虫一：爬取影片名称评分等

豆瓣网站：https://movie.douban.com/chart 先上最后的代码： from bs4 import BeautifulSoup from lxml import html import xml import requests from fake_useragent import UserAgent #ua库 import xlwt …

爬虫 2023年4月10日
000
robots.txt协议——网络爬虫的“盗亦有道”

网络爬虫的限制：　　来源审查：判断User-Agent进行限制　　　　检查来访HTTP协议头的User-Agent域，只响应浏览器或友好爬虫的访问。　　　　实际上HTTP协议头是可以通过技术上进行伪造。　　发布公告：robots协议　　　　告知所有爬虫网站的爬取策略，要求爬虫遵守。 robots协议（Robots Exclusion standar…

爬虫 2023年4月12日
000
python爬虫入门（三）XPATH和BeautifulSoup4

XML和XPATH 用正则处理HTML文档很麻烦，我们可以先将 HTML文件转换成 XML文档，然后用 XPath 查找 HTML 节点或元素。 XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 XML 的标签需要我们自行定义。 XML …

爬虫 2023年4月13日
000

合作推广

合作推广

返回顶部