在python3中使用urllib.request编写简单的网络爬虫

2023年4月13日下午9:21 • 爬虫

yizhihongxing

Python官方提供了用于编写网络爬虫的包 urllib.request, 我们主要用它进行打开url，读取url里面的内容，下载里面的图片。

分以下几步：

step1:用urllib.request.urlopen打开目标网站

step2:由于urllib.request.urlopen返回的是一个http.client.HTTPResponse object，无法直接读取里面的内容，所以直接调用该对象的方法read()，获取到页面代码，存到html里

step3:构建正则表达式，从页面代码里提取出图片url地址。

step4:根据图片url地址，用urllib.request.retrieve下载到本地

容易出错的地方：

1：python2.x和python3.x中，urlopen具体在哪个包里是不一样的。如果你要在python2.x上实现，要自行百度正确的包。

2：最容易出错的地方是正则表达式，容易出现匹配错误。我程序里写的正则表达式，在目前的网址里是正确的，如果是其他网址可能还会出问题，要具体问题具体分析，去debug。

比如如果img_re=re.compile(r'(?<=src=)"\w+?jpg"')的话，会匹配成""http://tieba.........."

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

import urllib.request

import re

def getHtml(url):

    #print("正在打开网页并获取....")

    page=urllib.request.urlopen(url)

    Html=str(page.read())

    print("成功获取....")

    return Html

def getImg(html):

    img_re=re.compile(r'(?<=src=")\S+?jpg')

    #img_re=re.compile(r'src="(.*?\.jpg)"')

    print("the type of html is :",type(html))

    img_list=img_re.findall(html)

    print("len(img_list)=",len(img_list))

    print("img_list[0]=",img_list[0])

    print("正在下载图片......")

    for i in range(len(img_list)):

        print("img_list[%d]=%s" % (i,img_list[i]))

        urllib.request.urlretrieve(img_list[i],'%s.jpg' % i)

    print("完成图片下载......")

    print("一共抓到了%d张图片" % len(img_list))

if __name__=="__main__":

    url_baidu="http://tieba.baidu.com/f?kw=%B0%A2%C9%AD%C4%C9"

    html=getHtml(url_baidu)

    getImg(html)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：在python3中使用urllib.request编写简单的网络爬虫 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫：Selenium + PhantomJS

上一篇 2023年4月13日

基于Python的爬虫案例

下一篇 2023年4月13日

Python爬虫之教你利用Scrapy爬取图片

下面我将详细讲解“Python爬虫之教你利用Scrapy爬取图片”的完整攻略。标题简介在介绍爬虫之前，我们先介绍下Scrapy。Scrapy是一个Python编写的爬虫框架，它提供了一套完整的爬虫工具链，可用于从网站上提取结构化数据（例如，爬取图片、爬取文字信息等）。安装Scrapy 要使用Scrapy，需要先将其安装，可以使用以下命令进行安装： p…

python 2023年5月14日
000
爬虫

正则解析提速方案_爬虫

前言在爬爬爬的时候，有些网页的数据并不存在于html中，它们常出现在scrip标签或js文件里面，所有这时候使用xpath就有些不尽人意了。但是，我们可以直接使用re对script的内容进行提取，然后再转json格式，再通过字典索引的方法对数据逐个提取。但是，面对近百万字符的文本，正则的运行速度堪忧。使用re提取js文件的内容: 耗时：主要思路把获取到…

2023年4月8日
000
python爬虫实践——爬取“豆瓣top250”

1 ”’ 2 主页: 3 https://movie.douban.com/top250 4 GET 5 User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.146 Safari/537.36 6 7…

爬虫 2023年4月11日
000
Python异步爬虫实现原理与知识总结

Python异步爬虫实现原理与知识总结异步爬虫是一种高效的爬虫方式，在处理大量请求并发的情况下，能够大幅提升爬虫的效率。本文将介绍Python异步爬虫的实现原理，并提供一些示例说明。异步编程的基本概念异步编程的核心是协程，协程本质上是一种轻量级的线程，其调度完全由程序自身控制。Python提供的协程实现方式是async/await关键字。相比于传统的…

python 2023年5月14日
000
Python爬虫之requests如何使用

本文小编为大家详细介绍“Python爬虫之requests如何使用”，内容详细，步骤清晰，细节处理妥当，希望这篇“Python爬虫之requests如何使用”文章能帮助大家解决疑惑，下面跟着小编的思路慢慢深入，一起来学习新知识吧。 requests库简介 requests 库是一个常用的用于 http 请求的模块，它使用 python 语言编写，可以方便的对…

爬虫 2023年4月12日
000
Python网络编程实战之爬虫技术入门与实践

Python网络编程是Python编程领域之一，它主要涉及到网络传输和通信的各种常用协议、网络编程的库和框架、以及各种类型的爬虫技术。在实际应用中，Python网络编程常常用于开发网络应用和爬虫程序。 Python网络编程实战之爬虫技术入门与实践是一本介绍Python网络编程和爬虫技术的入门级别的书籍。通过学习这本书，人们可以了解到Python网络编程的基础…

python 2023年5月14日
000
Python爬虫后获取重定向url的两种方法

一、背景在编写Python爬虫时，我们通常需要对网站上的URL进行重定向处理。重定向是指当我们访问一个网站的URL时，服务器会把我们的请求重定向到另一个URL上。例如，当我们访问 https://www.google.com 时，服务器会把我们的请求重定向到 https://www.google.com.hk 上。在爬虫中，我们需要获取重定向URL的最终…

python 2023年5月14日
000
python爬虫抓取哈尔滨天气信息（静态爬虫）

python 爬虫爬取哈尔滨天气信息 – http://www.weather.com.cn/weather/101050101.shtml 环境： windows7 python3.4（pip install requests；pip install BeautifulSoup4）代码：（亲测可以正确执行） 1 # coding:utf-8 2…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部