python3爬虫初探（五）之从爬取到保存

2023年4月10日下午11:38 • 爬虫

　　想一想，还是写个完整的代码，总结一下前面学的吧。

import requests
import re

# 获取网页源码
url = 'http://www.ivsky.com/tupian/xiaohuangren_t21343/'
data = requests.get(url).text

#正则表达式三部曲
#<img src="http://img.ivsky.com/img/tupian/t/201411/01/xiaohuangren-009.jpg" width="135" height="135" alt="卑鄙的我小黄人图片">
regex = r'<img src="(.*?.jpg)"'#匹配网址
pa = re.compile(regex)#转为pattern对象
ma = re.findall(pa, data)#findall 方法找到所有的符合pa的对象，添加到一个列表中并返回
#print(ma)#图片网址列表
print('本次爬取共获取图片'+str(len(ma))+'张')#列表长度，即找到图片个数

i = 0#这里的i， 只是为了给图片命名。。。
for imgurl in ma:
    i += 1
    print('正在爬取'+imgurl)
    imgdata = requests.get(imgurl).content
    with open(str(i)+'.jpg', 'wb') as f:
        f.write(imgdata)

print('爬取完毕！')

　　放几张程序输出的图。

python3爬虫初探（五）之从爬取到保存

python3爬虫初探（五）之从爬取到保存

python3爬虫初探（五）之从爬取到保存

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python3爬虫初探（五）之从爬取到保存 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python3爬虫初探（二）之requests

上一篇 2023年4月10日

python3爬虫再探之豆瓣影评数据抓取

下一篇 2023年4月10日

python爬虫（十一） session

这是一个会话对象，对目标服务器得请求通过session来完成例如人人网爬取大鹏主页信息， # requests使用session,不用登录查看人人网大鹏信息 import requests url=’http://www.renren.com/PLogin.do’ id = input(‘请输入用户名：’) pw = input(‘请输入密码：’) da…

爬虫 2023年4月11日
000
百度翻译爬虫-Web版(自动生成sign)

1 # 面向对象 2 # 百度翻译 — 网页版(自动获取token,sign) 3 import requests 4 import js2py 5 import json 6 import re 7 8 9 class WebFanyi: 10 “””百度翻译网页版爬虫””” 11 def __init__(self,query_str): 12 sel…

爬虫 2023年4月11日
000
scrapy框架下爬虫实现详情页抓取

以爬取阳光阳光热线问政平台网站为例，进行详情页的爬取。 1 # -*- coding: utf-8 -*- 2 import scrapy 3 from yanguang.items import YanguangItem 4 5 class SunSpider(scrapy.Spider): 6 name = ‘sun’ 7 allowed_domai…

爬虫 2023年4月10日
000
python爬虫scrapy框架之增量式爬虫的示例代码

针对这个主题，我可以提供一份针对“python爬虫scrapy框架之增量式爬虫的示例代码”的完整攻略。什么是增量式爬虫？在介绍示例代码之前，我们先来了解一下什么是“增量式爬虫”。简单来说，增量式爬虫就是针对已经抓取过的内容进行增量的、增量的更新；只爬取新加入的，而不是全盘的重新抓取。对于时间线较为敏感的数据应用，增量式爬虫可以减少开销，提高数据更新速度。…

python 2023年5月14日
000
Python实现抓取腾讯视频所有电影的示例代码

这是一个实现Python爬虫抓取腾讯视频所有电影信息的示例代码，下面是完整攻略：开发环境配置首先，需要安装Python开发环境，建议使用Python3版本。另外，我们还需要安装一些第三方库，包括： requests：用于发送HTTP请求和处理响应数据 BeautifulSoup4：用于解析HTML页面在安装好Python和相应库后，我们可以开始编写爬虫…

python 2023年5月14日
000
Python爬虫02——贴吧图片爬虫V2.0

贴吧图片爬虫进阶：在上次的第一个小爬虫过后，用了几次发现每爬一个帖子，都要自己手动输入帖子链接，WTF这程序简直反人类！不行了不行了得改进改进。思路：贴吧的链接可以从每个贴吧首页爬取再从爬取到的贴吧链接中一个个去下载图片图片得按帖子放置好，不然就太乱了在这期间研究了下Xpath： Xpath是一门在 XML 文档中查找信息的语言。XPa…

爬虫 2023年4月11日
000
python 3.x 爬虫基础—正则表达式

python 3.x 爬虫基础—http headers详解 python 3.x 爬虫基础—Urllib详解 python 3.x 爬虫基础—Requersts,BeautifulSoup4（bs4） python 3.x 爬虫基础—正则表达式前言　　正则表达式是对字符串的一种逻辑公式，用事先定义好的一些特定字符、及这些特定字符的组合，…

爬虫 2023年4月11日
000
Python常见反爬虫机制解决方案

Python常见反爬虫机制解决方案前言随着爬虫技术的不断发展，网站也开始有意识的采取反爬虫机制来限制爬虫对网站的访问。Python作为一种常用的爬虫语言，需要我们找到一些解决方案来应对这些反爬虫机制。验证码识别验证码是一种常见的反爬虫机制，它可以有效防止机器人恶意爬取网站数据。验证码识别技术可以用来破解验证码，从而突破这种反爬虫机制，使爬虫可以访问这…

python 2023年5月14日
000

合作推广

合作推广

返回顶部