为了防止这个网站消失，我连夜用Python离线了上万张图片

2023年4月2日下午5:29 • Python开发

之前好多高质量网站都不见了，肯定是你们整活整多了，趁你们不注意，我先悄悄多保存点~

事前准备

让我们开始今天的操作

为了防止这个网站消失，我连夜用Python离线了上万张图片

1、环境配置**

安装一个Python和pycharm就好了

2、模块使用

requests    # 数据请求
parsel   # 解析模块 (提取数据)

这两个模块没有安装的话，先安装一下，win+R 输入cmd 按回车弹出命令提示符窗口，输入 pip install 加上模块名即可，如：pip install requests 然后按回车即可安装成功，详细教程见置顶文章，我有详细介绍。

3、如何配置pycharm里面的python解释器?

选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
点击齿轮, 选择add
添加python安装路径

4、pycharm如何安装插件?

选择file(文件) >>> setting(设置) >>> Plugins(插件)
点击 Marketplace 输入想要安装的插件名字比如:翻译插件输入 translation / 汉化插件输入 Chinese
选择相应的插件点击 install(安装) 即可；
安装成功之后是会弹出重启pycharm的选项点击确定, 重启即可生效；

5、基本流程

基本上所有的爬虫都是这个步骤

一. 数据来源分析

抓取网站是什么？想要获取网站什么样数据内容？比如爬取图片，从一张图片去分析，通过开发者工具进行抓包分析, 对比我们想要图片url地址一些参数；

二. 代码实现步骤:

发送请求, 对于分析得到url地址发送请求；
请求网址
请求方式
请求头参数 >>> 伪装可以把python代码伪装成浏览器(客户端)发送请求；
如果不进行伪装会有什么后果 >>> 不会给你返回你想要数据；
2. 获取数据，获取response服务器返回响应数据；
3. 解析数据，提取我们想要数据内容，图片url地址以及图片标题；
4. 保存数据，把图片数据保存到本地；

代码解析

开始展示代码吧，不然大家想打我了~

在这里插入图片描述

1、模块导入

首先把我们需要用的模块导入进去，导入数据请求模块和数据解析模块，导入模块没有使用, 灰色待机状态。

import requests  
import parsel

2、发送请求

headers 请求头参数, 可以开发者工具里面直接进行复制, 其次headers字典数据类型, 键值对；
user-agent: 用户代理表示浏览器基本身份标识；
cookie: 用户信息, 检测用户是否有登陆账号；

for page in range(2, 11):
    url = f'htpps://sj.enterdesk.com/woman/{page}.html'
    headers = {
        'cookie': 't=f2cf055ce8713058cbfdbd1561c38e86; r=1281; Hm_lvt_86200d30c9967d7eda64933a74748bac=1645625923,1646892448; Hm_lpvt_86200d30c9967d7eda64933a74748bac=1646894465',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)   #  <Response [200]> 返回响应对象 200状态码标识请求成功

3、获取数据

获取服务器返回数据内容, 获取响应对象文本数据/字符串数据。

返回数据内容和我们在开发者工具里面看到不一样，说明你被服务器识别出来是你爬虫程序，所以他没有给你返回数据。

print(response.text)

4、解析数据

css选择器 xpath re 三种解析方式都可以去用选择最适合；
css选择器: 根据标签属性提取数据内容；
对于获取response.text 进行数据类型转换转成 selector 对象
attr() 属性选择器 .egeli_pic_li .egeli_pic_dl dd a img 都是定位标签, 告诉它是哪一个标签
img::attr(src) 取img标签里面的src属性数据
getall() 获取所有标签内容数据返回列表数据类型

 selector = parsel.Selector(response.text)
 src = selector.css('.egeli_pic_li .egeli_pic_dl dd a img::attr(src)').getall()
 alt = selector.css('.egeli_pic_li .egeli_pic_dl dd a img::attr(alt)').getall()
 for img_url, title in zip(src, alt):
     img_url = img_url.replace('edpic_360_360', 'edpic_source')

5、保存数据

img_content = requests.get(url=img_url, headers=headers).content  # 获取二进制数据内容
with open('img\' + title + '.jpg', mode='wb') as f:
    f.write(img_content)
print(img_url, title)

好了，代码就到这里结束了，采集结果我也不知不觉给大家展示在文中了，大家细细品味~

兄弟们，敲代码要勤快，永远不要用战术上的勤奋，来掩饰战略上的懒惰。

记得点赞收藏~

为了防止这个网站消失，我连夜用Python离线了上万张图片

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：为了防止这个网站消失，我连夜用Python离线了上万张图片 - Python技术站

轻松学Python

0 0 打赏

微信扫一扫

支付宝扫一扫

初学者也能边学边玩的6个Python小游戏，简直六翻了（含源码）

上一篇 2023年4月2日

Python迭代对象、迭代器与生成器

下一篇 2023年4月2日

Python开发

简单的用Python对手机号进行加密

基础学的太枯燥了，当然需要用案例来实践一下，才能更好的巩固所学。所以本次来个对手机号进行加密，检验我们所学~ 知识点：文件读写基础语法字符串处理正则表达式代码部分 # 导入系统包 import platform import re print(“Hello，秀儿”) print(“简单的加密手机号 “) # 定义文本内容 # Python学习…

2023年4月2日
000
7个你可能从未使用过的Python隐藏技巧

Python 是每个程序员都喜欢的语言，因为它易于编码和易于阅读的语法。但是，你知道 python 有一些很酷的技巧可以用来让事情变得更简单吗？在今天的内容中，我将与你分享7 个你可能从未使用过的Python 技巧。 1、功能属性这种 hack 类似于类和对象概念。现在，可以声明，也可以稍后在程序中使用调用的函数属性。下面我展示一个示例代码 # Func…

Python开发 2023年4月2日
000
Python一键读取文件中英文单词数量

一、序言今天用Python来试试，对一个文件里面的英文单词数量进行快速统计，告别传统计数方式。目标文件我也不知道多少个，瞎复制的~ 二、涉及知识点文件读写基础语法字符串分割三、代码实践首先我们创建一个Python文件导入我们需要用到的模块 import platform # 我给大家准备了这些资料：Python视频教程、100本Pyt…

Python开发 2023年4月2日
000
Python统计文件中词出现的频率，非常简单，大神就不要点了

兄弟们，今天咱们用Python来统计文件中词出现的频率。你需要准备 Python pycharm 准备好的txt文件知识点文件读写基础语法字符串处理循环遍历代码展示 # 导入系统包 import platform # 我还给大家准备了这些资料：Python视频教程、100本Python电子书、基础、爬虫、数据分析、web开发、机器学习、人工智能…

Python开发 2023年4月2日
000
未婚妻晚安之后依然在线，于是我用20行代码写了个小工具

最近发现未婚妻一到晚上总是很忙的样子，每晚匆匆忙忙道过晚安就不说话了。可是，QQ头像却会偶尔亮起来，我非常担心，是不是账号被盗了呢？然后，就想帮未婚妻排查一下，于是就用python写了一个录制脚本，悄悄装在她电脑上~ 模块安装本次咱们需要用到这两个模块 win32gui PyQt5 流程思路 1、通过win32gui模块，调用windows系统的截屏功能…

Python开发 2023年4月2日
000
Python实现批量将文件按分类保存，文件再多，只需一秒钟解决

当我们电脑里面的文本或者或者文件夹太多了，有时候想找到自己想要的文件，只能通过去搜索文件名，要是名字忘记了的话，那你也搜不了吧，当然你可通过后缀名去搜索，但是通过搜索出来的文件只会更多，这还只是文件多的情况下。如果文件名字基本一样，只有序号不一样呢？那特么眼睛看瞎了估计还没找到。那么我们可以用Python来对文件进行批量自动分类保存到文件夹，下次找的时候…

Python开发 2023年4月2日
000
用Python做一个中秋抢购月饼的脚本

序言每逢佳节倍思亲，想买个东西给家里，结果发现手速不够，网速不够快，没有时间下单等等各种原因导致最后想买的东西售罄了… 甚至跟你一起抢购的可能是脚本，太真实了！今天就给大家分享一个python版抢购月饼的脚本，我们要用魔法打败魔法！话不多说，直接开搞！准备工作今天要用的是一个测试工具的库：Selenium Selenium是一个用于测试网站的自动化测…

Python开发 2023年4月2日
000
python一键去PDF水印，只需十行代码，超级简单…

弟弟最近要考试，临时抱佛脚在网上找了一堆学习资料复习，这不刚就来找我了，说PDF上有水印，影响阅读效果，到时候考不好就怪资料不行，气的我差点当场想把他揍一顿！算了，弟弟长大了，看在打不过他的份上，就不打他了~ 稍加思索，我想起了Python不是可以去水印？说搞就搞！去除水印原理去除方法：用 PyMuPDF 打开 pdf 文件，将 pdf 的每一页都转…

Python开发 2023年4月2日
000

为了防止这个网站消失，我连夜用Python离线了上万张图片

事前准备

1、环境配置**

2、模块使用

3、如何配置pycharm里面的python解释器?

4、pycharm如何安装插件?

5、基本流程

代码解析

1、模块导入

2、发送请求

3、获取数据

4、解析数据

5、保存数据

相关文章