为了防止这个网站消失,我连夜用Python离线了上万张图片

之前好多高质量网站都不见了,肯定是你们整活整多了,趁你们不注意,我先悄悄多保存点~

为了防止这个网站消失,我连夜用Python离线了上万张图片

事前准备

让我们开始今天的操作

为了防止这个网站消失,我连夜用Python离线了上万张图片

1、环境配置**

安装一个Python和pycharm就好了

2、模块使用

requests    # 数据请求
parsel   # 解析模块 (提取数据)

 

这两个模块没有安装的话,先安装一下,win+R 输入cmd 按回车弹出命令提示符窗口,输入 pip install 加上模块名即可 , 如:pip install requests 然后按回车即可安装成功,详细教程见置顶文章,我有详细介绍。

3、如何配置pycharm里面的python解释器?

  1. 选择file(文件) >>> setting(设置) >>> Project(项目) >>> python interpreter(python解释器)
  2. 点击齿轮, 选择add
  3. 添加python安装路径

4、pycharm如何安装插件?

  1. 选择file(文件) >>> setting(设置) >>> Plugins(插件)
  2. 点击 Marketplace 输入想要安装的插件名字 比如:翻译插件 输入 translation / 汉化插件 输入 Chinese
  3. 选择相应的插件点击 install(安装) 即可;
  4. 安装成功之后 是会弹出 重启pycharm的选项 点击确定, 重启即可生效;

5、基本流程

基本上所有的爬虫都是这个步骤

一. 数据来源分析

  1. 抓取网站是什么?想要获取网站什么样数据内容?比如爬取图片,从一张图片去分析,通过开发者工具进行抓包分析, 对比我们想要图片url地址一些参数;

二. 代码实现步骤:

  1. 发送请求, 对于分析得到url地址发送请求;
    请求网址
    请求方式
    请求头参数 >>> 伪装 可以把python代码伪装成浏览器(客户端)发送请求;
    如果不进行伪装会有什么后果 >>> 不会给你返回你想要数据;
    2. 获取数据,获取response服务器返回响应数据;
    3. 解析数据,提取我们想要数据内容,图片url地址以及图片标题;
    4. 保存数据,把图片数据保存到本地;

代码解析

开始展示代码吧,不然大家想打我了~

在这里插入图片描述

1、模块导入

首先把我们需要用的模块导入进去,导入数据请求模块和数据解析模块,导入模块没有使用, 灰色待机状态。

import requests  
import parsel  

 

2、发送请求

headers 请求头参数, 可以开发者工具里面直接进行复制, 其次headers字典数据类型, 键值对;
user-agent: 用户代理 表示浏览器基本身份标识;
cookie: 用户信息, 检测用户是否有登陆账号;

for page in range(2, 11):
    url = f'htpps://sj.enterdesk.com/woman/{page}.html'
    headers = {
        'cookie': 't=f2cf055ce8713058cbfdbd1561c38e86; r=1281; Hm_lvt_86200d30c9967d7eda64933a74748bac=1645625923,1646892448; Hm_lpvt_86200d30c9967d7eda64933a74748bac=1646894465',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)   #  <Response [200]> 返回响应对象 200状态码标识请求成功

 

3、获取数据

获取服务器返回数据内容, 获取响应对象文本数据/字符串数据。

返回数据内容和我们在开发者工具里面看到不一样,说明你被服务器识别出来是你爬虫程序,所以他没有给你返回数据。

print(response.text)

 

4、解析数据

css选择器 xpath re 三种解析方式都可以去用选择最适合;
css选择器: 根据标签属性提取数据内容;
对于获取response.text 进行数据类型转换 转成 selector 对象
attr() 属性选择器 .egeli_pic_li .egeli_pic_dl dd a img 都是定位标签, 告诉它是哪一个标签
img::attr(src) 取img标签里面的src属性数据
getall() 获取所有标签内容数据 返回列表数据类型

 selector = parsel.Selector(response.text)
 src = selector.css('.egeli_pic_li .egeli_pic_dl dd a img::attr(src)').getall()
 alt = selector.css('.egeli_pic_li .egeli_pic_dl dd a img::attr(alt)').getall()
 for img_url, title in zip(src, alt):
     img_url = img_url.replace('edpic_360_360', 'edpic_source')

 

5、保存数据

img_content = requests.get(url=img_url, headers=headers).content  # 获取二进制数据内容
with open('img\' + title + '.jpg', mode='wb') as f:
    f.write(img_content)
print(img_url, title)

 

好了,代码就到这里结束了,采集结果我也不知不觉给大家展示在文中了,大家细细品味~

兄弟们,敲代码要勤快,永远不要用战术上的勤奋,来掩饰战略上的懒惰。

记得点赞收藏~

 

 为了防止这个网站消失,我连夜用Python离线了上万张图片

 

 

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:为了防止这个网站消失,我连夜用Python离线了上万张图片 - Python技术站

(0)
上一篇 2023年4月2日
下一篇 2023年4月2日

相关文章

  • 为了快速了解原神,我用Python爬取了原神所有角色信息!

    原神是由米哈游制作发行的一款开放世界冒险游戏,号称全球玩家5600W,可以说是非常热门了,朋友都说好玩,哎,但我就是不玩,就是皮…       但是,今天我就要用python来打开“原神世界”的大门!探索一下游戏角色! 话不多说直接开整! 准备工作 这是本次需要使用到 的工具 nodejs pyexecjs requests 编辑器:pycharm环境:Py…

    Python开发 2023年3月31日
    00
  • 用Python批量爬取快手视频,实现自动关注/点赞/评论

    今天来点特别的~ 不仅把好看的视频全部pa下来,咱们还要实现自动评论、点赞、关注三连~ 宝,你也可以顺手给我个三连吗?给你个摸摸大~     抓包分析流程 我写成了文档,都在这个PDF里面了,但是好像不能上传,所以点一下大家自行下载吧!点我获取,提取密码 qwer 开始代码 获取视频的代码 import requests # 发送请求 第三方模块(第三方应用…

    2023年4月2日
    00
  • Python之字典添加元素

    本文使用代码 book_dict = {“price”: 500, “bookName”: “Python设计”, “weight”: “250g”}   第一种方式:使用[] book_dict[“owner”] = “tyson”   说明:中括号指定key,赋值一个value,key不存在,则是添加元素(如果key已存在,则是修改key对应的value…

    Python开发 2023年3月31日
    00
  • 文件太乱了?不要慌,教你用Python全自动整理

    文件太乱了?不要慌,教你用Python全自动整理到对应分类中~ 主要知识点 文件读写 基础语法 字符串处理 循环遍历 素材 先来看看我这乱七八糟的文件​ 这就看起来乱七八糟了,这要是手动整理,还好,哈哈~ 但是几百个上千个文件呢? 所以,还得是有个技能傍身才方便啊! 马上安排! 代码展示 # 我还给大家准备了海量资料:Python视频教程、100本Pytho…

    Python开发 2023年4月2日
    00
  • 不怕新歌有多嗨,就怕老歌带DJ,用Python批量下载dj歌曲!

    俗话说,不怕新歌有多嗨,就怕老歌带dj,为了验证这句话,于是我直接找了个dj网,用Python把dj都下载下来,亲身体验一下! 环境模块 软件 Python3.8 pycharm2021   模块 import requests import re   requests是数据请求模块,第三方模块,需要手动安装一下,win+r打开运行框,输入cmd按回车,然后…

    2023年4月2日
    00
  • Python丨听说这个地方的漫画不错,只用40行代码,给它全部爬下来

    前因后果 公司新来的小姐姐,超级喜欢看漫画,天天给我介绍,好烦~ 现在是2022年9月15日16点30,于是我决定, 五点下班前写个代码把她说的漫画全部爬下来,应付一下~ 再发篇文章揭露她的罪恶,嘿嘿~ 准备事项 环境使用 Python 3.8 Pycharm 2021.2版本   模块使用 import requests >>> # 数据…

    Python开发 2023年4月2日
    00
  • 用Python来做一个简单的学生管理系统(附源码)

    小学妹说要毕业了,学了一学期Python等于没学,现在要做毕设做不出来,让我帮帮她,晚上去她家吃夜宵。 当时我心想,这不是分分钟的事情,还要去她家,男孩子晚上不要随便出门,要学会保护好自己,于是我花了十分钟给她写了一个发过去,这下不用去她家了~     代码实战 主要代码,完整代码素材、包括其它版本学生管理系统代码,也有录制好的视频讲解,第八行代码自取即可!…

    2023年3月31日
    00
  • 新手学习Python需要知道的100个小技巧,加班一晚上终于整理出来了!

    哈喽兄弟们,今天给大家分享一下Python初学需要知道的100个小技巧~ 1、for循环中的else条件这是一个for-else方法,循环遍历列表时使用else语句。下面举个例子,比如我们想检查一个列表中是否包含奇数。那么可以通过for循环,遍历查找。 numbers = [2, 4, 6, 8, 1] for number in numbers: if n…

    2023年4月2日
    00
合作推广
合作推广
分享本页
返回顶部