Python爬虫实战:批量爬取百度图片

yizhihongxing

众所周知,某度本身就是最大的爬虫脚本,那么纯纯的去某个网站找壁纸,还不如去某度图片直接找,瞬间格局打开!

话不多说,直接用Python来开发一下此处资源!

开发环境 & 第三方模块

环境

解释器版本 >>> python 3.8
代码编辑器 >>> pycharm 2021.2

模块

requests  # 发送请求  第三方模块

 

键盘按住 win+r 打开搜索,输入cmd 按回车确定,弹出命令提示符窗口后,输入 pip install requests 回车即可安装。

代码展示

import requests    
# Python源码/资料自取群 708525271
 
# 伪装
headers = {
    # 身份信息
    'Cookie': 'BDqhfp=jk%E5%B0%8F%E5%A7%90%E5%A7%90%26%26NaN-1undefined%26%260%26%261; BIDUPSID=C24C7D8E598E67C686237DEAF51F7B28; PSTM=1656683846; BAIDUID=90512AA3632B152E5F977142A71CD0B0:SL=0:NR=10:FG=1; newlogin=1; MCITY=-%3A; BDUSS=VBkUnZuOUJjVWJRSzRQVmRrOFNuVlZpOWxXMXI2MmN5eUhmdG94aElsVXJXSWhqSVFBQUFBJCQAAAAAAAAAAAEAAADRI~rzv8nE3MrHybXByzMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACvLYGMry2Bje; BDUSS_BFESS=VBkUnZuOUJjVWJRSzRQVmRrOFNuVlZpOWxXMXI2MmN5eUhmdG94aElsVXJXSWhqSVFBQUFBJCQAAAAAAAAAAAEAAADRI~rzv8nE3MrHybXByzMAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAACvLYGMry2Bje; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; indexPageSugList=%5B%22%E4%BB%96%E5%A6%88%E7%9A%84%20%E8%A1%A8%E6%83%85%E5%8C%85%22%2C%22%E6%87%92%20%E8%A1%A8%E6%83%85%E5%8C%85%22%2C%22%E6%88%91%E5%BE%88%E6%87%92%20%E8%A1%A8%E6%83%85%E5%8C%85%22%2C%22%E5%B0%B1%E8%BF%99%E6%A0%B7%E7%BB%93%E6%9D%9F%E4%BA%86%20%E8%A1%A8%E6%83%85%E5%8C%85%22%2C%22%E5%9C%9F%E5%BA%93%E6%9B%BC%E6%96%AF%E5%9D%A6%22%2C%22%E5%9C%9F%E5%BA%93%E6%9B%BC%E6%96%AF%E5%9D%A6%E4%B8%96%E7%95%8C%E5%9C%B0%E5%9B%BE%22%2C%22%E5%9C%9F%E5%BA%93%E6%9B%BC%E6%96%AF%E5%9D%A6%E4%B8%96%E7%95%8C%22%2C%22%E7%82%B9%E4%B8%AA%E8%B5%9E%20%E8%A1%A8%E6%83%85%E5%8C%85%22%5D; BA_HECTOR=240000240g8g058k2l848qet1hn93qn1f; ZFY=:AUZ:AsSR27Ydrc2egIjwyfTn:BiQthXJLEzDLR4IgwdOQ:C; BAIDUID_BFESS=90512AA3632B152E5F977142A71CD0B0:SL=0:NR=10:FG=1; BDRCVFR[feWj1Vr5u3D]=I67x6TjHwwYf0; delPer=0; BDRCVFR[C0p6oIjvx-c]=ddONZc2bo5mfAF9pywdpAqVuNqsus; BDRCVFR[fb3VbsUruOn]=_M5urk4djP3fA4-ILn; H_PS_PSSID=36545_37771_37778_37724_36802_37662_37538_37672_37741_26350_37786; BDRCVFR[dG2JNJb_ajR]=mk3SLVN4HKm; BDRCVFR[-pGxjrCMryR]=mk3SLVN4HKm; BDRCVFR[Txj84yDU4nc]=mk3SLVN4HKm; BDRCVFR[tox4WRQ4-Km]=mk3SLVN4HKm; BDRCVFR[X_XKQks0S63]=mk3SLVN4HKm; firstShowTip=1; PSINO=7; userFrom=www.baidu.com; ab_sr=1.0.1_ZDc4MzMwNmRiYmU4MjdiMDYyMGJlNjgzMzc0ZDU5OWRmMzg3OTk1NDY3ZjUzZGY3YWY0NGIzMzVhNzYyYzRlNzkzODc2ZmQxNDU5ZmIwZWFhNjQwYmE1MzVkMTY2YTI1YTRhNWYxOTY5MzE2YThkODJiNjQxNDk0MDYxMzBmNmNjOWMxMWUwOTI5MGUyZWU3ZmU1YjJhZjljN2ZlNzkyMg==',
    # 域名
    'Host': 'image.baidu.com',
    # 防盗链
    'Referer': 'https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&dyTabStr=MCwzLDIsNSwxLDcsNCw2LDgsOQ%3D%3D&word=jk%E5%B0%8F%E5%A7%90%E5%A7%90',
    # 浏览器的基本信息
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}

url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&logid=8212365409067552127&ipn=rj&ct=201326592&is=&fp=result&fr=&word=jk%E5%B0%8F%E5%A7%90%E5%A7%90&queryWord=jk%E5%B0%8F%E5%A7%90%E5%A7%90&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&hd=&latest=©right=&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=1&expermode=&nojc=&isAsync=&pn=90&rn=30&gsm=5a&1668600962847='

response = requests.get(url=url, headers=headers)

json_data = response.json()     # 字典

data_list = json_data['data']
count = 0
for data in data_list[:-1]:
    ObjUrl = data['replaceUrl'][0]['ObjUrl']
    img_data = requests.get(ObjUrl).content
    with open(f'{count}.jpg', mode='wb') as f:
        f.write(img_data)
    count += 1

 

效果展示

这难道比壁纸网站的差了吗?

Python爬虫实战:批量爬取百度图片

最后

# 我给大家准备了一些资料,包括2022最新Python视频教程、Python电子书10个G (涵盖基础、爬虫、数据分析、web开发、机器学习、人工智能、面试题)、Python学习路线图等等,直接在这个君羊 708525271 自取即可!

 

正确学习Python的姿势:

今天的分享到这就结束了,记得点赞收藏,下次再见!

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python爬虫实战:批量爬取百度图片 - Python技术站

(0)
上一篇 2023年4月2日
下一篇 2023年4月2日

相关文章

  • jupyter使用虚拟环境

    为了在jupyter中使用pyTorch的虚拟环境,来记录一下怎么操作一、conda命令的使用因为使用的是jupyter,所有就使用Anaconda Prompt来创建虚拟环境(也可使用virtualenv,不过没试过) conda create -n 环境名 # 创建的环境在默认路径下,C盘位置不够使用下面命令 # 指定创建路径 conda create …

    Python开发 2023年4月2日
    00
  • 为了防止这个网站消失,我连夜用Python离线了上万张图片

    之前好多高质量网站都不见了,肯定是你们整活整多了,趁你们不注意,我先悄悄多保存点~ 事前准备 让我们开始今天的操作 1、环境配置** 安装一个Python和pycharm就好了 2、模块使用 requests # 数据请求 parsel # 解析模块 (提取数据)   这两个模块没有安装的话,先安装一下,win+R 输入cmd 按回车弹出命令提示符窗口,输入…

    Python开发 2023年4月2日
    00
  • TheFuck—Python写的超实用命令纠正工具

    哈喽兄弟们,我们在学习Python的过程中,有这么一款工具,可以轻松纠正我们写错的命令,简直太好用了~ The Fuck 是一款功能强大的、Python编写的应用程序,可用于纠正控制台命令中的错误,非常强大。此外,用户还可通过写Python代码的方式自定义修复规则。 修复效果如下动图所示: 更多示例如: 自动识别没有权限,在命令前面添加 sudo ➜ apt…

    Python开发 2023年4月2日
    00
  • python一键去PDF水印,只需十行代码,超级简单…

    弟弟最近要考试,临时抱佛脚在网上找了一堆学习资料复习,这不刚就来找我了,说PDF上有水印,影响阅读效果,到时候考不好就怪资料不行,气的我差点当场想把他揍一顿! 算了,弟弟长大了,看在打不过他的份上,就不打他了~ 稍加思索,我想起了Python不是可以去水印?说搞就搞! 去除水印原理 去除方法: 用 PyMuPDF 打开 pdf 文件,将 pdf 的每一页都转…

    Python开发 2023年4月2日
    00
  • 两行Python代码实现自动打开百度并输入搜索词,超简单

    在群里面最常见的一句话就是,本群已和百度达成深度合作,有问题直接找百度即可! 好家伙~ 那我们今天就来试试,用Python自动打开百度找答案! 涉及知识点 基础语法 路由跳转 http 状态码 代码展示 首先导入咱们需要使用的模块 import platform import webbrowser # 我给大家准备了这些资料:Python视频教程、100本P…

    Python开发 2023年4月2日
    00
  • Python字典对象的创建(9种方式)

    第一种方式:使用{} firstDict = {“name”: “wang yuan wai “, “age” : 25}   说明:{}为创建一个空的字典对象 第二种方式:使用fromkeys()方法 second_dict = dict.fromkeys((“name”, “age”)) #value使用默认的None,也可以指定value值   说明:…

    Python开发 2023年3月31日
    00
  • Python基于PC版微信实现机器人

    闲着没事总想搞点事情,这不是web版的微信有专门的实时收发消息api,可以用Python直接调用,但是现在基本上登录不了web版微信,所以就用不了了。 但这不是还有windows版的微信吗,于是在基于前辈写好的第三方库,今天我们来实现一下实时收发信息,实现自动聊天机器人。 效果展示 微信实时收发消息 1、第三方库 基于第三方pc-wechat-hook-ht…

    Python开发 2023年4月2日
    00
  • 用Python做一个抢票脚本,演唱会门票轻松到手!

    最近演唱会还挺多的,都是大家喜欢的那些知名歌手,所以特地出一手教程给大家助力(主要是 表弟想追女神,所以教他自己抢票) 知识点 selenium 淘宝滑块处理 抢购逻辑实现 必备环境 python 3.8 pycharm 专业版 谷歌浏览器+谷歌驱动+selenium3.141.0 stealth.min.js 代码展示 模块 import time fro…

    Python开发 2023年3月31日
    00
合作推广
合作推广
分享本页
返回顶部