5.Python使用最新爬虫工具requests-html

2023年4月10日下午10:12 • 爬虫

1.安装，在命令行输入：pip install requests-html，安装成功后，在Pycharm引入即可。

5.Python使用最新爬虫工具requests-html

2.代码如下所示：

from requests_html import HTMLSession
import requests

session = HTMLSession()

r = session.get('http://www.win4000.com/wallpaper_2358_0_10_1.html')

images = r.html.find('ul.clearfix > li > a')        #获取到网页上所有a标签url

def save_Image(url,title):                          #定义一个函数，用于保存图片到指定目录下（E盘下需手动新建bg文件夹）
    html_response = requests.get(url)
    with open('E:/bg/'+title+'.jpg','wb') as file:
        file.write(html_response.content)


#查找页面中背景图，找到链接，访问查看大图，并获取大图地址
for image in  images:
    image_url = image.attrs['href']  #获取到每张图片属性值为href的url
    if '/wallpaper_detail' in image_url:
        r = session.get(image_url)
        item_url = r.html.find('img.pic-large',first=True)    #获取到href下的src的url
        url = item_url.attrs['src']
        title = item_url.attrs['title']
        print(url+title)
        save_Image(url,title)

3.在指定目录即可查看到爬下来的图片

　　

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：5.Python使用最新爬虫工具requests-html - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

初步认识网络爬虫

上一篇 2023年4月10日

爬虫，request，response 属性，方法，2.beautifulsoup解析模块

下一篇 2023年4月10日

web爬虫，requests请求

requests请求，就是用yhthon的requests模块模拟浏览器请求，返回html源码模拟浏览器请求有两种，一种是不需要用户登录或者验证的请求，一种是需要用户登录或者验证的请求一、不需要用户登录或者验证的请求这种比较简单，直接利用requests模块发一个请求即可拿到html源码 #!/usr/bin/env python # -*- …

爬虫 2023年4月13日
000
Python字体反爬实战案例分享

接下来我会详细讲解“Python字体反爬实战案例分享”的攻略。标题前言在网络爬虫中，常常遇到字体反爬的问题。对于这种反爬，我们可以使用 Python 中的 FontTools 库来解决。步骤以下是该案例的详细步骤：首先，我们需要使用 requests 库来获取网页内容。代码示例如下： “`python import requests url =…

python 2023年5月14日
000
爬虫-Xpath语法笔记-转载

一、选取节点常用的路劲表达式：表达式描述实例 nodename 选取nodename节点的所有子节点 xpath(‘//div’) 选取了div节点的所有子节点 / 从根节点选取 xpath(‘/div’) 从根节点上选取div节点 // 选取所有的当前节点，不考虑他们的位置 xpath(‘//div’) 选取所有的div节点 . 选取当前节…

爬虫 2023年4月13日
000
docker安装爬虫管理工具crawlab

操作系统文档 Ubuntu https://docs.docker.com/install/linux/docker-ce/ubuntu Debian https://docs.docker.com/install/linux/docker-ce/debian CentOS https://docs.docker.com/install/linux/doc…

爬虫 2023年4月16日
000
python爬虫入门教程–利用requests构建知乎API（三）

“python爬虫入门教程–利用requests构建知乎API（三）”是一篇关于使用Python爬虫抓取知乎网站数据的教程，主要讲解如何通过Python编写代码，使用requests库模拟浏览器发起HTTP请求，然后抓取知乎网站的信息内容并进行解析。该教程主要分为以下几个部分：介绍了基本的requests库使用方式，包括向URL发送GET或POST请求…

python 2023年5月14日
000
一个简单的scrapy爬虫抓取豆瓣刘亦菲的图片地址

一.第一步是创建一个scrapy项目 sh-3.2# scrapy startproject liuyifeiImagesh-3.2# chmod -R 777 liuyifeiImage/ 二.分析图片特征 1.解决分页url部分：我们爬虫的start_url是”http://movie.douban.com/celebrity/1049732/phot…

爬虫 2023年4月13日
000
Python7个爬虫小案例详解(附源码)下篇

下面我就针对这个题目详细讲解一下攻略。标题分析这个标题主要讲述了Python爬虫的7个小案例，并附带了相应的源码。攻略细节 1、文中7个小案例分别是：（1）爬取妹子图网站美女图片（2）电商网站京东的商品信息爬取（3）爬取全国高校排名信息（4）抓取知乎某个用户的信息（5）爬取58同城租房信息（6）抓取拉勾网职位信息（7）抓取猫眼电影TOP100 2、…

python 2023年5月14日
000
Python爬虫部分开篇概念讲解

先对“Python爬虫开篇概念讲解”给出一个完整的攻略，包括以下几个方面：一、什么是Python爬虫 Python爬虫是一种自动获取互联网信息的方法，是通过编写脚本程序模拟浏览器行为自动化地获取互联网上的数据，并存储到本地计算机或其他数据处理系统中。Python爬虫可以大大提高数据获取的效率和精度，是数据分析、机器学习等领域必不可少的技能。二、Pyth…

python 2023年5月14日
000

合作推广

合作推广

返回顶部