爬虫 – 169tp图片

2023年4月8日下午5:32 • 爬虫

一、目标

爬取网址 https://www.169tp.com/gaogensiwa/ 前20页的美女图片

二、准备

通过pip安装第三方库 request、PyQuery、fake_useragent

pip install request

pip install PyQuery

pip install fake_useragent

项目下新建image目录

爬虫 - 169tp图片

三、代码
import requests
from pyquery import PyQuery as pq
# 可自动生成浏览器UserAgent请求头
from fake_useragent import UserAgent
# 模拟浏览器请求头
headers = {
　　# 请求类型
　　'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
　　# 浏览器类型 (有的网址服务器检测浏览器反扒其中的一种) 可随机生成浏览器类型
　　'User-Agent': UserAgent().random
}

# 抓取每个表格图片url

def index_data(page):
　　url = 'https://www.169tp.com/gaogensiwa/list_3_{}.html'.format(page)
　　# 获取首页数据
　　response = requests.get(url,headers=headers).content.decode('gbk')
　　# 初始化网页数据
　　doc = pq(response)
　　# 取需要层级的块 list <a>

爬虫 - 169tp图片
　　data = doc('.product01 li a').items()
　　# 遍历 a 获取href 链接
　　for i in data:
　　　　detail_url = i.attr('href')
　　　　detail_data(detail_url)

# 获取详情页url

def detail_data(urls):
　　response = requests.get(urls,headers=headers).content.decode('gbk')
　　doc = pq(response)
　　img_url = doc('.big_img p img').items()
　　for i in img_url:
　　　　image_url = i.attr('src')
　　download_img(image_url)

count = 0

# 保存图片
def download_img(image_url):
　　global count
　　response = requests.get(image_url, headers=headers).content
　　# 保存文件
　　with open('image/{}.jpg'.format(count), 'ab') as f: # a追加文件 b进制写入
　　　　f.write(response)
　　count += 1

# 提取前20页 /观察分页域名变化

爬虫 - 169tp图片
for i in range(1, 20):
　　index_data(i)

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫 – 169tp图片 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

(参考)爬虫5-爬取中国大学排名情况

上一篇 2023年4月8日下午5:32

C# 爬虫批量下载文件

下一篇 2023年4月8日

python爬虫 – js逆向之猿人学第十六题webpack，忽略obfuscator

前言好久没有写猿人学的分析了，今天来分析一波打开网址：同样的，也很轻易的拿到接口，然后这个接口里的请求参数又是迷人的m，m就是我们的目标了分析老规矩，搜索：搜一堆出来，感觉都不太靠谱那咋办？先看特征，看这个长度是多少的，卧槽，这个长度有点少见了点调用栈看看：看到这个就很可疑了 …

爬虫 2023年4月12日
000
爬虫系列(八) 用requests实现天气查询

这篇文章我们将使用 requests 调用天气查询接口，实现一个天气查询的小模块，下面先贴上最终的效果图 1、接口分析虽然现在网络上有很多免费的天气查询接口，但是有很多网站都是需要注册登陆的，过程比较繁琐几经艰辛，博主终于找到一个不用注册可以直接使用的天气查询接口，以下是该接口的使用说明：接口查询格式： https://www.sojson.com/o…

爬虫 2023年4月11日
000
如何使用Selenium模拟浏览器行为？

使用Selenium可以方便地模拟用户在浏览器上的行为，可以用于爬取需要进行交互的网站数据、自动化测试等场景。下面是详细的使用Selenium模拟浏览器行为的攻略：安装Selenium Selenium是基于Python的第三方库，安装方法如下所示： pip install selenium 安装浏览器驱动 Selenium需要一个对应的浏览器驱动，用于…

爬虫 2023年4月20日
001
Python趣味爬虫之用Python实现智慧校园一键评教

让我来详细讲解一下“Python趣味爬虫之用Python实现智慧校园一键评教”的完整攻略。 1. 搭建环境首先，你需要在本地搭建好Python环境，推荐使用Anaconda或Miniconda。然后，你需要安装所必须的库，包括： requests：用于发送HTTP请求 BeautifulSoup4：用于解析HTML和XML文档 lxml：用于解析HTML…

python 2023年5月14日
000
零基础写python爬虫之使用urllib2组件抓取网页内容

完整攻略如下：零基础写Python爬虫之使用urllib2组件抓取网页内容简介如果你想学习网络爬虫，那么本文将会是一个很好的起点。我们将会使用Python的urllib2组件来抓取网页内容。 urllib2组件 urllib2是Python自带的一个HTTP客户端库，可以用来向指定的URL发送请求并获取相应的数据。以下是一些常用的方法： urllib2…

python 2023年5月14日
000
python爬虫之beautifulsoup的使用

一、Beautiful Soup的简介　　简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不需要多少代码就可以写出一个完整的应用…

爬虫 2023年4月11日
000
用Python编写简单的微博爬虫

用Python编写简单的微博爬虫攻略简介微博作为中国最大的社交媒体平台，对于数据分析和挖掘非常有用。为了获取微博的相关数据，我们需要使用爬虫对其进行抓取。本攻略将介绍如何使用Python编写简单的微博爬虫并获取有用的数据。步骤 1. 获取cookie 我们需要对微博进行模拟登陆，首先需要获取登陆后的cookie信息。可以使用chrome浏览器自带的开发…

python 2023年5月14日
000
爬虫防封IP

当抓取数据逐渐增大时，服务器的负荷会加大，会直接封掉来访IP：采取措施：　　1.创建请求头部信息：　　 headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.9 Safa…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部