Python 爬虫：煎蛋网妹子图

2023年4月11日上午2:25 • 爬虫

使用 Headless Chrome 替代了 PhatomJS。

图片保存到指定文件夹中。

 1 import requests
 2 from bs4 import BeautifulSoup
 3 from selenium import webdriver
 4 from selenium.webdriver.chrome.options import Options
 5 
 6 chrome_options = Options()
 7 chrome_options.add_argument('--headless')
 8 chrome_options.add_argument('--disable-gpu')
 9 driver = webdriver.Chrome(chrome_options=chrome_options)
10 dir = 'C:/spider-download/jandan-girls/'
11 img_urls = []
12 page_urls = ["http://jandan.net/ooxx/page-{}#comments".format(str(i)) for i in range(5, 6)]
13 
14 def GetImgUrl(u):
15     driver.get(u)
16     html = driver.page_source
17     soup = BeautifulSoup(html, 'lxml')
18     images = soup.select('a.view_img_link')
19     for i in images:
20         t = i.get('href')
21         if str('gif') in str(t):
22             pass
23         else:
24             img_url = 'http:' + t
25             img_urls.append(img_url)
26 
27 def DownloadImg():
28     n = 1
29     for i in img_urls:
30         print('第 ' + str(n) + ' 张 ... ', end='')
31         with open(dir + i[-20:], 'wb') as f:
32             f.write(requests.get(i).content)
33         print('OK!')
34         n = n + 1
35 
36 for u in page_urls:
37     GetImgUrl(u)
38 print('*** 开始下载 ***')
39 DownloadImg()
40 print('*** 下载完成 ***')

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python 爬虫：煎蛋网妹子图 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

python爬虫实验

上一篇 2023年4月11日

Python 爬虫杂记 – Chrome Headless

下一篇 2023年4月11日

爬虫的cookie

cookie 作用:保存客户端的相关状态在请求中携带cookie,在爬虫中如果遇到了cookie的反爬如何处理? 手动处理在抓包工具中捕获cookie,将其封装在headers中应用场景:cookie没有有效时长且不是动态变化自动处理使用session机制使用场景:动态变化的cookie session对象:该对象和requests模块用法几乎一…

爬虫 2023年4月8日
000
如何使用PhantomJS模拟浏览器行为？

PhantomJS是一个流行的无头浏览器，它可以模拟浏览器的行为，并能够进行网页截图、网络监测、网页自动化等任务。在这里，我将为你详细讲解如何使用PhantomJS模拟浏览器行为。安装PhantomJS 首先需要在官方网站(https://phantomjs.org/) 下载并安装PhantomJS。使用示例在这里，我将为你演示两个基本的用例：用例一…

爬虫 2023年4月20日
000
python爬虫爬取大众点评并导入redis

直接上代码，导入redis的中文编码没有解决，日后解决了会第一时间上代码！新手上路，多多包涵！ # -*- coding: utf-8 -*- import re import requests from time import sleep, ctime from urllib.request import urlopen from urllib.reque…

爬虫 2023年4月8日
000
Python 爬虫多线程详解及实例代码

Python 爬虫多线程详解及实例代码简介本文主要介绍使用 Python 编写爬虫时如何使用多线程进行爬取优化。在爬虫程序中，请求网页数据是很常见的操作，但是一个请求需要等待相应的时间，这样在等待的时候程序就阻塞，导致程序运行效率低下。而使用多线程能够使程序并发请求数据，从而提高程序运行效率。多线程编程使用 threading 库创建多线程 Pyth…

python 2023年5月14日
000
Python大数据之从网页上爬取数据的方法详解

Python大数据之从网页上爬取数据的方法详解本文将详细讲解如何使用Python爬取网页上的数据。一、Python库介绍 Python有多个库可以用于爬取网页上的数据，常用的有以下几个： requests：用于发送HTTP请求和获取响应数据。 BeautifulSoup：用于解析HTML文档，提取需要的信息。 pandas：用于处理数据，分析统计等。 s…

python 2023年5月14日
001
爬虫报错

今天在玩爬虫的时候出现了这个信息： selenium.common.exceptions.ElementClickInterceptedException: Message: element click intercepted: Element <a class=”btn btn-default” onclick=”SEARCH.page_jump(1…

爬虫 2023年4月12日
000
Python并发爬虫常用实现方法解析

Python并发爬虫常用实现方法解析前言随着互联网的发展，数据已经成为企业和个人获取商业价值的一种重要手段。其中，网络爬虫和数据挖掘技术也同样成为了网络数据获取的关键技术。而在实际应用中，爬虫的爬取效率和并发能力也成为了评价一个爬虫质量的重要指标。所以，在爬虫开发中的并发处理技术是必须掌握的。本文主要介绍在Python中的爬虫并发处理技术，通过学习并实…

python 2023年5月14日
000
scrapy框架下爬虫实现详情页抓取

以爬取阳光阳光热线问政平台网站为例，进行详情页的爬取。 1 # -*- coding: utf-8 -*- 2 import scrapy 3 from yanguang.items import YanguangItem 4 5 class SunSpider(scrapy.Spider): 6 name = ‘sun’ 7 allowed_domai…

爬虫 2023年4月10日
000

合作推广

合作推广

返回顶部