Python爬虫抓取煎蛋(jandan.net)无聊图

2023年4月11日下午10:15 • 爬虫

 1 #!/usr/bin/python
 2 #encoding:utf-8
 3 '''
 4 @python 3.6.1
 5 @author: 1109159477@qq.com
 6 @create date: 20170611
 7 
 8 '''
 9 import requests
10 import urllib
11 import re
12 import os
13 
14 #当前最大页数
15 url='http://jandan.net/pic'
16 data=urllib.request.urlopen(url).read().decode('utf-8')
17 max_page_num=re.findall(r'<span class.*current-comment-page.*?>\[(.*?)\]</span>',data)[1]
18 
19 def download_pic(start_page,stop_page,download_file):
20     for num in range(start_page,stop_page):
21         os.chdir(download_file)#图片保存目录
22         url='http://jandan.net/pic/page-%s' % num
23         data=urllib.request.urlopen(url).read().decode('utf-8')
24         pics=re.findall(r'<a href="//(.*?)" target.*?</a><br />',data, re.I|re.S|re.M)
25         for i in pics:
26             i='http://'+i
27             r=requests.get(i)
28             pic_name=i[28:100]
29             with open(pic_name,'wb') as f:
30                 f.write(r.content)
31                 f.close()
32 
33 if __name__=='__main__':
34     print('当前最大页数为:  %s' % max_page_num)
35     page1,page2=input('请输入要下载页数范围，例如     500,513 :').split(',')  
36     download_pic(int(page1),int(page2),r'C:\Users\samsung\Desktop\jd_pics')
37

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python爬虫抓取煎蛋(jandan.net)无聊图 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫利用keep-alive实现“减员增效”

上一篇 2023年4月11日

简单爬虫爬去51job职位

下一篇 2023年4月11日

爬虫之 Requests库的基本使用

引入 Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。警告：非专业使用其他 HTTP 库会导致危险的副作用，包括：安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。今日概要基于requests的get请求基于requests模块的post请求基于requests模块ajax的get请求基…

爬虫 2023年4月13日
000
当当网爬虫

当当网爬虫利用python的requests 库和lxml库，来爬取当当网的图书信息，包括图书名称，图书购买页面url和图书价格，本次以爬取python书籍为例 1、确定url地址进入当当网，搜索python书籍，得到如下所以可以知道，当你搜索书籍时，书籍的名字会放在key的后面 2、获取地址后，就发送请求获取数据，再返回element对象 3、在Ch…

爬虫 2023年4月12日
000
2017.07.24 Python网络爬虫之logging模块

1.Logging模块，顾名思义就是针对日志的，到目前为止，所有的程序标准输出（输出到屏幕）都是使用print函数，Logging模块可以代替print函数的功能，并将标准输出输入到日志文件中保存起来，而且利用logging模块可以部分替代debug的功能，给程序排错 2.logging模块有6个级别：（也可以自定义级别），这些级别的用处是，先将自己的日…

爬虫 2023年4月11日
000
python 爬虫如何正确的使用cookie

Python爬虫如何正确使用cookie的完整攻略什么是cookie Cookie，指的是网站为了辨别用户身份，维护登录态，而储存在用户本地终端上的数据。通俗的来讲，当我们在浏览器里面登录某个网站时，这个网站会向我们浏览器中写入一些数据，这就是cookie。爬虫模拟登录网站时需要注意的是，要在请求头中加入cookie，模拟用户已经通过登录验证的状态。否则…

python 2023年5月14日
000
爬虫系列之第3章-Selenium模块

简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器安装 1 下载驱动 http://npm.taobao.org/mirrors/chrom…

爬虫 2023年4月12日
000
Traceback (most recent call last):异常(爬虫会比较常遇到)

通常很难出现这样的错误。只能一点点排除： 1.磁盘空间满了。比如/tmp, /var 或者是/分区满了。 2.文件读写错误，在临时目录里，某些文件被锁，无法读写导致 3.内存不足（这个可能性小），你可以将占用内存多的程序去掉 4.你是在虚拟机里运行，可能内存访问函数不能正确使用 5.有防火墙的问题 6.可能是权限的问题，比如某些程序需要超级用户的权限 …

爬虫 2023年4月11日
000
Python爬虫开发与项目实战

关于Python爬虫开发与项目实战的攻略，我可以给您详细的介绍。简介 Python爬虫是一种快速获取互联网数据的方法，可以方便地从各种网站中抓取数据，然后对这些数据进行分析、处理和可视化展示。 “Python爬虫开发与项目实战”主要讲解了爬虫的基本知识和实战项目，从爬虫程序的基础构建、网页解析、数据存储、反爬虫和代理ip的使用等方面进行了详细的讲解。爬虫…

python 2023年5月14日
000
网络爬虫（httpwebrequest）驴评网信息为例

之前写过一篇关于用webBrowser抓取动态网页信息的随笔。正如文中提到的，速度是硬伤，并且如果是非动态信息则不必这么麻烦，最近正好有一需求：抓取“驴评网”上的信息1、所有的州、国家、省、市、区名称2、该市的所有景点信息（该网站中，大部分都是以市级作为最后的支节点，如果是以区作为最终节点的则以区为单位获取相应景点信息）3、该市的所有酒店信息首先，我们需要…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部