一个简单的python爬虫，以豆瓣妹子“http://www.dbmeizi.com/category/2?p= ”为例

2023年4月13日下午9:21 • 爬虫

本想抓取网易摄影上的图，但发现查看html源代码时找不到图片的url，但firebug却能定位得到。(不知道为什么？？？)

目标是抓取前50页的爆乳图，代码如下：

import urllib2,urllib,re,os
'''
http://www.dbmeizi.com/category/2?p=%
'''
def get_url_from_douban():
    url_list=[]
    p=re.compile(r'''<img.*?src="(.+?\.jpg)''') #找出发布人的标题和url
    for i in range(1,50):
        target = r"http://www.dbmeizi.com/category/2?p=%d"%i
        # print target
        req=urllib2.urlopen(target)
        result=req.read()
        matchs=p.findall(result)
        url_list.extend(matchs)
        # print matchs
        # print "-----"*40
    return url_list
def download_pic(url_list):
    # print url_lists
    count=0
    if not os.path.exists('/tmp/pic'):
        os.mkdir('/tmp/pic/')
    for url in url_list:
        urllib.urlretrieve(url,'/tmp/pic/'+str(count)+'.jpg')
        count+=1


if __name__=='__main__':
    # start_time=time.time()
    print "start getting url..."
    url_lists=get_url_from_douban()
    print "url getted! downloading..."
    download_pic(url_lists)
    print "download finish!!!"
    # cost_time=time.time() - start_time()
    # print cost_time
    # download_pic(url_lists)

－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

/System/Library/Frameworks/Python.framework/Versions/2.7/bin/python /Users/lsf/PycharmProjects/some_subject/get_doubanmeizi_pic.py
start getting url...
url getted! downloading...
download finish!!!

Process finished with exit code 0

运行结果如图：

一个简单的python爬虫，以豆瓣妹子“http://www.dbmeizi.com/category/2?p= ”为例

只是一个简单的实现方式，没有考虑性能，速度挺慢的。

ps:贴图会不会被查水表！！？？

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：一个简单的python爬虫，以豆瓣妹子“http://www.dbmeizi.com/category/2?p= ”为例 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

上一篇 2023年4月13日

一个简单的scrapy爬虫抓取豆瓣刘亦菲的图片地址

下一篇 2023年4月13日

通过wireshark获取应用接口并使用爬虫爬取网站数据（二）

接上文找到接口之后连续查看了几个图片，结果发现图片都很小，于是用手机下载了一个用wireshark查看了一下url 之前接口的是 imges_min下载的时候变成了images soga，知道之后立马试了一下果然有效，但是总不能一个一个的查看下载吧于是连夜写了个java爬虫下面是代码 package com.feng.main; import …

爬虫 2023年4月11日
000
爬虫再探实战（五）———爬取APP数据——超级课程表【三】——日期时间分析

　　　　接着整理一下时间和日期与发帖量的关系。　　　　PROJECT2：日期（选取2015整年）　　　　代码如下：（这里的 kebiao_all.xlsx 是之前抓到的全部的数据） import xlrd import xlsxwriter # 获取数据的时间列表—–>dates_list fname = ‘kebiao_all.xlsx’ …

爬虫 2023年4月10日
000
爬虫

JS逆向之补环境过瑞数详解

纯补环境黑盒过瑞数 JS逆向之补环境过瑞数详解 “瑞数” 是逆向路上的一座大山，是许多JS逆向者绕不开的一堵围墙，也是跳槽简历上的一个亮点，我们必须得在下次跳槽前攻克它！！好在现在网上有很多讲解瑞数相关的文章，贴心的一步一步教我们去分析瑞数流程，分析如何去扣瑞数逻辑，企图以此教会我们 (手动狗头)。却鲜有文章详细去讲解如何通过纯补环境的方式过瑞数。今天，它…

2023年4月8日
000
python实现知乎高颜值图片爬取

下面是“python实现知乎高颜值图片爬取”的完整攻略：知乎高颜值图片爬取 1. 确认目标在开始爬取之前，我们需要明确自己需要爬取的内容。本次爬取的目标是知乎上发布的高颜值图片，例如：https://www.zhihu.com/question/350483283/answer/1015350064 2. 获取网页源代码为了能够得到该问题下所有的回答，…

python 2023年5月14日
000
python网络爬虫 CrawlSpider使用详解

Python网络爬虫CrawlSpider使用详解随着互联网的发展，越来越多的网站提供了大量的数据和信息。这些数据对于很多人来说都是非常有价值的，但是手动抓取这些数据是非常繁琐和耗时的。因此，自动化的网络爬虫成为了非常重要的一项技术。在Python中，有很多网络爬虫的库和框架可以用来实现自动化的数据抓取和解析。其中，Scrapy框架就是非常流行的一个Py…

python 2023年5月14日
000
爬虫—Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。其可以应用在数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛，可以用于数据挖掘…

爬虫 2023年4月13日
000
通过wireshark获取应用接口并使用爬虫爬取网站数据（三）

我的git地址唯空自取源码请上git上下载，包含所需jar包接上文浏览一部分图片之后发现了个问题，图片还是太小普遍不超过300k，而且很多图片上面都有另外一个网站的水印果断点进去看看，果然不一样。图片全是高清的然后知道了原来那个应用里面的图片全是从这个网站里面爬的，而且还都是压缩过的文件，太无耻了。。。找到高清图该下手了于是仿照之前那个模式…

爬虫 2023年4月11日
000
python之微信爬虫

调查自己微信中好友的数据分析代码如下 1 # -*- coding: utf-8 -*- 2 “”” 3 Created on Wed Jun 5 12:33:27 2019 4 5 @author: m1353 6 “”” 7 8 from wxpy import Bot 9 import openpyxl 10 from pyecharts imp…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部