用Python爬虫爬取“女神吧”上的照片。

2023年4月10日下午9:24 • 爬虫

爬取的网页链接为https://tieba.baidu.com/p/5177270774

是一个美女警花哦！

所用Python环境为：python 3.3.2 用到的库为：urllib.request re

用Python爬虫爬取“女神吧”上的照片。

下面上代码：

import urllib.request
import re

#获得url的html 源码格式，其中使用了一个通过修改User-Agent实现了隐藏
def open_url(url):
    req = urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36')
    page = urllib.request.urlopen(req)
    html = page.read().decode('utf-8') #二进制的utf-8要解码得到html代码（Unicode）
    return html


#写正则表达式，获得html代码
def get_image(html):
    p = r'<img class="BDE_Image" src="([^"]+\.jpg)"' #正则表达式 [^]中的^是取反的意思
    temp = re.findall(p,html)
    i = 0
    page = 'C:/Users/lenovo/Desktop/mm/'
    for each in temp:
        i += 1
        file = open(page+str(i)+'.jpg','wb')
        each = urllib.request.urlopen(each).read()   #将图片链接读出来写入文件中
        file.write(each)
        file.close()
        
    
def main(url):
    get_image(open_url(url))

#规定只有直接运行这个模块才能执行主程序
if __name__ == '__main__':
    url = 'https://tieba.baidu.com/p/5177270774' 
    main(url)

下面是爬取结果：

用Python爬虫爬取“女神吧”上的照片。

当然，这个爬虫是不完善的，除了四张美女图片外还多了一些慕名奇妙的图片，但是总的来说还是爬到了美女的图片的。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：用Python爬虫爬取“女神吧”上的照片。 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

pytho简单爬虫_模拟登陆西电流量查询_实现一键查询自己的校园网流量

上一篇 2023年4月10日

Python爬虫：带参url的拼接

下一篇 2023年4月10日

一个简单的python爬虫，以豆瓣妹子“http://www.dbmeizi.com/category/2?p= ”为例

本想抓取网易摄影上的图，但发现查看html源代码时找不到图片的url，但firebug却能定位得到。(不知道为什么？？？) 目标是抓取前50页的爆乳图，代码如下： import urllib2,urllib,re,os ”’ http://www.dbmeizi.com/category/2?p=% ”’ def get_url_from_douban(…

爬虫 2023年4月13日
000
爬虫之selenium使用

详细使用链接: 点击链接 selenium介绍： selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种常见的浏览器 from seleniu…

爬虫 2023年4月13日
000
python爬虫-scrapy日志

1、scrapy日志介绍 Scrapy的日志系统是实现了对python内置的日志的封装 scrapy也使用python日志级别分类 logging.CRITICAL logging.ERROE logging.WARINING logging.INFO logging.DEBUG 2、如何在python中使用日志呢？ import loggin…

爬虫 2023年4月11日
000
python爬虫入门教程–HTML文本的解析库BeautifulSoup（四）

下面是该篇文章的完整攻略：标题本文主要介绍了Python爬虫中用于解析HTML文本的库BeautifulSoup，包括BeautifulSoup库简介、如何安装、BeautifulSoup的基本用法、BeautifulSoup处理HTML文本中的各种标签及属性、使用BeautifulSoup获取HTML文本中的各种元素等。安装BeautifulSoup…

python 2023年5月14日
000
简单的抓取淘宝图片的Python爬虫

下面我会介绍一下“简单的抓取淘宝图片的Python爬虫”的完整攻略。攻略概述抓取淘宝商品图片需要用到 Python 爬虫技术。爬虫的实现流程一般为：根据淘宝商品链接，获取商品页面 HTML 源代码。从 HTML 源代码中提取出图片链接。根据图片链接，请求图片并保存到本地。实现步骤步骤1：获取商品页面 HTML 源代码使用 requests 库…

python 2023年5月14日
000
Python爬虫 —— selenium

Selenium 是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作，同时还可以获取浏览器当前呈现的页面的源代码，做到可见即可爬。对于一些 JavaScript 动态渲染的页面来说，此种抓取方式非常有效。本节中，就让我们来感受一下它的强大之处吧。 requests取消ssl验证会出现告警InsecureRequestWarning,…

爬虫 2023年4月11日
000
Python实现简单的获取图片爬虫功能示例

标题：Python实现简单的获取图片爬虫功能示例攻略背景介绍随着互联网的发展，人们需要从互联网上获取各种信息。其中获取图片是一个非常常见的需求。本文将介绍如何使用Python实现简单的获取图片爬虫功能。这种爬虫可以从指定的网站上获取所有的图片，并将这些图片下载到本地。环境准备本文所使用的开发环境为Python 3.x。请确保您的计算机上已经安装了Py…

python 2023年5月14日
000
网络爬虫（3）–Beautiful页面解析

前面2节中对页面内容的访问都是直接通过标签访问的，这样虽然也可以达到解析页面内容的目的，但是在网页复杂，页面结构发生变化时，爬虫就失效了。为了使爬虫能够更加鲁棒的工作，我们需要学习通过属性查找标签的方法。 BeautifulSoup的find()和findAll()方法： findAll(tag, attribute, recursive, …

爬虫 2023年4月13日
000

合作推广

合作推广

返回顶部