python爬不同图片分别保存在不同文件夹中的实现

下面针对该话题给出完整的攻略,包括流程和示例说明。

流程说明

要实现python爬不同图片分别保存在不同文件夹中,大致的流程可以概括为以下几个步骤:

  1. 定位需要爬取的目标页面,了解其URL及HTML结构;
  2. 使用Python爬虫库(比如requests、BeautifulSoup等),获取目标页面的HTML代码;
  3. 从HTML代码中获取所需的图像URL、标题或标签等信息;
  4. 分别保存每个图像到不同的文件夹中,需要建立好文件夹目录;
  5. 将以上过程封装成一个函数供重复调用使用。

下面通过示例进行演示。

示例说明

示例一:爬取豆瓣电影封面,按照电影名称分类保存

以下示例演示如何从豆瓣电影中爬取电影封面,并按照电影名称分类保存。具体步骤如下:

  1. 打开豆瓣电影页面(比如“https://movie.douban.com/chart”),在页面中查找需要爬取的内容,并确定其HTML结构。

  2. 编写代码进行页面抓取、信息提取、分类保存等操作。其中,可以使用 requests 和 BeautifulSoup 库,具体代码如下:

import requests
from bs4 import BeautifulSoup
import os

# 网页地址
base_url = 'https://movie.douban.com/chart'
# 请求头信息
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
}

# 获取网页HTML代码
res = requests.get(base_url, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')

# 查找电影信息
movie_list = soup.select('#content div div table tr')
for movie in movie_list:
    # 获取电影封面图片链接
    img_url = movie.select('.nbg img')[0].get('src')
    # 获取电影名称
    movie_name = movie.select('.pl2 a')[0].text.strip()
    # 保存路径(根据电影名称分类保存)
    save_path = os.path.join('douban_movies', movie_name)
    if not os.path.exists(save_path):
        os.makedirs(save_path)
    # 下载并保存图片
    img_data = requests.get(img_url).content
    with open(os.path.join(save_path, 'cover.jpg'), 'wb') as f:
        f.write(img_data)

以上代码首先使用requests库获取网页HTML代码,并使用BeautifulSoup库对HTML进行解析。通过查找对应元素的结构和属性,我们可以获取每部电影的封面图片链接和电影名称,并将它们保存到相应的变量中。接下来,利用os库来进行文件夹的创建和文件的保存操作。

运行以上代码后,即可在当前路径下生成一个名为douban_movies的文件夹,每部电影将按照其名称在该文件夹下创建一个子文件夹,并将其封面图片保存至该子文件夹下。

示例二:爬取Unsplash网站上的高清壁纸,按照标签分类保存

以下示例演示如何从Unsplash上爬取高清壁纸,并按照标签分类保存。具体步骤如下:

  1. 打开Unsplash页面(比如“https://unsplash.com/t/wallpapers”),在页面中查找需要爬取的内容,并确定其HTML结构。

  2. 编写代码进行页面抓取、信息提取、分类保存等操作。其中,同样可以使用 requests 和 BeautifulSoup 库,具体代码如下:

import requests
from bs4 import BeautifulSoup
import os

# 网页地址
base_url = 'https://unsplash.com/t/wallpapers'
# 请求头信息
headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.81 Safari/537.36'
}

# 获取网页HTML代码
res = requests.get(base_url, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')

# 查找图片信息
photo_list = soup.select('.IEpfq')
for photo in photo_list:
    # 获取图片链接、名称和标签
    img_url = photo.select('._3fPsI')[0].get('src')
    img_name = photo.select('._2Mc8_')[0].text + '.jpg'
    img_tags = photo.select('.NpuHU')[0].text.strip().split('#')[1:]
    # 根据标签创建文件夹,下载并保存图片
    for tag in img_tags:
        save_path = os.path.join('unsplash', tag)
        if not os.path.exists(save_path):
            os.makedirs(save_path)
        img_data = requests.get(img_url).content
        with open(os.path.join(save_path, img_name), 'wb') as f:
            f.write(img_data)

以上代码与示例一类似,只是在信息提取后,将图片按照标签进行分类保存。具体来说,将图片标签通过split方法分割为一个个子标签,并将其作为文件夹名称,使用os库将其创建至对应路径下。

运行以上代码后,即可在当前路径下生成一个名为unsplash的文件夹,壁纸将按照标签名分类保存在该文件夹下的不同文件夹中。

综上所述,以上就是爬不同图片分别保存在不同文件夹中实现的完整攻略,希望对你有所帮助。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python爬不同图片分别保存在不同文件夹中的实现 - Python技术站

(1)
上一篇 2023年5月19日
下一篇 2023年5月19日

相关文章

  • Python自动化之定位方法大杀器xpath

    下面是关于“Python自动化之定位方法大杀器xpath”的详细讲解攻略。 什么是Xpath? XPath是一门在XML文档中查找信息的语言。最初的设计目的是用于搜索XML文档的节点,但实际使用过程中,XPath也常常用于HTML页面元素的定位。Python中使用XPath来定位HTML元素非常方便。 XPath的使用方法 语法 XPath是用“路径表达式”…

    python 2023年5月19日
    00
  • Python实现大乐透号码随机生成

    Python实现大乐透号码随机生成攻略 在Python中实现大乐透号码随机生成可以使用random库的函数来生成随机数进行组合,同时使用for循环来生成多组号码。 步骤 导入random库:使用import random来导入random库 定义生成号码函数:使用def语句定义生成号码函数,例如下面的代码 def generate_lottery(): “”…

    python 2023年6月3日
    00
  • Django框架反向解析操作详解

    Django框架反向解析操作详解 在Django框架中,反向解析是指根据URL模式名称和参数生成URL的过程。本攻略将介绍Django框架中反向解析的操作,包括URL模式定义、反向解析函数、URL模式命名等。 步骤1:URL模式定义 在Django框架中,我们需要定义URL模式,以便反向解析生成URL。以下是URL模式定义的示例代码: from django…

    python 2023年5月15日
    00
  • Python爬虫实战演练之采集拉钩网招聘信息数据

    这里给大家详细讲解一下“Python爬虫实战演练之采集拉钩网招聘信息数据”的完整攻略。 1. 确定需求和选择工具 首先,我们要确定需求,即需要采集拉钩网的招聘信息数据。要采集的内容包括职位名称、工作地点、工作经验、学历、薪资待遇等信息。 接下来,我们需要选择合适的工具。Python是最适合用来做爬虫的语言之一,因此我们选择使用Python作为开发语言。而对于…

    python 2023年6月3日
    00
  • Python 居然可以在 Excel 中画画你知道吗

    当然,我可以为你详细讲解如何用 Python 在 Excel 中画画。下面是具体步骤的完整攻略: 准备工作 首先,我们需要安装以下依赖项:- openpyxl:Python 中用于读写 Excel 文件的库。- pillow:图像处理库,用于处理图片 我们可以使用以下命令来安装它们: pip install openpyxl pip install pill…

    python 2023年6月5日
    00
  • python 如何将office文件转换为PDF

    将Office文件转换为PDF是很有必要的,因为PDF文件兼容性更好且不易被篡改,这在工作和学习中是非常重要的。下面是将Office文件转换为PDF的完整攻略。 1. 安装Python库 转换Office文件为PDF格式需要使用Python的一个第三方库 — python-docx-pdf。在终端中执行以下命令来安装该库。 pip install pyth…

    python 2023年6月5日
    00
  • opencv实现图片模糊和锐化操作

    这里是详细讲解“opencv实现图片模糊和锐化操作”的完整攻略。 前言 OpenCV是一个开源的计算机视觉库,拥有强大的图像处理能力。本文将介绍如何使用OpenCV对图像进行模糊和锐化操作。 环境准备 在开始操作之前,我们需要先准备好以下环境: Python的安装环境 OpenCV Python库的安装 安装OpenCV库可以通过以下命令实现: pip in…

    python 2023年5月18日
    00
  • python操作excel之xlwt与xlrd

    Python操作Excel之xlwt与xlrd完整攻略 在 Python 中,我们可以使用 xlwt 和 xlrd 两个库来实现对 Excel 文件的读写操作: xlwt 用于写入 Excel 文件,即将 Python 数据写入 Excel 文件。 xlrd 用于读取 Excel 文件,即将 Excel 文件中的数据读取到 Python 中。 安装 首先我们…

    python 2023年6月5日
    00
合作推广
合作推广
分享本页
返回顶部