使用Python爬取小姐姐图片（beautifulsoup法）

下面是使用Python爬取小姐姐图片的完整攻略，过程中包含两条示例说明。

1. 前置知识

在开始之前，我们需要了解一些基本知识：

Python编程语言
爬虫的基本原理
Beautiful Soup库的基本用法

如果你对以上内容还不熟悉，可以先去了解一下相关知识。

2. 确定目标网站和页面

首先，我们需要确定一个目标网站和页面，这里我们选择的是一个美女图片网站：https://www.mzitu.com/。该网站由不同的图集组成，每个图集页面都有多张图片可以下载。

3. 分析目标页面

现在，我们需要对目标页面进行分析，找到包含图片的元素及其对应的CSS选择器。可以使用Chrome浏览器的开发者工具进行分析。

在我们选定的页面中，图片元素的标签为img，而其对应的CSS选择器为：div.main-image img，所以我们可以使用BeautifulSoup库找到这些元素。

4. 编写代码

首先，我们需要导入必要的库：

import requests
from bs4 import BeautifulSoup
import os

然后，我们需要编写一个函数，用于查找图集所有页面的URL地址：

def get_urls(url):
    headers = {
        'Referer': url,
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    html = requests.get(url, headers=headers).text
    soup = BeautifulSoup(html, 'html.parser')
    page_num = soup.find_all('span', class_='dots')[-1].previous_sibling.get_text()
    page_urls = [f'{url}/{i}' for i in range(1, int(page_num) + 1)]
    return page_urls

在这个函数里面，我们使用requests库发送GET请求，获取页面的HTML内容，然后使用BeautifulSoup库解析HTML内容，找到总页数并生成所有页面的URL地址，这里用到的是格式化字符串，可以根据需要自行构造。

接下来，我们需要编写一个函数，用于下载每个页面中的所有图片：

def download_imgs(url):
    headers = {
        'Referer': url,
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    html = requests.get(url, headers=headers).text
    soup = BeautifulSoup(html, 'html.parser')
    img_url = soup.find('div', class_='main-image').find('img')['src']
    file_name = os.path.basename(img_url)
    with open(file_name, 'wb') as f:
        f.write(requests.get(img_url, headers=headers).content)
        print(f'{file_name} 下载成功')

这个函数用于下载每一页中的图片。其中，我们使用os库获取图片的文件名，并使用requests库下载图片到本地。

最后，我们需要将get_urls和download_imgs组合起来，实现下载整个图集的功能：

url = 'https://www.mzitu.com/249897'
page_urls = get_urls(url)
for page_url in page_urls:
    download_imgs(page_url)

这里我们指定一个具体的图集页面URL，然后调用get_urls获取所有页面的URL地址，再调用download_imgs下载所有页面中的图片。

5. 示例说明

下面是两个使用Python爬取小姐姐图片的示例说明：

示例一

这个示例用于爬取 https://www.mzitu.com/ 的所有图集。

首先，我们需要编写一个函数，用于获取所有图集的URL地址：

def get_album_urls(base_url):
    album_urls = []
    for i in range(1, 20):
        url = f'{base_url}/page/{i}/'
        headers = {
            'Referer': base_url,
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        html = requests.get(url, headers=headers).text
        soup = BeautifulSoup(html, 'html.parser')
        album_links = soup.find('ul', class_='archives').find_all('a')
        if len(album_links) == 0:
            break
        else:
            album_urls.extend([link['href'] for link in album_links])
    return album_urls

这个函数用于获取所有图集的URL地址，通过分析目标网站的HTML结构，我们可以找到图集URL的CSS选择器，从而使用BeautifulSoup库来提取URL地址。

接下来，我们可以将get_album_urls和我们之前编写的下载图集函数组合起来，实现整站图片的下载：

base_url = 'https://www.mzitu.com/'
album_urls = get_album_urls(base_url)
for album_url in album_urls:
    page_urls = get_urls(album_url)
    for page_url in page_urls:
        download_imgs(page_url)

这个代码会依次下载所有图集的所有图片。

示例二

这个示例用于爬取 https://www.mm131.net/ 的所有图片。

首先，我们需要编写一个函数，用于获取所有分类的URL地址：

def get_category_urls(base_url):
    headers = {
        'Referer': base_url,
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
    html = requests.get(base_url, headers=headers).text
    soup = BeautifulSoup(html, 'html.parser')
    category_links = soup.find('div', class_='nav').find_all('a')[1:]
    category_urls = [link['href'] for link in category_links]
    return category_urls

这个函数用于获取所有分类的URL地址，通过分析目标网站的HTML结构，我们可以找到分类URL的CSS选择器，从而使用BeautifulSoup库来提取URL地址。这里我们省略了一些无关代码，只保留了关键的部分。

接下来，我们可以循环遍历所有分类，进一步获取每个分类下的图片链接，并下载图片：

base_url = 'https://www.mm131.net/'
category_urls = get_category_urls(base_url)
for category_url in category_urls:
    for i in range(1, 101):
        url = f'{category_url}list_6_{i}.html'
        headers = {
            'Referer': base_url,
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        html = requests.get(url, headers=headers).text
        soup = BeautifulSoup(html, 'html.parser')
        img_links = soup.find('div', class_='content-pic').find_all('img')
        if len(img_links) == 0:
            break
        for link in img_links:
            img_url = link['src']
            file_name = os.path.basename(img_url)
            with open(file_name, 'wb') as f:
                f.write(requests.get(img_url, headers=headers).content)
                print(f'{file_name} 下载成功')

这个代码会依次下载所有分类下的所有图片。

6. 总结

使用Python爬取小姐姐图片是一项有趣的任务，但也需要我们具有一定的编程知识和技能才能完成。在本文中，我们简要介绍了如何使用Python和BeautifulSoup库爬取小姐姐图片，同时也提供了两个示例，希望对大家有所帮助。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：使用Python爬取小姐姐图片（beautifulsoup法） - Python技术站