Python爬虫爬取一个网页上的图片地址实例代码

当我们使用Python进行爬取网页数据时，将其中的图片下载到本地或者进行进一步的图片处理也很有必要。因此，本文将通过一个实例代码来讲解在Python中如何爬取一个网页上的所有图片地址。

实现步骤

分析目标网页，确定需要的信息以及相关信息的所在位置。
使用requests库获取目标网页的HTML源代码。
使用BeautifulSoup库对HTML源代码进行解析，获取所需的图片地址。
将所需的图片地址保存下来，后续可以使用其进行图片的下载或处理。

示例说明

以下是一个爬取妹子图网站（https://www.meizitu.com/）上所有图片地址的代码示例。

import requests
from bs4 import BeautifulSoup

# 目标网页URL
url = 'https://www.meizitu.com/'

# 请求网页并获取HTML源代码
response = requests.get(url)
html = response.text

# 解析HTML源代码
soup = BeautifulSoup(html, 'html.parser')
imgs = soup.find_all('img')

# 获取所有图片地址
for img in imgs:
    img_url = img.get('src')
    print(img_url)

上述代码中，首先使用requests库向妹子图网站发送请求，并获取到该网页的HTML源代码。接着，使用BeautifulSoup库对HTML源代码进行解析，定位到所有图片所在的HTML标签，并获取每张图片的src属性值，也即图片的地址。

此外，我们也可以根据实际需求对代码进行改进，例如下面这个示例代码，可以获取妹子图网站某个板块下的所有图片地址，并将结果保存在一个txt文件中。

import requests
from bs4 import BeautifulSoup

# 目标网页URL
url = 'https://www.meizitu.com/a/sexy_2.html'

# 请求网页并获取HTML源代码
response = requests.get(url)
html = response.text

# 解析HTML源代码
soup = BeautifulSoup(html, 'html.parser')
imgs = soup.find_all('img')

# 获取所有图片地址
img_urls = []
for img in imgs:
    img_url = img.get('src')
    if 'https' not in img_url:
        img_url = 'https:' + img_url
    img_urls.append(img_url)

# 将图片地址保存在txt文件中
with open('img_urls.txt', 'w', encoding='utf-8') as f:
    for img_url in img_urls:
        f.write(img_url + '\n')

在上述代码中，我们主要是通过修改url来定位到妹子图网站某个板块下的所有图片地址。需要注意的是，在获取图片地址时，我们还对某些图片的地址进行了补充，因为部分地址中省略了"https："等协议信息，如果不进行补充，在后续的图片处理过程中会出现错误。

综上所述，通过上述实例代码的讲解，相信你已经学会了如何使用Python爬虫爬取网页上的所有图片地址了。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python爬虫爬取一个网页上的图片地址实例代码 - Python技术站

Python爬虫爬取一个网页上的图片地址实例代码

实现步骤

示例说明

相关文章