Python使用爬虫爬取静态网页图片的方法详解

当我们浏览一个网站的时候，经常会看到一些漂亮的图片。如果我们需要将这些图片下载到本地，一个简单的方法就是使用Python写一个爬虫程序来实现。本文将会详细讲解如何使用Python爬虫爬取静态网页图片。

准备工作

在开始编写Python爬虫程序之前，需要安装几个必要的库。通过运行下面的命令可以安装这些库。

pip install requests
pip install beautifulsoup4

其中：

requests库用于发送HTTP请求并获取响应；
beautifulsoup4库用于解析HTML文档。

抓取图片

在Python中，可以使用requests库发送GET请求获取HTML文档内容，然后使用beautifulsoup4解析HTML文档，抓取其中的图片地址。以下是一个简单的示例程序。

import requests
from bs4 import BeautifulSoup
import os


url = 'http://example.com'
html = requests.get(url).content
soup = BeautifulSoup(html, 'html.parser')

image_links = []
for img in soup.find_all('img'):
    image_links.append(img.get('src'))

os.makedirs('images', exist_ok=True)
for link in image_links:
    response = requests.get(link)
    imageName = link.split('/')[-1]
    with open('images/'+imageName, 'wb') as f:
        f.write(response.content)
        print('Downloaded:%s' % imageName)

在上面的示例程序中，首先使用requests获取网站的HTML文档内容，然后使用beautifulsoup4解析HTML文档，找到其中的图片链接。然后，使用requests库下载图片，并保存到本地命名为“images”目录下。

多线程下载图片

如果从一个网站中下载大量的图片，会花费很长时间。为了提高下载速度，可以使用多线程来下载图片。以下是一个多线程下载图片的示例程序。

import requests
from bs4 import BeautifulSoup
import os
from multiprocessing.dummy import Pool as ThreadPool

url = "http://example.com"
html = requests.get(url).content
soup = BeautifulSoup(html, "html.parser")

image_links = []
for img in soup.find_all("img"):
    image_links.append(img.get("src"))

os.makedirs("images", exist_ok=True)

def download_image(link):
    response = requests.get(link)
    imageName = link.split("/")[-1]
    with open("images/" + imageName, "wb") as f:
        f.write(response.content)
        print("Downloaded:%s" % imageName)

pool = ThreadPool(4)
results = pool.map(download_image, image_links)
pool.close()
pool.join()

在上面的示例程序中，首先使用requests获取网站的HTML文档内容，然后使用beautifulsoup4解析HTML文档，找到其中的图片链接。然后，使用多线程来下载图片，并保存到本地命名为“images”目录下。通过使用多线程，可以同时下载多个图片，提高下载速度。

总结

在本文中，我们讲解了如何使用Python爬虫程序来抓取静态网页图片。使用requests库和beautiful soup4库这两个Python库，我们可以轻松实现这个功能。另外，我们还介绍了如何使用多线程来提高图片下载的效率。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：Python使用爬虫爬取静态网页图片的方法详解 - Python技术站

Python使用爬虫爬取静态网页图片的方法详解

准备工作

抓取图片

多线程下载图片

总结

相关文章