让我们来详细讲解一下 Python 爬取网站图片并保存的实现攻略。
一、思路
爬取网站图片并保存的思路大概分为以下几个步骤:
- 分析目标网站的 HTML 结构,找到图片的所在标签和属性;
- 获取网站内容;
- 解析网站内容,提取出图片的 URL;
- 下载图片到本地;
- 保存图片。
二、代码实现
1. 简单示例
下面是 Python 简单爬取图片的代码:
import requests
url = 'https://example.com/image.jpg'
response = requests.get(url)
with open('image.jpg', 'wb') as f:
f.write(response.content)
通过 requests
库获取图片数据,并将其保存到本地。response.content
返回的是图片的二进制数据,使用 - wb
模式打开文件。这个方法只适用于单个图片的爬取。
2. 爬取页面中所有图片的示例
import os
import re
import requests
url = 'https://example.com'
response = requests.get(url)
html = response.text
pattern = re.compile('<img.*?src="(.*?)".*?>')
img_urls = re.findall(pattern, html)
if not os.path.exists('images'):
os.makedirs('images')
for url in img_urls:
response = requests.get(url)
filename = os.path.join('images', url.split('/')[-1])
with open(filename, 'wb') as f:
f.write(response.content)
首先通过 requests
库获取网站的 HTML 页面,然后通过正则表达式 re
提取出所有图片的 URL。然后检查 images
目录是否存在,如果不存在则创建该目录。最后遍历所有图片 URL,下载图片到本地,并存放在 images
目录中。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python爬取网站图片并保存的实现示例 - Python技术站