Python爬虫爬取网站图片的完整攻略
本攻略将介绍如何使用Python爬虫爬取网站图片。以下是一个示例代码演示如何使用Python和requests库爬取网站图片:
import requests
import os
# 请求URL
url = 'https://www.example.com/images/'
# 发送请求
response = requests.get(url)
# 解析响应
html = response.text
# 提取图片URL
img_urls = re.findall('img src="(.*?)"', html)
# 下载图片
for img_url in img_urls:
img_name = os.path.basename(img_url)
img_path = os.path.join('images', img_name)
img_data = requests.get(img_url).content
with open(img_path, 'wb') as f:
f.write(img_data)
在上面的代码中,我们首先定义请求的URL。然后,我们使用requests库发送请求,并解析响应。接着,我们使用正则表达式提取图片URL。然后,我们遍历图片URL,并下载图片到本地。
以下是另一个示例代码,演示如何使用Python和BeautifulSoup库爬取网站图片:
import requests
from bs4 import BeautifulSoup
import os
# 请求URL
url = 'https://www.example.com/images/'
# 发送请求
response = requests.get(url)
# 解析响应
soup = BeautifulSoup(response.text, 'html.parser')
# 提取图片URL
img_urls = []
for img in soup.find_all('img'):
img_url = img.get('src')
if img_url.startswith('http'):
img_urls.append(img_url)
# 下载图片
for img_url in img_urls:
img_name = os.path.basename(img_url)
img_path = os.path.join('images', img_name)
img_data = requests.get(img_url).content
with open(img_path, 'wb') as f:
f.write(img_data)
在上面的代码中,我们首先定义请求的URL。然后,我们使用requests库发送请求,并使用BeautifulSoup库解析HTML响应。接着,我们遍历HTML响应中的所有图片,并提取图片URL。然后,我们遍历图片URL,并下载图片到本地。
总结
本攻略介绍了如何使用Python爬虫爬取网站图片。我们可以使用requests库发送请求,并使用正则表达式或BeautifulSoup库解析HTML响应。我们还可以将图片下载到本地。无论是在数据分析、机器学习还是其他领域,爬取网站图片都是一个非常有用的技能。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python爬虫爬取网站图片 - Python技术站