Python爬虫添加请求头是提高爬虫稳定性和防封IP的一种方式。实现添加请求头的方法可以有多种,下面将为大家介绍一种比较简单直观的方法。
添加请求头的代码实现
import requests
# 创建headers字典,内容可以根据实际情况酌情修改
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299'
}
# 添加headers字典到请求中
response = requests.get(url, headers=headers)
以上代码中,我们首先创建了一个headers字典,其中包含了一些请求头信息,比如User-Agent。然后将这个字典添加到了请求中,这样发起请求时,就会携带这些请求头信息。
示例1:爬取知乎首页信息
import requests
# 创建headers字典,注意此处User-Agent中间不能有头号,否则会被解析成注释
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299'
}
# 知乎首页url
url = 'https://www.zhihu.com/'
# 发起请求
response = requests.get(url, headers=headers)
# 输出状态码和响应内容
print('状态码:', response.status_code)
print('响应内容:', response.content.decode())
以上代码中,我们首先创建了一个headers字典,并将其添加到了给定的url地址中的请求中。发起到这个url的请求后,输出了状态码和响应内容。
示例2:爬取某网站的图片信息
import requests
# 创建headers字典
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 Edge/16.16299'
}
# 待爬取的图片url列表
url_list = ['https://www.example.com/image1.jpg', 'https://www.example.com/image2.jpg']
# 遍历url列表,发起请求并保存图片到本地
for url in url_list:
response = requests.get(url, headers=headers)
with open(url.split('/')[-1], 'wb') as f:
f.write(response.content)
以上代码中,我们定义了一个headers字典并遍历了一个图片url列表,将headers字典添加到每个url的请求中,并将响应的图片信息保存到本地。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python爬虫添加请求头代码实例 - Python技术站