以下是关于“Python 爬虫请求头设置代码”的完整攻略:
Python 爬虫请求头设置代码
在进行爬虫时,为了避免被网站识别为机器人,我们需要设置请求头。以下是 Python 爬虫请求头设置代码的详细介绍。
使用 requests 库
requests 是 Python 中常用的 HTTP 请求库,可以用于爬虫。以下是使用 requests 库设置请求头的示例:
import requests
url = 'http://www.example.com'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
response = requests.get(url, headers=headers)
在上面的示例中,我们使用 requests 库发送了一个 GET 请求,并在请求头 headers 中指定了 User-Agent。
使用 urllib 库
urllib 是 Python 自带的 HTTP 请求库,可以用于爬虫。以下是使用 urllib 库设置请求头的示例:
from urllib import request
url = 'http://www.example.com'
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
req = request.Request(url, headers=headers)
response = request.urlopen(req)
在上面的示例中,我们使用 urllib 库发送了一个 GET 请求,并在请求头 headers 中指定了 User-Agent。
使用自定义函数
我们也可以自定义函数设置请求头。以下是使用自定义函数设置请求头的示例:
import requests
url = 'http://www.example.com'
def get_headers():
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}
return headers
response = requests.get(url, headers=get_headers())
在上面的示例中,我们定义了一个名为 get_headers() 的函数,用于生成请求头 headers。然后,我们使用 requests 库发送了一个 GET 请求,并在请求头 headers 中指定了 User-Agent。
以上是 Python 爬虫请求头设置代码的详细介绍,希望对您有所帮助。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python爬虫请求头设置代码 - Python技术站