Python 开发中爬虫使用代理 Proxy 抓取网页的方法示例
在 Python 爬虫开发中,使用代理 Proxy 可以有效地避免被封 IP 或者限制访问。以下是 Python 开发中爬虫使用代理 Proxy 抓取网页的方法示例的详细介绍。
使用 requests 模块设置代理
以下是一个使用 requests 模块设置代理的示例:
import requests
# 设置代理 IP
proxies = {
'http': 'http://127.0.0.1:8080',
'https': 'http://127.0.0.1:8080'
}
# 发送请求
url = 'http://www.example.com'
response = requests.get(url, proxies=proxies)
print(response.text)
在上面的示例中,我们使用 requests 模块发送了一个 GET 请求,并设置了代理 IP 为 127.0.0.1:8080。
使用 scrapy 框架设置代理
以下是一个使用 scrapy 框架设置代理的示例:
import scrapy
class ExampleSpider(scrapy.Spider):
name = 'example'
start_urls = ['http://www.example.com']
def start_requests(self):
for url in self.start_urls:
yield scrapy.Request(url, callback=self.parse, meta={'proxy': 'http://127.0.0.1:8080'})
def parse(self, response):
print(response.text)
在上面的示例中,我们使用 scrapy 框架发送了一个 GET 请求,并设置了代理 IP 为 127.0.0.1:8080。
以上是 Python 开发中爬虫使用代理 Proxy 抓取网页的方法示例的详细介绍,希望对您有所帮助。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:Python开发中爬虫使用代理proxy抓取网页的方法示例 - Python技术站