【发布时间】:2023-04-05 16:17:01
【问题描述】:
我有一个刮板,到今天为止,它已经运行了 18 个月,没有出现任何问题。现在我从 htlv.org 收到 403 响应,似乎无法解决问题。我的代码在下面,所以答案不是通常只添加标题。如果我打印 response.text 它说明了一些关于验证码的信息。所以我假设我必须绕过验证码或我的 ip 被阻止?请帮忙:)
import requests
url = 'https://www.hltv.org/matches'
headers = {
"Accept-Language": "en-US,en;q=0.5",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:40.0) Gecko/20100101 Firefox/40.0",
"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
"Referer": "http://thewebsite.com",
"Connection": "keep-alive"}
response = requests.get(url, headers=headers)
print response
编辑:这对我来说仍然是个谜,但今天我的代码又开始在我的主 PC 上运行了。没有对代码进行任何更改。
KokoseiJ 无法重现该问题,但 Booboo 做到了。该代码也适用于我从存储中挖掘的旧 PC,但不适用于我的主 PC。无论如何,感谢所有试图帮助我解决这个问题的人。
【问题讨论】:
-
您是否尝试过使用计算机上的网络浏览器?
-
使用网络浏览器我确实可以访问该站点
-
尝试复制浏览器发送到服务器的标头。也不要使用
Referer
标头再试一次。 -
无法复制。您可能已达到必须通过验证码解决的速率限制。
-
这就是我所担心的。谢谢。
标签:
python
python-requests
screen-scraping
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:使用 python 请求获取 403 - Python技术站