【问题标题】:Getting 403 with python requests使用 python 请求获取 403
【发布时间】:2023-04-05 16:17:01
【问题描述】:

我有一个刮板,到今天为止,它已经运行了 18 个月,没有出现任何问题。现在我从 htlv.org 收到 403 响应,似乎无法解决问题。我的代码在下面,所以答案不是通常只添加标题。如果我打印 response.text 它说明了一些关于验证码的信息。所以我假设我必须绕过验证码或我的 ip 被阻止?请帮忙:)

import requests

url = 'https://www.hltv.org/matches'
headers = {
    "Accept-Language": "en-US,en;q=0.5",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:40.0) Gecko/20100101 Firefox/40.0",
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
    "Referer": "http://thewebsite.com",
    "Connection": "keep-alive"}
response = requests.get(url, headers=headers)
print response

编辑:这对我来说仍然是个谜,但今天我的代码又开始在我的主 PC 上运行了。没有对代码进行任何更改。
KokoseiJ 无法重现该问题,但 Booboo 做到了。该代码也适用于我从存储中挖掘的旧 PC,但不适用于我的主 PC。无论如何,感谢所有试图帮助我解决这个问题的人。

【问题讨论】:

  • 您是否尝试过使用计算机上的网络浏览器?
  • 使用网络浏览器我确实可以访问该站点
  • 尝试复制浏览器发送到服务器的标头。也不要使用Referer 标头再试一次。
  • 无法复制。您可能已达到必须通过验证码解决的速率限制。
  • 这就是我所担心的。谢谢。

标签:
python
python-requests
screen-scraping