python 爬虫出现403禁止访问错误详解

2023年6月3日下午12:45 • python

yizhihongxing

当使用Python进行网络爬虫时，可能会遇到被网站拒绝访问的情况，出现403 Forbidden错误。这种错误是由于目标网站的服务器禁止程序访问或者限制了访问请求的频率。下面是解决这种问题的完整攻略。

1.使用 User-Agent/Header 伪装请求头

许多网站可以检测到其服务器是否被网络爬虫访问，如果检测到则会拒绝访问。因此我们可以使用 User-Agent 和 Header 来伪装访问请求头，模拟浏览器向服务器发送请求。Python中使用 requests 库可以轻松实现。

import requests

url = "https://www.example.com"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
res = requests.get(url, headers=headers)
print(res.text)

其中，User-Agent 字段用来描述浏览器种类及版本，这是网站检测爬虫的主要方法。Header 字段则包含HTTP请求头中除了 cookie 和 user agent 之外的其他内容。

2.避免过于频繁的请求

频繁的重复请求很容易被目标网站识别为网络爬虫行为，所以我们需要控制请求的频率，避免过于频繁地访问目标网站。我们可以使用 Python 自带的 time 模块中的 sleep 函数进行延迟。

示例代码如下：

import requests
import time

url = "https://www.example.com"
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}

for i in range(5):
    res = requests.get(url, headers=headers)
    print(res.text)
    time.sleep(1)

上述代码中，range(5) 控制了访问目标网站的次数为5次。每次请求后使用 time.sleep(1) 函数进行延迟1秒，控制请求的频率。通常来说，请求过于频繁可能会被目标网站识别为异常行为，因此我们需要适当延长休眠时间。

综上，以上两个方法一般可以解决Python爬虫403禁止访问错误。当然，还有一些其他的方法，如更换IP、使用Session保持登录状态等，但在大多数情况下，上述方法已经足够使用。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python 爬虫出现403禁止访问错误详解 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

用python爬虫批量下载pdf的实现

上一篇 2023年6月3日

Python基于PycURL自动处理cookie的方法

下一篇 2023年6月3日

关于Pycharm安装第三方库超时 Read time-out的问题

当在Pycharm中安装第三方库时，有时会出现“Read timed out”的错误，这是因为在下载过程中连接超时导致的。以下是解决此问题的完整攻略。问题原因 Pycharm在安装第三方库时，会从PyPi（Python Package Index）进行下载。但是由于网络原因或服务器端限制，可能会导致下载过程中连接超时。解决方法方法一：更改PyPi镜像源…

python 2023年5月13日
000
tkinter如何实现打开文件对话框并获取文件绝对路径

下面是关于tkinter如何实现打开文件对话框并获取文件绝对路径的完整攻略。 1. 导入必要模块在使用tkinter实现打开文件对话框之前，需要先导入tkinter和filedialog这两个模块。其中，tkinter模块是Python自带的GUI模块，而filedialog模块是用来打开文件对话框的工具包。示例代码： import tkinter as…

python 2023年6月13日
001
Python计算一个给定时间点前一个月和后一个月第一天的方法

下面是关于“Python计算一个给定时间点前一个月和后一个月第一天的方法”的攻略，步骤如下： 1.获取给定时间点首先，我们需要获取给定的时间点。在Python中，常用的时间处理模块是datetime，可以通过以下代码获取当前时间： import datetime now = datetime.datetime.now() # 获取当前时间如果有一个字符串…

python 2023年6月2日
000
python如何统计序列中元素

针对你的问题，我将给出一个完整的Markdown文本，以提供详细的解释和示例说明。如何统计Python序列中元素在Python中，有几种可以用来统计元素的方法和函数。下面我们将分别介绍这些方法和函数，并提供可运行的代码示例。统计元素数量对于一个序列，Python内置的 len() 函数可以用来返回其包含元素的数量。例如，对于一个包含 5 个元素的列表…

python 2023年5月13日
000
Python调用REST API接口的几种方式汇总

以下是关于“Python 调用 REST API 接口的几种方式汇总”的完整攻略： Python 调用 REST API 接口的几种方式汇总在 Python 中，我们可以使用多种方式调用 REST API 接口。以下是 Python 调用 REST API 接口的几种方式汇总。使用 requests 库 requests 是 Python 中常用的 HT…

python 2023年5月15日
001
PyQt中实现自定义工具提示ToolTip的方法详解

PyQt中实现自定义工具提示ToolTip的方法详解 PyQt是一个基于Python的GUI编程框架，它提供了丰富的GUI组件和工具，可以帮助开发者快速构建高质量的GUI应用程序。本文将详细讲解PyQt中实现自定义工具提示ToolTip的方法，包括QToolTip类的使用、自定义ToolTip的实现、ToolTip的样式设置等内容，并提供两个示例。 QToo…

python 2023年5月15日
000
python的常用模块之collections模块详解

Python的常用模块之collections模块详解 1. 什么是collections模块 Python提供了一个比较重要的模块：collections，这个模块包含了一些特殊容器类型，比原生的list、dict、tuple、set等容器类型要强大得多。 collections是Python内建的一个集合模块，提供了一系列有用的集合类，是对dict、li…

python 2023年5月13日
000
Python中输入和输出（打印）数据实例方法

作为Python程序员，输入和输出数据通常是我们的必备技能之一，Python提供了多种实例方法可以很方便地实现这个目标，下面我们就来详细讲解一下这些实例方法。输入数据的实例方法 Python中实现输入数据的方法通常使用input()函数，它的形式如下： input([prompt]) 其中prompt是一个字符串，用于表示输入时的提示信息。如果没有指定pr…

python 2023年5月19日
000

合作推广

合作推广

返回顶部