python做反被爬保护的方法

2023年5月14日下午10:52 • python

针对如何让Python反爬虫，我们可以列举以下几种方法。

1. 设置请求头 Headers

请求头中的User-Agent给出了客户端的相关信息，网站可以根据User-Agent判断请求来自哪里。默认情况下，Python的requests库并不会发送类似于浏览器的请求头信息，这会被很多网站认为是爬虫程序而被拒绝请求。因此在编写Python爬虫时需要添加请求头信息，伪装成浏览器的请求头信息就可以成功访问了。

你可以构造请求头信息，然后设置到requests请求中，例如：

import requests

headers = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
    "Connection": "keep-alive",
    "User-Agent": "Mozilla/5.0 "
}

response = requests.get(url, headers=headers)

2. 使用代理

正规网站很少屏蔽代理服务器，所以如果我们使用代理服务器去做爬虫，就比直接使用自己的IP更容易成功。这种方法同样需要设置请求头，使用requests库来发送代理请求。

import requests

proxies = {
    "http": "http://127.0.0.1:8080",
    "https": "http://127.0.0.1:8080"
}

response = requests.get(url, proxies=proxies)

需要注意，这里的代理服务器必须是可用的，否则会造成请求失败。同时，很多网站也会对判断代理IP的真实性进行防范。

以上是两种常见的反反爬技巧，可以有效地避免被反爬虫策略拦截。当然，这并不一定是万能的，还需结合实际情况进行调试。

最后，提醒大家，在爬取非自己拥有的数据前，请遵守相关网站的规定，以及相关法律法规。

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：python做反被爬保护的方法 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Python实现爬取房源信息的示例详解

上一篇 2023年5月14日

基于Python实现ComicReaper漫画自动爬取脚本过程解析

下一篇 2023年5月14日

python使用imap-tools模块下载邮件附件的示例

在Python中，我们可以使用imap-tools模块来下载邮件附件。本攻略将介绍如何使用imap-tools模块下载邮件附件的示例。步骤一：安装imap-tools模块在使用imap-tools模块之前，我们需要先安装它。我们可以使用pip命令来安装imap-tools模块： pip install imap-tools 步骤二：连接到IMAP服务器 …

python 2023年5月15日
000
python实现猜拳小游戏

下面是关于如何使用Python实现猜拳小游戏的完整攻略。 1. 游戏规则 1.1 猜拳的基本规则猜拳通常是玩家之间进行的游戏，双方同时出一个手势，胜负规则如下：石头赢剪刀剪刀赢布布赢石头可以使用数字来表示手势，例如：石头：1 剪刀：2 布：3 1.2 游戏流程在游戏开始的时候，系统会和玩家进行猜拳，如果出现平局，则重新进行猜拳，直到分出胜负。 …

python 2023年6月13日
000
跟老齐学Python之print详解

跟老齐学Python之print详解为什么要学习print？在Python语言中，Print()函数是最基本，最常用的函数之一。通过Print()函数，我们可以将程序中的变量或者数据输出到控制台上，从而我们可以更好地了解程序的运行情况，以及观察程序的运行结果。在实际开发中，Print()函数也是调试程序的重要工具之一。例如，我们可以通过Print()函…

python 2023年5月20日
000
C# 爬虫批量下载文件

public static void DownFile(string url, string path, string fileName) { HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url); request.UserAgent = “Mozilla/5.0 (Windows; …

爬虫 2023年4月8日
000
python获取从命令行输入数字的方法

获取从命令行输入数字的方法，可以通过Python内置的input()函数实现。使用input()函数获取用户输入的默认数据类型是字符串，所以需要将字符串转化为整数或浮点数，才能进行数值运算。下面是获取从命令行输入整数的方法： num = int(input("请输入整数：")) print("您刚刚输入的整数是："…

python 2023年6月5日
000
Python和openCV：HOG描述符检测多尺度返回负边界框

【问题标题】：Python and openCV : HOG descriptor detect multiscale returns negative bounding boxPython和openCV：HOG描述符检测多尺度返回负边界框【发布时间】：2023-04-03 04:53:01 【问题描述】：我正在使用 OpenCV 的 HOG 检测器来检…

Python开发 2023年4月8日
000
五个Python命令使用的小妙招分享

下面是“五个Python命令使用的小妙招分享”的完整攻略。命令1：pip pip 是 Python 语言中最常用的包管理器，有了它，我们可以轻松地下载、安装、升级、卸载各种 Python 包。下面我们来介绍一些 pip 命令的使用小技巧。安装多个包有时候我们需要一次性安装多个包，这时候可以使用命令： pip install package1 packa…

python 2023年6月3日
000
Python 生成所有组合

让我们来讲解Python生成所有组合的使用方法。生成所有组合 Python中，我们可以使用 itertools库中的 combinations() 函数来生成所有可能性的组合。combinations() 函数接受两个参数，分别是要生成组合的集合和组合元素的长度。以下是具体操作步骤：导入 itertools 模块在使用 itertools 库时，首先需…

python-answer 2023年3月25日
000

合作推广

合作推广

返回顶部