python做反被爬保护的方法

针对如何让Python反爬虫,我们可以列举以下几种方法。

1. 设置请求头 Headers

请求头中的User-Agent给出了客户端的相关信息,网站可以根据User-Agent判断请求来自哪里。默认情况下,Python的requests库并不会发送类似于浏览器的请求头信息,这会被很多网站认为是爬虫程序而被拒绝请求。因此在编写Python爬虫时需要添加请求头信息,伪装成浏览器的请求头信息就可以成功访问了。

你可以构造请求头信息,然后设置到requests请求中,例如:

import requests

headers = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
    "Connection": "keep-alive",
    "User-Agent": "Mozilla/5.0 "
}

response = requests.get(url, headers=headers)

2. 使用代理

正规网站很少屏蔽代理服务器,所以如果我们使用代理服务器去做爬虫,就比直接使用自己的IP更容易成功。这种方法同样需要设置请求头,使用requests库来发送代理请求。

import requests

proxies = {
    "http": "http://127.0.0.1:8080",
    "https": "http://127.0.0.1:8080"
}

response = requests.get(url, proxies=proxies)

需要注意,这里的代理服务器必须是可用的,否则会造成请求失败。同时,很多网站也会对判断代理IP的真实性进行防范。

以上是两种常见的反反爬技巧,可以有效地避免被反爬虫策略拦截。当然,这并不一定是万能的,还需结合实际情况进行调试。

最后,提醒大家,在爬取非自己拥有的数据前,请遵守相关网站的规定,以及相关法律法规。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python做反被爬保护的方法 - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • python使用imap-tools模块下载邮件附件的示例

    在Python中,我们可以使用imap-tools模块来下载邮件附件。本攻略将介绍如何使用imap-tools模块下载邮件附件的示例。 步骤一:安装imap-tools模块 在使用imap-tools模块之前,我们需要先安装它。我们可以使用pip命令来安装imap-tools模块: pip install imap-tools 步骤二:连接到IMAP服务器 …

    python 2023年5月15日
    00
  • python实现猜拳小游戏

    下面是关于如何使用Python实现猜拳小游戏的完整攻略。 1. 游戏规则 1.1 猜拳的基本规则 猜拳通常是玩家之间进行的游戏,双方同时出一个手势,胜负规则如下: 石头赢剪刀 剪刀赢布 布赢石头 可以使用数字来表示手势,例如: 石头:1 剪刀:2 布:3 1.2 游戏流程 在游戏开始的时候,系统会和玩家进行猜拳,如果出现平局,则重新进行猜拳,直到分出胜负。 …

    python 2023年6月13日
    00
  • 跟老齐学Python之print详解

    跟老齐学Python之print详解 为什么要学习print? 在Python语言中,Print()函数是最基本,最常用的函数之一。通过Print()函数,我们可以将程序中的变量或者数据输出到控制台上,从而我们可以更好地了解程序的运行情况,以及观察程序的运行结果。 在实际开发中,Print()函数也是调试程序的重要工具之一。例如,我们可以通过Print()函…

    python 2023年5月20日
    00
  • C# 爬虫批量下载文件

    public static void DownFile(string url, string path, string fileName) { HttpWebRequest request = (HttpWebRequest)WebRequest.Create(url); request.UserAgent = “Mozilla/5.0 (Windows; …

    爬虫 2023年4月8日
    00
  • python获取从命令行输入数字的方法

    获取从命令行输入数字的方法,可以通过Python内置的input()函数实现。 使用input()函数获取用户输入的默认数据类型是字符串,所以需要将字符串转化为整数或浮点数,才能进行数值运算。 下面是获取从命令行输入整数的方法: num = int(input("请输入整数:")) print("您刚刚输入的整数是:"…

    python 2023年6月5日
    00
  • Python和openCV:HOG描述符检测多尺度返回负边界框

    【问题标题】:Python and openCV : HOG descriptor detect multiscale returns negative bounding boxPython和openCV:HOG描述符检测多尺度返回负边界框 【发布时间】:2023-04-03 04:53:01 【问题描述】: 我正在使用 OpenCV 的 HOG 检测器来检…

    Python开发 2023年4月8日
    00
  • 五个Python命令使用的小妙招分享

    下面是“五个Python命令使用的小妙招分享”的完整攻略。 命令1:pip pip 是 Python 语言中最常用的包管理器,有了它,我们可以轻松地下载、安装、升级、卸载各种 Python 包。下面我们来介绍一些 pip 命令的使用小技巧。 安装多个包 有时候我们需要一次性安装多个包,这时候可以使用命令: pip install package1 packa…

    python 2023年6月3日
    00
  • Python 生成所有组合

    让我们来讲解Python生成所有组合的使用方法。 生成所有组合 Python中,我们可以使用 itertools库中的 combinations() 函数来生成所有可能性的组合。combinations() 函数接受两个参数,分别是要生成组合的集合和组合元素的长度。以下是具体操作步骤: 导入 itertools 模块 在使用 itertools 库时,首先需…

    python-answer 2023年3月25日
    00
合作推广
合作推广
分享本页
返回顶部