python做反被爬保护的方法

yizhihongxing

针对如何让Python反爬虫,我们可以列举以下几种方法。

1. 设置请求头 Headers

请求头中的User-Agent给出了客户端的相关信息,网站可以根据User-Agent判断请求来自哪里。默认情况下,Python的requests库并不会发送类似于浏览器的请求头信息,这会被很多网站认为是爬虫程序而被拒绝请求。因此在编写Python爬虫时需要添加请求头信息,伪装成浏览器的请求头信息就可以成功访问了。

你可以构造请求头信息,然后设置到requests请求中,例如:

import requests

headers = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8",
    "Accept-Encoding": "gzip, deflate, br",
    "Accept-Language": "zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3",
    "Connection": "keep-alive",
    "User-Agent": "Mozilla/5.0 "
}

response = requests.get(url, headers=headers)

2. 使用代理

正规网站很少屏蔽代理服务器,所以如果我们使用代理服务器去做爬虫,就比直接使用自己的IP更容易成功。这种方法同样需要设置请求头,使用requests库来发送代理请求。

import requests

proxies = {
    "http": "http://127.0.0.1:8080",
    "https": "http://127.0.0.1:8080"
}

response = requests.get(url, proxies=proxies)

需要注意,这里的代理服务器必须是可用的,否则会造成请求失败。同时,很多网站也会对判断代理IP的真实性进行防范。

以上是两种常见的反反爬技巧,可以有效地避免被反爬虫策略拦截。当然,这并不一定是万能的,还需结合实际情况进行调试。

最后,提醒大家,在爬取非自己拥有的数据前,请遵守相关网站的规定,以及相关法律法规。

本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python做反被爬保护的方法 - Python技术站

(0)
上一篇 2023年5月14日
下一篇 2023年5月14日

相关文章

  • 在Python中调用Ping命令,批量IP的方法

    以下是调用Ping命令批量IP的方法: 1. 通过subprocess模块调用Ping命令 subprocess模块提供了调用系统命令的功能,可以通过它来调用Ping命令。具体步骤如下: 从标准库中导入subprocess模块; 使用subprocess.Popen方法调用系统命令,传入参数,如序列类型的命令参数; 通过.communicate()方法来读取…

    python 2023年6月2日
    00
  • 在自动化中用python实现键盘操作的方法详解

    在自动化中用Python实现键盘操作的方法详解 自动化是一种工具,它可以在程序运行时模拟用户输入输出,从而可以在人类存在的时候自动完成任务。在Python中,我们可以使用模块 pyautogui 实现键盘操作的自动化。在这里,我们将讨论如何使用 pyautogui 实现键盘操作自动化。 安装 pyautogui 在使用 pyautogui 进行自动化之前,必…

    python 2023年5月19日
    00
  • Python命令行参数解析模块getopt使用实例

    Python命令行参数解析模块getopt使用实例 在开发一个Python命令行工具时,经常需要对命令行输入的参数进行解析。Python标准库中提供了getopt和argparse两个模块用于命令行参数解析。 本文介绍使用Python标准库中的getopt模块实现命令行参数的解析、处理。getopt模块用于解析命令行中的选项。 安装 Python的getop…

    python 2023年6月3日
    00
  • python 19个值得学习的编程技巧

    Python 19个值得学习的编程技巧 Python 作为一门高级编程语言,具有简单易学、高效且易读的特点,是各行业以及程序员的首选语言之一。如果你是 Python 初学者或者想进一步提升自己的 Python 水平,下面的 19 个编程技巧对你来说非常有参考价值。 1. 列表推导式 列表推导式是 Python 非常常用的一种语法,它可以通过一行代码快速地生成…

    python 2023年5月13日
    00
  • Python学习之time模块的基本使用

    下面是针对“Python学习之time模块的基本使用”的完整攻略。 1. time模块简介 time模块是Python内置的一个与时间相关的标准库,包含了一些处理时间的函数和类。这个模块提供了许多函数来获取、处理和操作时间。在Python中,时间一般表示为以秒为单位的浮点数。 2. time模块的基本使用 2.1 获取当前时间 time模块提供了获取当前时间…

    python 2023年6月2日
    00
  • Python如何识别银行卡卡号?

    当我们需要对银行卡号进行验证处理时,我们需要先对银行卡号的格式进行校验,然后再进行一些其他的处理,比如通过银行卡号查询银行名称、所属地区等相关信息。 那么具体来说,Python如何识别银行卡卡号呢?以下是一个完整的实例教程: 1. 安装 PyPI 中的银行卡号校验库 PyPI中有很多可以用于银行卡号校验的库,比如 bankcardvalidator,我们首先…

    python 2023年5月13日
    00
  • Python模拟登录的多种方法(四种)

    Python模拟登录是一种常见的自动化测试方法,可以帮助我们更好地测试网站的功能和稳定性。本文将介绍四种Python模拟登录的方法,并提供两个示例。 1. 使用requests库实现模拟登录 我们可以使用requests库实现模拟登录。以下是一个示例,演示如何使用requests库实现模拟登录: import requests login_url = ‘ht…

    python 2023年5月15日
    00
  • Python爬虫框架Scrapy安装使用步骤

    Python爬虫框架Scrapy安装使用步骤 Scrapy是一个基于Python的爬虫框架,用于高效地爬取网站数据。使用Scrapy可以快速地编写爬虫程序,对于处理需要访问多个页面、提取和存储数据等任务非常有用。下面将介绍Scrapy的安装和使用步骤。 安装Scrapy Scrapy的安装需要以下步骤: 确保已正确安装Python环境:Scrapy要求Pyt…

    python 2023年5月14日
    00
合作推广
合作推广
分享本页
返回顶部