使用Nginx过滤网络爬虫

2023年4月8日下午5:37 • 爬虫

原文：https://www.liaoxuefeng.com/article/001509844125769eafbb65df0a04430a2d010a24a945bfa000

现在的网络爬虫越来越多，有很多爬虫都是初学者写的，和搜索引擎的爬虫不一样，他们不懂如何控制速度，结果往往大量消耗服务器资源，导致带宽白白浪费了。

其实Nginx可以非常容易地根据User-Agent过滤请求，我们只需要在需要URL入口位置通过一个简单的正则表达式就可以过滤不符合要求的爬虫请求：

    ...
    location / {
        if ($http_user_agent ~* "python|curl|java|wget|httpclient|okhttp") {
            return 503;
        }
        # 正常处理
        ...
    }
    ...

变量$http_user_agent是一个可以直接在location中引用的Nginx变量。~*表示不区分大小写的正则匹配，通过python就可以过滤掉80%的Python爬虫。

感觉本站内容不错，读后有收获？

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：使用Nginx过滤网络爬虫 - Python技术站

爬虫

0 0 打赏

微信扫一扫

支付宝扫一扫

crawler4j多线程爬虫统计分析数据

上一篇 2023年4月8日

scrapy工具创建爬虫工程

下一篇 2023年4月8日

Python爬虫之爬取某文库文档数据

Python爬虫之爬取某文库文档数据本篇攻略将介绍如何使用Python编写爬虫程序，从某文库网站爬取文档数据，并保存到本地文件中。我们将借助requests、beautifulsoup4、os等Python库来实现这个过程。爬取网页首先，我们需要利用requests库来获取网页的源代码。具体代码如下所示： import requests url = &…

python 2023年5月14日
000
爬虫学习笔记：酷狗音乐榜单TOP500

一、背景酷狗音乐热门榜单-酷狗TOP500（网页版）链接为： # 链接 https://www.kugou.com/yy/rank/home/1-8888.html?from=rank # 网页版并无下一页只能通过自己构造链接实现 # 经发现 2-8888 3-8888 替换即可二、实操 1.加载模块 import pandas as pd impor…

爬虫 2023年4月12日
000
爬虫

看我如何用定值 Cookie 实现反爬

摘要：本次案例，用定值Cookie实现反爬。本文分享自华为云社区《我是怎么用一个特殊Cookie，限制住别人的爬虫的》，作者：梦想橡皮擦。 Cookie 生成由于本案例需要用到一个特定的 Cookie ，所以我们需要提前将其生成，你可以直接设置一个固定的字符串，也可以使用 Python 加密模块来加密一段文本，例如本案例加密梦想橡皮擦。下面是一个…

2023年4月8日
000
python爬虫学习——文件操作，异常处理

文件操作 ”’ f = open(“a.txt”,”w”) #打开一个文件， w模式（写），如果文件不存在就在当前目录下创建 f.write(“hello world,i am here”) #将字符串写入文件中 f.close() #关闭文件 ”’ ”’ #read方法：读取指定的字符，开始定位在文件的开头，每执行一次，就向后移动指定的字符数 f =…

爬虫 2023年4月8日
000
Python爬虫实现百度图片自动下载

为了实现Python爬虫自动下载百度图片，我们需要进行以下步骤: 1. 确定需要爬取的图片链接我们在百度图片中搜索我们需要的图片，进入图片详情页后，可在浏览器开发者工具中找到图片链接的url。注意仅选择原图链接。 2. 分析页面结构我们在浏览器开发者工具中可以看到页面的具体结构，可以利用requests模块进行网页爬取，并解析出图片链接。示例一：爬取百…

python 2023年5月14日
000
使用Python实现windows下的抓包与解析

使用Python实现Windows下的抓包与解析可以使用一个名为PyShark的Python抓包库和Wireshark抓包工具实现。下面是完整攻略的步骤：步骤1：安装Wireshark以及Win32APIs和PyShark库首先，需要从Wireshark官网下载并安装Wireshark工具。在安装过程中，务必勾选“安装Win32APIs”选项，以确保能够…

python 2023年5月14日
000
1，Python爬虫环境的安装

前言很早以前就听说了Python爬虫，但是一直没有去了解；想着先要把一个方面的知识学好再去了解其他新兴的技术。但是现在项目有需求，要到网上爬取一些信息，然后做数据分析。所以便从零开始学习Python爬虫，如果你也对Python爬虫感兴趣，那么可以跟着我一起学习了解一下！闲话就不多说了，下面就开始Python爬虫之路！ …

爬虫 2023年4月10日
000
详解Python爬虫爬取博客园问题列表所有的问题

详解Python爬虫爬取博客园问题列表所有的问题 1. 前言在博客园中，我们可以看到很多技术问题的提问和回答。如果你对某项技术有疑问，可以在博客园中搜索相关问题，可能会有很多人已经提出了类似的问题并且得到了解答。但是手动搜索这些问题费时费力，我们可以使用Python爬虫来快速获取这些问题列表。 2. 爬取过程 2.1 requests库发送HTTP请求获取…

python 2023年5月14日
000

合作推广

返回顶部

使用Nginx过滤网络爬虫

感觉本站内容不错，读后有收获？

相关文章