使用Nginx过滤网络爬虫

2023年4月9日下午8:43 • Nginx

原文：https://www.liaoxuefeng.com/article/001509844125769eafbb65df0a04430a2d010a24a945bfa000

现在的网络爬虫越来越多，有很多爬虫都是初学者写的，和搜索引擎的爬虫不一样，他们不懂如何控制速度，结果往往大量消耗服务器资源，导致带宽白白浪费了。

其实Nginx可以非常容易地根据User-Agent过滤请求，我们只需要在需要URL入口位置通过一个简单的正则表达式就可以过滤不符合要求的爬虫请求：

    ...
    location / {
        if ($http_user_agent ~* "python|curl|java|wget|httpclient|okhttp") {
            return 503;
        }
        # 正常处理
        ...
    }
    ...

变量$http_user_agent是一个可以直接在location中引用的Nginx变量。~*表示不区分大小写的正则匹配，通过python就可以过滤掉80%的Python爬虫。

感觉本站内容不错，读后有收获？

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：使用Nginx过滤网络爬虫 - Python技术站

Nginx

0 0 打赏

微信扫一扫

支付宝扫一扫

入门级Nginx反向代理nodejs

上一篇 2023年4月9日

nginx系统真正有效的图片防盗链完整设置详解

下一篇 2023年4月9日

Nginx高效原因

1 设计原理　　一个高性能服务器典型特点是处理速度块且占用资源少.尤其是当上万连接同时在线时候.若要做到处理速度快,并发模型设计尤其关键. 　　服务器并发量取决于两个因素:一是服务器连接的进程数量,二是每个进程可同时处理的并发请求数量,因而服务器并发模型由两部分构成,服务的提供方式和链接处理机制, 由于这两种别具一格的方式使得Nginx在同类型的网页服…

Nginx 2023年4月11日
000
Linux CentOS6.5安装Nginx1.8.0

1. 准备1.8.0安装包 nginx-1.8.0.tar.gz 2. 安装第三方依赖 yum install gcc-c++ yum install -y pcre pcre-devel yum install -y zlib zlib-devel yum install -y openssl openssl-devel 3. 解压安装包并进入nginx目…

Nginx 2023年4月12日
000
nginx 设置403、404、等错误页面

nginx下可以自己定义error 403页面，也可以deny一些ip的访问，但如果像下面这样写的话你可能会发现自定义的erro 403页面不管用了，而是显示nginx的默认403提示信息： deny 192.168.0.1;deny 10.0.0.0/24;error_page 403 /error.html; location = /e…

Nginx 2023年4月11日
000
Docker上部署Nginx的方法步骤

下面是关于在Docker上部署Nginx的方法步骤的完整攻略： 1. 安装 Docker 首先要安装 Docker，安装方法因操作系统而异。在Ubuntu中，可以输入以下命令进行安装： sudo apt-get update sudo apt-get install docker.io 其他操作系统的安装方式可以参考 Docker 的官方文档。 2. 获取 …

Nginx 2023年5月16日
000
nginx常用配置conf的示例代码详解

本攻略将详细讲解“nginx常用配置conf的示例代码详解”这个主题。什么是Nginx？ Nginx是一款高性能、高并发的Web服务器和反向代理服务器。除了Web服务器和反向代理服务器之外，它还可以作为负载均衡器、邮件代理服务器和HTTP缓存服务器等。它采用事件驱动的异步非阻塞架构，可以支持非常高的并发连接数。 Nginx常用配置文件结构在Nginx中，…

Nginx 2023年5月16日
000
详解nginx 代理多个服务器(多个server方式)

详解nginx代理多个服务器在使用nginx进行代理时，我们可能需要将请求分发给多个服务器，这时候就需要使用多个server的方式进行代理。具体操作流程如下：在nginx的配置文件中，定义多个upstream配置块，用于指定不同的代理服务器。例如： “` upstream server1 { server 192.168.1.100:8080; } …

Nginx 2023年5月16日
000
nginx配置https的方法示例(免费证书)

下面是详细的“nginx配置https的方法示例(免费证书)”攻略。准备工作在配置HTTPS之前，需要准备以下材料：一个域名一台服务器（可以为Linux或Windows服务器）一个电子邮件账户（用于向证书颁发机构CA请求证书）第一步：申请证书我们可以免费向Let’s Encrypt证书颁发机构申请证书，以获得可靠的HTTPS证书。安装cert…

Nginx 2023年5月16日
000
Ubuntu下修改nginx和apache配置的命令

　　Nginx修改默认端口　　1、修改配置文件　　vi /etc/nginx/sites-enabled/default 　　listen 81 default_server; 　　# 修改自己需要的端口号　　listen 81 default_server; 　　2、重载Nginx服务　　/etc/init.d/nginx reload 　　3、修…

Nginx 2023年4月12日
000

合作推广

返回顶部

使用Nginx过滤网络爬虫

感觉本站内容不错，读后有收获？

相关文章