爬虫防封IP

2023年4月11日上午1:36 • 爬虫

当抓取数据逐渐增大时，服务器的负荷会加大，会直接封掉来访IP：

采取措施：

　　1.创建请求头部信息：

　　爬虫防封IP

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.9 Safari/537.36'} #创建请求头
strhtml = requests.get(url,headers = headers);    #使用GET方式，获取网页数据

　　2.我们就只修改User-Agent还不够，爬虫1秒钟可以抓取很多图片，通过统计IP的访问频率，频率超过阈值，会返回一个验证码，如果是用户访问，用户就会填写继续访问，而代码访问就会被封IP，有两种解决方法：

　　（1）增设延时（耗时）

import time
time.sleep(3)#每3秒抓取1次

　　（2）构建自己代理IP池

proxies = {
    "http": "http://10.10.1.10:3128",
    "https": "http://10.10.1.10:1080",
}
url="http://www.cntour.cn/"  #需要爬取的网址
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.9 Safari/537.36'} #创建请求头
strhtml = requests.get(url,headers = headers,proxies=proxies);

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫防封IP - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫的基本流程

上一篇 2023年4月11日上午1:36

Python爬虫_qq音乐示例代码

下一篇 2023年4月11日

python中数据爬虫requests库使用方法详解

当然，下面是对《python中数据爬虫requests库使用方法详解》的完整攻略： 1. requests库简介 requests库是Python的一个常用库，用来向网站发送HTTP请求。它的优点是简单易用，功能强大，支持HTTP/1.0和HTTP/1.1。requests库还支持HTTP代理，Cookie，HTTPS等功能。 2. requests库使用方…

python 2023年5月14日
000
Python爬虫入门教程01之爬取豆瓣Top电影

Python爬虫入门教程01之爬取豆瓣Top电影本次教程将会教你如何使用Python编写一个简单的爬虫程序，用于爬取豆瓣电影Top250的数据。本教程将会覆盖以下主题：项目简介准备工作利用Requests模块获取网页内容使用BeautifulSoup解析网页代码实现结束语 1. 项目简介这个项目旨在教你如何使用Python编写一个简单的爬虫程…

python 2023年5月14日
000
20171012 动态爬虫爬取预约挂号有号信息

— 目标：针对医院有些医生有预约号不确定时间点有号，晚了就挂不到了，能有个监测爬去，有号就提醒的机制。可能会用到：scrapy + PhantomJS + Selenium 环境： windows10 + vs 2015 + python 2.7 安装 : scrapy 创建项目：命令提示符界面使用语句 scrapy startproject s_…

爬虫 2023年4月11日
000
python爬虫中抓取指数的实例讲解

下面我将详细讲解“python爬虫中抓取指数的实例讲解”的完整攻略。简介在爬取网站数据时，有些站点会提供一些指数数据，比如搜索指数、热度指数等等。本文将介绍如何使用Python爬虫抓取这些指数数据。步骤本文将分为以下几步来讲解如何抓取指数数据：确定目标网站和要抓取的指数数据分析目标网站的请求方式和网页结构使用Python的requests库发送…

python 2023年5月14日
000
BeautifulSoup /bs4 爬虫实例

需求：使用bs4实现将诗词名句网站中三国演义小说的每一章的内容爬去到本地磁盘进行存储 http://www.shicimingju.com/book/sanguoyanyi.html 1 from bs4 import BeautifulSoup 2 import requests 3 4 url = ‘http://www.shicimingju.co…

爬虫 2023年4月10日
000
python爬虫-scrapy日志

1、scrapy日志介绍 Scrapy的日志系统是实现了对python内置的日志的封装 scrapy也使用python日志级别分类 logging.CRITICAL logging.ERROE logging.WARINING logging.INFO logging.DEBUG 2、如何在python中使用日志呢？ import loggin…

爬虫 2023年4月11日
000
零基础写python爬虫之爬虫编写全记录

感谢您对“零基础写python爬虫之爬虫编写全记录”的关注和提问。作为网站的作者，我将在下面对这个话题进行详细的讲解，帮助您对这个话题有更深入的理解。 1. 爬虫编写的介绍爬虫（Spider），又称网络爬虫、网络蜘蛛、网页蜘蛛、网站蜘蛛，是一种按照一定的规则，自动化地抓取互联网信息的程序。爬虫被广泛应用于搜索引擎、价格比较、舆情分析、数据挖掘等领域。在…

python 2023年5月14日
000
python-爬虫

概述 1.什么是爬虫爬虫，即网络爬虫，大家可以理解为在网络上爬行的一直蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛咯，如果它遇到资源，那么它就会抓取下来。想抓取什么？这个由你来控制它咯。比如它在抓取一个网页，在这个网中他发现了一条道路，其实就是指向网页的超链接，那么它就可以爬到另一张网上来获取数据。这样，整个连在一起的大网对这之蜘蛛来说…

爬虫 2023年4月13日
000

合作推广

合作推广

返回顶部