日常反反爬虫

2023年4月12日下午10:05 • 爬虫

这里介绍几种工作中遇到过的常见反爬虫机制及应对策略。

爬虫的君子协议

有些网站希望被搜索引擎抓住，有些敏感信息网站不希望被搜索引擎发现。

网站内容的所有者是网站管理员，搜索引擎应该尊重所有者的意愿，为了满足以上等等，就需要提供一种网站和爬虫进行沟通的途径，给网站管理员表达自己意愿的机会。有需求就有供应，robots协议就此诞生。

scrapy是默认遵守robots协议的，需要我们在settings.py文件中将代码改成

ROBOTSTXT_OBEY = Flase

封锁请求头

当访问过于频繁的时候，网站后台会去识别你的请求头，判断你是浏览器访问，还是程序访问。

我们只需要伪造请求头信息，制造出浏览器访问的假象。

以下分别提供三个爬虫代码的请求头更改

1 import requests
2 import re
3 
4 url = 'https://list.tmall.com/search_product.htm?q=%B0%D7%BE%C6&type=p&vmarket=&spm=875.7931836%2FB.a2227oh.d100&from=mallfp..pc_1_searchbutton'
5 
6 headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36 Edge/15.15063'}
7 
8 content = requests.get(url,headers=headers)

requests版

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：日常反反爬虫 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

Jmeter(四十一)_图片爬虫

上一篇 2023年4月12日

如何应对网站反爬虫策略？如何高效地爬大量数据?

下一篇 2023年4月12日

关于python简单的爬虫操作(requests和etree)

关于Python简单的爬虫操作(Requests和etree) 前言在互联网时代的今天，获取信息已经变得非常容易，网页中的信息成为了获取有用信息的新途径。爬虫是获取网页信息的最佳工具，而Python作为一门强大的编程语言，能够通过requests和etree两个库来轻松地实现爬虫操作。本篇文章将详细讲解使用Python实现简单的爬虫操作，包括如何发送请求…

python 2023年5月14日
000
python爬虫入门教程–HTML文本的解析库BeautifulSoup（四）

下面是该篇文章的完整攻略：标题本文主要介绍了Python爬虫中用于解析HTML文本的库BeautifulSoup，包括BeautifulSoup库简介、如何安装、BeautifulSoup的基本用法、BeautifulSoup处理HTML文本中的各种标签及属性、使用BeautifulSoup获取HTML文本中的各种元素等。安装BeautifulSoup…

python 2023年5月14日
000
Python大批量搜索引擎图像爬虫工具详解

Python大批量搜索引擎图像爬虫工具详解本篇攻略将全面介绍Python大批量搜索引擎图像爬虫工具的使用方法和具体实现过程。首先，我们需要明确这个Python爬虫工具的基本流程，主要包括以下几个步骤：选择合适的搜索引擎和关键词构造合理的搜索链接下载图片到本地下面我们就来详细介绍这个过程。选择合适的搜索引擎和关键词在开始使用Python爬虫之前，…

python 2023年5月14日
000
python简单爬虫用beautifulsoup爬取百度百科词条

目标：爬取“湖南大学”百科词条并处理数据需要获取的数据：源代码： <div class=”basic-info cmn-clearfix”> <dl class=”basicInfo-block basicInfo-left”> <dt class=”basicInfo-item name”>中文名<…

爬虫 2023年4月11日
000
python爬虫之BeautifulSoup

# -*- coding: UTF-8 -*- import re from bs4 import BeautifulSoup import requests import codecs import sys reload(sys) sys.setdefaultencoding(‘utf8’) def mei_url(): url = ‘http://mdl…

爬虫 2023年4月13日
000
python爬虫爬取大众点评并导入redis

直接上代码，导入redis的中文编码没有解决，日后解决了会第一时间上代码！新手上路，多多包涵！ # -*- coding: utf-8 -*- import re import requests from time import sleep, ctime from urllib.request import urlopen from urllib.reque…

爬虫 2023年4月8日
000
爬虫技术：cookies池的维护

一：为什么要维护cookie 　　1.登录才能爬取内容　　2.爬取频繁会被封号。　　3.需要维护多个账号的cookie，实现大规模抓取二：cookies的要求　　1.自动登录更新　　2.定期筛选验证　　3.提供外部接口三：cookies池的架构 # TODO 崔庆才基于Flask和redis动态维护cookies池：https://www.b…

爬虫 2023年4月11日
000
scrapy 解决爬虫IP代理池，数据轻松爬。

现在越来越多的人在工作中使用到爬虫，各个网站的反爬虫机制也越来越严格，下面就自己构建一个代理ip池。手动更新ip池 1.1在setting配置文件中新增ip池 IPPOOL=[ {“ipaddr”:”61.129.70.131:8080”}, {“ipaddr”:”61.152.81.193:9100”}, {“ipaddr”:”120.204.85.29…

爬虫 2023年4月11日
000

合作推广

合作推广

返回顶部