爬虫基础 – Robots协议

2023年4月13日下午8:27 • 爬虫

Robots协议

指定一个robots.txt文件,告诉爬虫引擎怎么爬取

https://www.taobao.com/robots.txt

User-agent:  Baiduspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Allow: /$
Disallow:  /product/
Disallow:  /

User-Agent:  Googlebot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

User-agent:  Bingbot
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

User-Agent:  360Spider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Disallow:  /

User-Agent:  Yisouspider
Allow:  /article
Allow:  /oshtml
Allow:  /ershou
Disallow:  /

User-Agent:  Sogouspider
Allow:  /article
Allow:  /oshtml
Allow:  /product
Allow:  /ershou
Disallow:  /

User-Agent:  Yahoo!  Slurp
Allow:  /product
Allow:  /spu
Allow:  /dianpu
Allow:  /oversea
Allow:  /list
Allow:  /ershou
Allow: /$
Disallow:  /

User-Agent:  *
Disallow:  /

其他爬虫,不允许爬取

User-Agent: *

DisalloW: /

这是一个君子协定,'爬亦有道'

这个协议为了让搜索引擎更有效搜索自己的内容

本站文章如无特殊说明，均为本站原创，如若转载，请注明出处：爬虫基础 – Robots协议 - Python技术站

赞 (0)

微信扫一扫

微信扫一扫

支付宝扫一扫

支付宝扫一扫

爬虫_Crawler4j的使用

上一篇 2023年4月13日

爬虫之BeautifulSoup

下一篇 2023年4月13日

crawler4j多线程爬虫统计分析数据

该事例演示了如何在多线程中统计和分析数据；首先建一个状态实体类CrawlStat： package com.demo.collectingData; /** * 爬虫状态实体类统计爬虫信息 * @author * */ public class CrawlStat { private int totalProcessedPages; //处理的页面总…

爬虫 2023年4月8日
000
Python实现爬取网页中动态加载的数据

下面是Python实现爬取网页中动态加载的数据的完整攻略：一、了解动态加载的数据在爬取数据前，需要了解目标网站是否存在动态加载的数据。动态加载的数据是在页面加载完成后通过JavaScript等技术异步获取到的数据，而传统的爬虫技术只能获取静态页面中的数据。可以通过F12开发者工具的Network面板查看请求，如果是XHR类型，一般就是动态加载的数据。二…

python 2023年5月14日
000
Python网络爬虫与信息提取(实例讲解)

“Python网络爬虫与信息提取(实例讲解)”是一本比较全面的关于Python爬虫的书籍，讲解了Python爬虫的基础知识、常用工具和实例应用等内容。以下是该书籍攻略的完整讲解。 1. 前言在前言部分，该书籍介绍了网络爬虫的定义和应用，以及Python语言在网络爬虫中的优势。同时还简单介绍了一些Python网络爬取工具和相关库的使用方法，如requests…

python 2023年5月14日
000
python3爬虫爬取煎蛋网妹纸图片（上篇）

其实之前实现过这个功能，是使用selenium模拟浏览器页面点击来完成的，但是效率实际上相对来说较低。本次以解密参数来完成爬取的过程。首先打开煎蛋网http://jandan.net/ooxx，查看网页源代码。我们搜索其中一张图片的编号，比如3869006，看下在源代码中是否能找到图片链接从上面的HTML结构中找到这个标号对应的一些属性，没有直接的图…

爬虫 2023年4月10日
000
python | 爬虫笔记 – 学习路线

总体学习路径： 1、学习 Python 包并实现基本的爬虫过程 2、了解非结构化数据的存储 3、学习scrapy，搭建工程化爬虫 4、学习数据库知识，应对大规模数据存储与提取 5、掌握各种技巧，应对特殊网站的反爬措施 6、分布式爬虫，实现大规模并发采集，提升效率 · 目标驱动 · 在一开始的时候，尽量不要系统地去啃一些东西，找一个实际的项目（开始可以从豆…

爬虫 2023年4月8日
000
Python爬虫和反爬技术过程详解

Python爬虫和反爬技术过程详解 1. 爬虫过程 1.1 网页请求在Python中，我们可以使用第三方库如requests、urllib等发起网页请求，获取目标网页的HTML源代码。通过requests库发起文本形式的GET请求方法可以获得目标网站的的HTML页面，如下例所示： import requests response = requests.ge…

python 2023年5月14日
000
网络爬虫（httpwebrequest）驴评网信息为例

之前写过一篇关于用webBrowser抓取动态网页信息的随笔。正如文中提到的，速度是硬伤，并且如果是非动态信息则不必这么麻烦，最近正好有一需求：抓取“驴评网”上的信息1、所有的州、国家、省、市、区名称2、该市的所有景点信息（该网站中，大部分都是以市级作为最后的支节点，如果是以区作为最终节点的则以区为单位获取相应景点信息）3、该市的所有酒店信息首先，我们需要…

爬虫 2023年4月11日
000
python3简单实现微信爬虫

Python3简单实现微信爬虫本篇文章将介绍如何使用Python3实现微信爬虫，并简单介绍一些爬虫的基础知识。什么是微信爬虫微信爬虫是指通过程序自动爬取微信公众号的文章、阅读量、点赞数等数据的技术。目前，微信不允许普通用户通过API或其他方式来获取公众号的文章数据，但是可以通过模拟登陆和数据抓取的方式实现爬取公众号的目的。实现步骤步骤一：模拟登陆 …

python 2023年5月14日
000

合作推广

合作推广

返回顶部