Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识

1. 检查 `robots.txt`

网站都会定义robots.txt 文件，这个文件就是给 网络爬虫 来了解爬取该网站时存在哪些限制。当然了，这个限制仅仅只是一个建议，你可以遵守，也可以不遵守。但对于一个良好的网民来说，最好还是遵守robots.txt 文件里面的限制。

Q：如何查看这个 robots.txt 文件？
A：你只需要在 目标网站站点域名 后面加上 robots.txt 即可。
举例：目标网站站点域名：http://www.aobosir.com/ 。目标网站站点的robots.txt 文件：http://www.aobosir.com/robots.txt 。

# section 1
User-agent: BadCrawler
Disallow: /

# section 2
User-agent: *
Crawl-delay: 5
Disallow: /trap

# section 3
Sitemap: http://aobojaing.github.io/sitemap.xml

Q： robots.txt 文件里面的东西都是什么意思，又有什么用？
A：一个部分一个部分的讲解：

section 1：

这部分的意思就是：robots.txt 文件禁止那些代理为 BadCrawler 的爬虫访问该网站。 BadCrawler 中文翻译为：恶意爬网程序。
其实这一部分纯粹没用。因为一个恶意爬虫是根本不会代理成：BadCrawler 来访问网站的。你想啊，一个小偷，他会在偷别人东西之前告诉对方，“我是小偷，我要偷你东西了，你做好准备哦！” ？
我们还是尽量遵守robots.txt 文件里面的要求为好。这套专栏后面的博客中，将会展示如何让爬虫自动遵守 robots.txt 文件的要求。

section 2：

不管什么用户，两次爬取请求之间的间隔时间不可以小于 5秒钟。否则你访问的这个网站会将网页自动跳整到 /trap 链接。

Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识

就是说：网站服务器封禁了你的IP。我这个网站是封禁你1分钟的时间。一个真实的网站可能会对你的IP封禁更长的时间，如果你行为恶劣，甚至是永久封禁！

section 3：
定义了一个 Sitemap 文件，这个文件就是所谓的 网站地图。我们马上就来介绍这个文件。

2. 检查网站地图

下面的截图是在 robots.txt 文件中发现的 Sitemap 文件的内容：

Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识

网站提供的 Sitemap 文件（即网站地图），它提供了网站站点里面所有页面的链接。它们组成了这个 Sitemap 文件，现在你应该清楚：为什么叫这个文件为网站地图了吧。
我们无须爬取某个网站站点里面的每一个网页。网站提供的 Sitemap 文件帮助了我们的网络爬虫定为网站最新的内容。

Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识

虽然 Sitemap 文件提供了一种爬取网站的有效方式，但是我们仍需要对其谨慎处理，因为该文件经常存在缺失、过期或者不完整的问题。

3. 估算网站大小

Q：为什么要估算网站大小？

A：目标网站的大小指的是，这个站点里面有多少个网页。有多少的网页，会影响到我们如何进行爬取。爬取网站上的信息的方式有两种：串行爬取和分布式爬取。如果目标网站的网页数量不是很多，只有几百个网页，使用串行爬取就可以。但是如果一个目标网站的网页有几百万个，我们使用串行爬取的话，可能要持续数月才能完成，这个时候，我们就需要分布式爬取的策略来解决这个问题。
所以，在爬取目标网站之前，估算网站大小是很有必要的。

Q：如何估算网站大小？

A：估算网站大小的一个简便方法是：检查Google爬虫的爬取结果。
举例：目标网站：http://blog.csdn.net/github_35160620，现在我们要估算这个网站的大小。做法：在google搜索栏里面输入：site:http://blog.csdn.net/github_35160620 ，就可以了。

Python 网络爬虫 002 (入门) 爬取一个网站之前，要了解的知识