什么样的爬虫才是好爬虫：Robots协议探究 php,php文件怎么打开,php教程,php源码,php下载,php是什么 WWW.CUNMAO.NET

　　网站的管理者们通常会有这样一种心态：一方面期待百度、Google这样的搜索引擎来抓取网站的内容，另一方面又很厌恶其他来不明的网络爬虫抓取自己的信息。正是因为这样，才有“好爬虫”、“坏爬虫”这样的说法。

　　Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

　　根据协议，网站管理员可以在网站域名的根目录下放一个robots.txt 文本文件，里面可以指定不同的网络爬虫能访问的页面和访问的页面，指定的页面由正则表达式表示。网络爬虫在采集这个网站之前，首先获取到这个文件，然后解析到其中的规则，然后根据规则来采集网站的数据。

　　互联网上的网页是通过超级链接互相关联起来的，从而形成了网页的网状结构。爬虫的工作方式就像蜘蛛在网上沿着链接爬来爬去，最基本的流程可以简化如下

　　网站内容的所有者是网站管理员，搜索引擎应该尊重所有者的意愿，为了满足以上等等，就需要提供一种网站和爬虫进行沟通的途径，给网站管理员表达自己意愿的机会。有需求就有供应，robots协议就此诞生。

　　既然网络爬虫在爬取一个网站之前，要先获取到这个文件，然后解析到其中的规则，那么，Robots就必须要有一套通用的语法规则。

　　可能有读者要问了，我怎么知道爬虫的User-agent是什么?你还可以查相关搜索引擎的资料得到的数据，比如说百度的爬虫列表是这样的：

　　Disallow 行列出的是要拦截的网页，以正斜线 (/) 开头，可以列出特定的网址或模式。要屏蔽整个网站，使用正斜线即可;要屏蔽某一目录以及其中的所有内容，在目录名后添加正斜线;要屏蔽某个具体的网页，就指出这个网页。

　　这个稍微复杂点，京东有2个目录不希望所有的爬虫来抓。同时，京东完全屏蔽了一淘网的蜘蛛（EtaoSpider是一淘网的蜘蛛）。

　　前面说过爬虫会通过网页内部的链接发现新的网页。但是如果没有连接指向的网页怎么办?或者用户输入条件生成的动态网页怎么办?能否让网站管理员通知搜索引擎他们网站上有哪些可供抓取的网页?这就是sitemap，最简单的 Sitepmap 形式就是 XML 文件，在其中列出网站中的网址以及关于每个网址的其他数据(上次更新的时间、更改的频率以及相对于网站上其他网址的重要程度等等)，利用这些信息搜索引擎可以更加智能地抓取网站内容。

　　新的问题来了，爬虫怎么知道这个网站有没有提供sitemap文件，或者说网站管理员生成了sitemap，(可能是多个文件)，爬虫怎么知道放在哪里呢?

　　由于robots.txt的是固定的，于是大家就想到了把sitemap的信息放在robots.txt里。这就成为robots.txt里的新了。

　　插一句，考虑到一个网站的网页众多，sitemap人工不太靠谱，google提供了工具可以自动生成sitemap。

　　robots.txt的初衷是为了让网站管理员管理可以出现在搜索引擎里的网站内容。但是，即使使用 robots.txt 文件让爬虫无法抓取这些内容，搜索引擎也可以通过其他方式找到这些网页并将它添加到索引中。例如，其他网站仍可能链接到该网站。因此，网页网址及其他公开的信息(如指向相关网站的链接中的定位文字或式目录管理系统中的标题)有可能会出现在引擎的搜索结果中。如果想彻底对搜索引擎隐身那咋整呢?答案是：元标记，即meta tag。

　　比如要完全一个网页的内容列在搜索引擎索引中(即使有其他网站链接到此网页)，可使用 noindex 元标记。只要搜索引擎查看该网页，便会看到 noindex 元标记并该网页显示在索引中，这里注意noindex元标记提供的是一种逐页控制对网站的访问的方式。

　　除了noindex外，还有其他元标记，比如说nofollow，爬虫从此页面中链接。详细信息可以参考Google支持的元标记，这里提一句：noindex和nofollow在HTML 4.01规范里有描述，但是其他tag的在不同引擎支持到什么程度各不相同，还请读者自行查阅各个引擎的说档。

　　除了控制哪些可以抓哪些不能抓之外，robots.txt还可以用来控制爬虫抓取的速率。如何做到的呢?通过设置爬虫在两次抓取之间等待的秒数。

　　注意：google已经不支持这种方式了，在webmaster tools里提供了一个功能可以更直观的控制抓取速率。

　　这里插一句题外话，几年前曾经有一段时间robots.txt还支持复杂的参数:Visit-time，只有在visit-time指定的时间段里，爬虫才可以访问;Request-rate: 用来URL的读取频率，用于控制不同的时间段采用不同的抓取速率。后来估计支持的人太少，就渐渐的废掉了，目前google和baidu都已经不支持这个规则了，其他小的引擎公司貌似从来都没有支持过。

　　Robots协议不是什么技术壁垒，而只是一种互相尊重的协议，好比私家花园的门口挂着“闲人免进”，尊重者绕道而行，不尊重者依然可以推门而入。目前，Robots协议在实际使用中，还存在一些问题。

　　robots.txt本身也是需要抓取的，出于效率考虑，一般爬虫不会每次抓取网站网页前都抓一下robots.txt，加上robots.txt更新不频繁，内容需要解析。通常爬虫的做法是先抓取一次，解析后缓存下来，而且是相当长的时间。假设网站管理员更新了robots.txt，修改了某些规则，但是对爬虫来说并不会立刻生效，只有当爬虫下次抓取robots.txt之后才能看到最新的内容。尴尬的是，爬虫下次抓取robots.txt的时间并不是由网站管理员控制的。当然，有些搜索引擎提供了web 工具可以让网站管理员通知搜索引擎那个url发生了变化，重新抓取。注意，此处是，即使你通知了搜索引擎，搜索引擎何时抓取仍然是不确定的，只是比完全不通知要好点。至于好多少，那就看搜索引擎的和技术能力了。

　　不知是无意还是有意，反正有些爬虫不太遵守或者完全忽略robots.txt，不排除开发人员能力的问题，比如说根本不知道robots.txt。另外，本身robots.txt不是一种强制措施，如果网站有数据需要保密，必需采取技术措施，比如说：用户验证，加密，ip拦截，访问频率控制等。

　　在互联网世界中，每天都有不计其数的爬虫在日夜不息地爬取数据，其中恶意爬虫的数量甚至高于非恶意爬虫。遵守Robots协议的爬虫才是好爬虫，但是并不是每个爬虫都会主动遵守Robots协议。

　　恶意爬虫可以带来很多潜在，比如电商网站的商品信息被爬取可能会被竞争对手利用，过多的爬虫还会占用带宽资源、甚至导致网站宕机。俞灏明烧伤后复出