限制搜索引擎爬虫（Search Engine Robot）的访问

所索引擎爬虫的任务主要是两个：

对于搜索引擎爬虫的访问，有时你会希望对它进行一些限制。比如：

1. robots.txt

根据约定，爬虫会首先访问网站根目录下面的robots.txt文件，读取其中描述的爬虫规则。

换句话说，爬虫会访问http://www.your-site.com/robots.txt来获取爬虫规则。

禁止所有爬虫

User-agent: *
Disallow: /

禁止特定爬虫和特定路径

User-agent: BadBot
User-agent: Googlebot
Disallow: /private/

X-Robots-Tag: noindex

作用可以参见下面的meta标签部分。放在HTTP相应头中，可以让爬虫不必解析页面内容就知道如何处理当前页面。

<meta name="robots" content="noindex, nofollow" >

默认的行为可以认为是index+follow，即索引当前页面的同时也跟随当前页面上的链接。

<noindex>不要索引这里的内容</noindex>

<div class="robots-noindex">不要索引这里的内容</div>

除了"robots.txt"文件可以在爬虫发起页面请求之前“阻止”其爬取某个URL之外，也可以在HTML的链接代码中添加rel="nofollow"属性来阻止爬虫爬取该链接。

<a href="/some/link" rel="nofollow">不要爬取这个链接</a>