引导爬取你的网站的Search Engine爬虫

当搜索引擎的爬虫访问你的网站时,你可能会出于一些考虑不希望爬虫爬取某些页面。

怎样向爬虫表达我们的这种要求呢?

1. robots.txt

根据约定,爬虫会首先访问网站根目录下面的robots.txt文件,读取其中描述的爬虫规则。

换句话说,爬虫会访问http://www.your-site.com/robots.txt来获取爬虫规则。

禁止所有爬虫

User-agent: *
Disallow: /

禁止特定爬虫和特定路径

User-agent: BadBot
User-agent: Googlebot
Disallow: /private/

2. HTTP响应头

X-Robots-Tag: noindex

作用可以参见下面的meta标签部分。放在HTTP相应头中,可以让爬虫不必解析页面内容就知道如何处理当前页面。

3. meta 标签

<meta name="robots" content="noindex, nofollow" >

默认的行为可以认为是index+follow,即索引当前页面的同时也跟随当前页面上的链接。

  • noindex: 不索引当前页面
  • nofollow: 不跟随(尝试爬取)当前页面上的链接

4. HTML代码

<noindex>不要索引这里的内容</noindex>

<div class="robots-noindex">不要索引这里的内容</div>