robots协议 - 996主机资讯

目录展开

robots协议，又称为爬虫协议、机器人协议，简单地可以理解为是网站通过robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不可以抓取。就像是一个门禁设置了规则一样，哪些搜索引擎可以进入并访问哪些内容；哪些搜索引擎不可以进入或不可以访问哪些内容。本文分享SEO教程：robots协议。

一. 什么是robots协议？

robots协议其实就是robots.txt文件，放在网站的根目录，申明网站中哪些内容可以被搜索引擎抓取。搜索引擎蜘蛛在访问某一个网站时，会检查该网站的根目录下是否有robots.txt纯文本：

①. 有robots.txt，蜘蛛就会遵守robots.txt申明来确定访问范围；

②. 没有robots.txt，蜘蛛就会访问网站上所有的内容。

二. robots协议的正确写法

《什么是robots.txt? 如何查看robotx.txt? robots.txt限制如何解除？》

三. robots协议常见问题解答

1. robots协议如何查看？

在访问网站的域名后面加上“/robots.txt”，即可访问到该站点下的robots协议。

2. robots协议被限制后，如何解除？

有时候我们在操作的过程中错误地将robots协议限制，禁止搜索引擎蜘蛛抓取，那如何快速解除呢？

①. 将robots禁止抓取，修改为允许；

②. 在百度搜索资源平台检测并更新robots协议；

百度搜索资源平台 – 数据监控 – robots – 检测并更新。

③. 在百度搜索资源平台尝试“抓取诊断”。

百度搜索资源平台 – 数据监控 – 抓取诊断 – 输入“robots.txt” – 抓取。

④. 更新sitemap，并重新提交给百度；

百度搜索资源平台 – 链接提交 – sitemap。

⑤. 使用链接提交工具，向搜索引擎推送数据（主动推送或实时推送）；

⑥. 到百度反馈中心说明是误操作导致了robots禁封。

3. robots与nofollow有什么区别?

有的小伙伴在某些情况下不清楚是使用robots.txt还是nofollow，推荐阅读《robots与nofollow在实际应用中有什么区别？》。

4. robots协议能禁止抓取死链吗?

在SEO优化过程中难免会产生死链，很多小伙伴采取的方式是使用robots.txt将死链屏蔽掉，但这种方式真的可取吗？May觉得robots协议禁止抓取和屏蔽死链不能混为一谈，robots.txt是告诉搜索引擎哪些页面可以抓取哪些页面不可以抓取。如果要是被百度收录了的链接，后来因为某种原因变成了死链，然后使用robots.txt屏蔽掉这条死链？真的可以吗？事实证明即使禁止抓取，但是百度已存的索引却无法删除。最佳的方法就是将死链在百度搜索资源平台后台进行死链提交，然后百度快照投诉，这样才能彻底删除百度收录及索引。因此，建议大家不要使用robots协议来禁止搜索引擎抓取死链。

5. 搜索引擎蜘蛛如何处理robots.txt？

一般说来，几乎所有的主流搜索引擎蜘蛛都会遵循robots协议，当然也会存在并不遵守此协议的蜘蛛。

①. 如果搜索引擎蜘蛛无法找到网站的robots.txt文件，则会继续抓取该网站；

②. 如果搜索引擎蜘蛛找到网站的robots.txt文件，它通常会遵守此协议上的内容并按照要求来抓取该网站；

③. 如果搜索引擎蜘蛛在尝试访问网站robots.txt文件时遇到了错误，但无法确定是否存在，则不会抓取该网站。

四. 如何生成robots协议？

1. 手写规则生成

①. 新建一个.txt文档；

②. 手写规则，可以参考《什么是robots.txt? 如何查看robotx.txt? robots.txt限制如何解除？》中规则的写法；

③. 通过FTP上传到网站根目录；

④. 验证是否成功，在域名后面加“robots.txt”，检验是否能成功访问。

2. 站长工具生成

①. 打开站长工具网站 http://tool.chinaz.com；

②. robots文件生成 http://tool.chinaz.com/robots/；

③. 将生成的结果保存到.txt记事本，命名为robots.txt；

④. 通过FTP上传到网站根目录；

⑤. 验证。

3. 其他工具

百度搜索“robots.txt”生成工具。

以上，就是SEO教程：robots协议的全部内容。

关键词：robots协议