什么是robots.txt? 如何查看robotx.txt? robots.txt限制如何解除？

目录展开

一. 什么是robots.txt？

1. robots.txt是一个小文本，存放在网站的根目录。

2. robots.txt是与搜索引擎spider沟通的重要渠道，申明网站中的哪些内容可以被搜索引擎蜘蛛收录，哪些内容不可以被搜索引擎蜘蛛收录。指示搜索引擎不收录的内容将从搜索中屏蔽掉，允许搜索引擎收录的内容则可以正常展示在搜索结果中。

3. 当搜索引擎蜘蛛访问一个站点时，会首先检查该站点是否有robots.txt。如果存在，搜索引擎蜘蛛就会按照robots.txt文件上的申明来确定访问的范围；如果robots.txt不存在，搜索引擎蜘蛛就可以访问该站点上所有的内容。

百度官方建议：仅当站点中包含不希望被搜索引擎收录的内容时，才使用robots.txt；站点上所有内容都允许搜索引擎收录，则不需要使用robots.txt。

1. User-agent：用来描述搜索引擎robots的名字：

百度：Baiduspider

谷歌：Googlebot

360蜘蛛： 360Spider

搜狗蜘蛛：Sogou Spider

必应蜘蛛：bingbot

……

2. Disallow：用来描述不希望被访问的一组URL

描述不希望被访问的一组URL，可以是一个完整的URL路径，也可以是路径的非空前缀。

举例a：Disallow:/support

禁止robots访问/support.html、/supportaaa.html、/support/index.html等。

举例b：Disallow:/support/

允许robots访问/support.html、/supportaaa.html等；不允许robots访问/support/index.html、/support/abc.html等。

3. Allow：用来描述希望被访问的一组URL

用来描述希望被访问的一组URL，可以是一个完整的URL路径，也可以是路径的非空前缀。Allow通常与Disallow搭配使用，实现允许访问一部分网页的同时禁止访问其他URL的功能。

4. 注意：

“*”匹配任意字符，如：User-agent: * 表示所有搜索引擎蜘蛛。

“$”匹配行结束字符，如：Disallow: /*.jpg$ 表示禁止抓取所有.jpg结尾的图片。

百度官方申明：百度会严格遵守robots的相关协议，请注意区分您不想被抓取或收录的目录的大小写，百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配，否则robots协议无法生效。

在网站域名URL后加上/robots.txt，则可以访问该站点的robots.txt文件，如：https://may90.com/robots.txt

很多站长在SEO优化过程中，错误地将robots.txt禁封。如何解除呢？

1. 修改robots禁封为允许，在百度站长后台检测并更新；

2. 在百度站长后台抓取检测，如遇到抓取失败，可多提交几次；

3. 更新sitemap站点地图，并重新提交给百度；

4. 使用链接提交工具，向搜索引擎推送数据（主动推送或实时推送）；

5. 到百度反馈中心说明是误操作导致了robots禁封；

6. 申请抓取频次调整。

本次的SEO优化中的robots.txt章节就分享到这里，希望能为大家抛砖引玉，有什么问题，欢迎大家在下方留言交流。