一. 什么是robots.txt?
1. robots.txt是一个小文本,存放在网站的根目录。
2. robots.txt是与搜索引擎spider沟通的重要渠道,申明网站中的哪些内容可以被搜索引擎蜘蛛收录,哪些内容不可以被搜索引擎蜘蛛收录。指示搜索引擎不收录的内容将从搜索中屏蔽掉,允许搜索引擎收录的内容则可以正常展示在搜索结果中。
3. 当搜索引擎蜘蛛访问一个站点时,会首先检查该站点是否有robots.txt。如果存在,搜索引擎蜘蛛就会按照robots.txt文件上的申明来确定访问的范围;如果robots.txt不存在,搜索引擎蜘蛛就可以访问该站点上所有的内容。
百度官方建议:仅当站点中包含不希望被搜索引擎收录的内容时,才使用robots.txt;站点上所有内容都允许搜索引擎收录,则不需要使用robots.txt。
二. robots.txt的正确写法?
1. User-agent:用来描述搜索引擎robots的名字:
百度:Baiduspider
谷歌:Googlebot
360蜘蛛: 360Spider
搜狗蜘蛛:Sogou Spider
必应蜘蛛:bingbot
……
2. Disallow:用来描述不希望被访问的一组URL
描述不希望被访问的一组URL,可以是一个完整的URL路径,也可以是路径的非空前缀。
举例a:Disallow:/support
禁止robots访问/support.html、/supportaaa.html、/support/index.html等。
举例b:Disallow:/support/
允许robots访问/support.html、/supportaaa.html等;不允许robots访问/support/index.html、/support/abc.html等。
3. Allow:用来描述希望被访问的一组URL
用来描述希望被访问的一组URL,可以是一个完整的URL路径,也可以是路径的非空前缀。Allow通常与Disallow搭配使用,实现允许访问一部分网页的同时禁止访问其他URL的功能。
4. 注意:
“*”匹配任意字符, 如:User-agent: * 表示所有搜索引擎蜘蛛。
“$”匹配行结束字符,如:Disallow: /*.jpg$ 表示禁止抓取所有.jpg结尾的图片。
百度官方申明:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。
三. robots.txt如何查看?
在网站域名URL后加上/robots.txt,则可以访问该站点的robots.txt文件,如:https://may90.com/robots.txt
四. robots.txt限制如何解除?
很多站长在SEO优化过程中,错误地将robots.txt禁封。如何解除呢?
1. 修改robots禁封为允许,在百度站长后台检测并更新;
2. 在百度站长后台抓取检测,如遇到抓取失败,可多提交几次;
3. 更新sitemap站点地图,并重新提交给百度;
4. 使用链接提交工具,向搜索引擎推送数据(主动推送或实时推送);
5. 到百度反馈中心说明是误操作导致了robots禁封;
6. 申请抓取频次调整。
本次的SEO优化中的robots.txt章节就分享到这里,希望能为大家抛砖引玉,有什么问题,欢迎大家在下方留言交流。