什么是robots.txt? 如何查看robotx.txt? robots.txt限制如何解除?

一. 什么是robots.txt?

1. robots.txt是一个小文本,存放在网站的根目录。

2. robots.txt是与搜索引擎spider沟通的重要渠道,申明网站中的哪些内容可以被搜索引擎蜘蛛收录,哪些内容不可以被搜索引擎蜘蛛收录。指示搜索引擎不收录的内容将从搜索中屏蔽掉,允许搜索引擎收录的内容则可以正常展示在搜索结果中。

3. 当搜索引擎蜘蛛访问一个站点时,会首先检查该站点是否有robots.txt。如果存在,搜索引擎蜘蛛就会按照robots.txt文件上的申明来确定访问的范围;如果robots.txt不存在,搜索引擎蜘蛛就可以访问该站点上所有的内容。

百度官方建议:仅当站点中包含不希望被搜索引擎收录的内容时,才使用robots.txt;站点上所有内容都允许搜索引擎收录,则不需要使用robots.txt。

二. robots.txt的正确写法?

1. User-agent:用来描述搜索引擎robots的名字:

百度:Baiduspider

谷歌:Googlebot

360蜘蛛: 360Spider

搜狗蜘蛛:Sogou Spider

必应蜘蛛:bingbot

……

2. Disallow:用来描述不希望被访问的一组URL

描述不希望被访问的一组URL,可以是一个完整的URL路径,也可以是路径的非空前缀。

举例a:Disallow:/support

禁止robots访问/support.html、/supportaaa.html、/support/index.html等。

举例b:Disallow:/support/

允许robots访问/support.html、/supportaaa.html等;不允许robots访问/support/index.html、/support/abc.html等。

3. Allow:用来描述希望被访问的一组URL

用来描述希望被访问的一组URL,可以是一个完整的URL路径,也可以是路径的非空前缀。Allow通常与Disallow搭配使用,实现允许访问一部分网页的同时禁止访问其他URL的功能。

4. 注意:

“*”匹配任意字符, 如:User-agent: * 表示所有搜索引擎蜘蛛。

“$”匹配行结束字符,如:Disallow: /*.jpg$  表示禁止抓取所有.jpg结尾的图片。

百度官方申明:百度会严格遵守robots的相关协议,请注意区分您不想被抓取或收录的目录的大小写,百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配,否则robots协议无法生效。

三. robots.txt如何查看?

在网站域名URL后加上/robots.txt,则可以访问该站点的robots.txt文件,如:https://may90.com/robots.txt

四. robots.txt限制如何解除?

很多站长在SEO优化过程中,错误地将robots.txt禁封。如何解除呢?

1. 修改robots禁封为允许,在百度站长后台检测并更新;

2. 在百度站长后台抓取检测,如遇到抓取失败,可多提交几次;

3. 更新sitemap站点地图,并重新提交给百度;

4. 使用链接提交工具,向搜索引擎推送数据(主动推送或实时推送);

5. 到百度反馈中心说明是误操作导致了robots禁封;

6. 申请抓取频次调整。

本次的SEO优化中的robots.txt章节就分享到这里,希望能为大家抛砖引玉,有什么问题,欢迎大家在下方留言交流。

 

 


【AD】BandwagonHost:$92.30/年/2核/2G内存/40G SSD/1T流量/1Gbps/香港CMI/大阪软银/洛杉矶CN2 GIA

【AD】美国洛杉矶CN2 VPS/香港CN2 VPS/日本CN2 VPS推荐,延迟低、稳定性高、免费备份_搬瓦工vps