请放弃使用Robots.txt Noindex指令

Google在2019年7月1日就已经正式宣布Google蜘蛛将不再遵守与索引相关的robots.txt指令。依赖Robots.txt Noindex指令的发布者必须在2019年9月1日之前将其删除,并开始使用替代方法。

请放弃使用Robots.txt Noindex指令

请放弃使用Robots.txt Noindex指令

尽管Google以前从未对此进行正式说明,但在robots.txt文件中添加noindex指令已成为受支持的功能已有十多年了,在robots.txt中结合使用noindex和disallow可以帮助优化抓取效率,其中noindex指令可阻止页面显示在搜索结果中,并且禁止停止抓取页面:

Disallow: /example-page-1/
Disallow: /example-page-2/
Noindex: /example-page-1/
Noindex: /example-page-2/

而且过去有很多SEO大师指出Google大多遵守了robots.txt noindex指令。他们当时的结论是:

“最终,Robots.txt中的NoIndex指令非常有效。在我们测试的12个案例中,有11个起作用。它可能适用于您的网站,并且由于其实现方式,它为您提供了防止爬网以及将其从索引中删除的路径。

这在概念上非常有用。但是,我们的测试并未显示出100%的成功,因此它并不总是有效。”

为什么Google宣布将不再遵守Robots.txt Noindex指令呢?

不支持noindex robots.txt指令的原因是因为它不是官方指令。正如谷歌所说:

为了维护一个健康的生态系统,并为未来可能的开源版本做准备,我们将在2019年9月1日停用所有处理不受支持和未发布规则(如noindex)的代码。

这对于使用Robots.txt Noindex站点意味着什么?

如果你之前在robots.txt文件中使用noindex,谷歌将不再支持它。

如果继续在robots.txt文件中使用noindex,您将在谷歌搜索控制台中看到一个通知。

如果放弃使用Robots.txt Noindex指令,有没有其他可替代的方案?

1. 使用“noindex”元标记阻止搜索引擎索引

为了防止搜索引擎爬行器索引页面,可以使用“noindex”元标记并将其添加到页面head标签部分。

< meta name = “robots” content =”noindex”>

或者,您可以使用HTTP响应头和一个X-Robots-Tag指示爬虫程序不索引页面

HTTP / 1.1 200 OK

(…)

X-Robots-Tag: noindex

2. 使用404和410 HTTP状态码

404状态码表示所请求的页面不存在或已被删除!

404状态码表示被请求的资源在服务器上已经不再可用。

410是当目标资源在源服务器上不再可用时返回的状态码。

这两个状态代码都表示该页面不存在,一旦对这些URL进行抓取和处理,就会从Google的索引中删除这些URL。

3. 使用密码保护

您可以在登录之后隐藏页面,因为谷歌不会索引隐藏在付费内容或登录之后的页面。

4. Robots.txt设置禁止Google Bot抓取

您可以使用robots.txt文件中的disallow指令来指示搜索引擎不允许对所选页面进行索引,这仅仅意味着告诉搜索引擎不要抓取特定的页面。

5. 使用谷歌站长工具Google Search Console删除URL工具

您可以使用谷歌站长工具Google Search Console删除URL工具从搜索结果中临时删除URL,将持续90天。如果希望永久删除,则可以使用上面建议的四种方法中的任何一种。

如果您有使用或打算继续使用Robots.txt Noindex,建议您尽早放弃使用!因为借用这种方法来禁止谷歌蜘蛛抓取已经完全失效。


【AD】BandwagonHost:$92.30/年/2核/2G内存/40G SSD/1T流量/1Gbps/香港CMI/大阪软银/洛杉矶CN2 GIA

【AD】美国洛杉矶CN2 VPS/香港CN2 VPS/日本CN2 VPS推荐,延迟低、稳定性高、免费备份_搬瓦工vps