如何正确使用robots.txt文件？

当您网站在进行SEO优化工作时，robots.txt文件是一个功能强大的工具，但应谨慎对待。它可以允许或拒绝搜索引擎访问不同的文件和文件夹，我们应该如何正确使用robots.txt文件？

如何正确使用robots.txt文件？

搜索引擎不断改进爬行方式和算法，这意味着几年前的最佳做法不再起作用，甚至可能损害您的网站。

如今，最佳做法意味着尽可能少地依赖robots.txt文件。实际上，只有在您遇到复杂的技术难题或没有其他选择时，才真正需要阻止robots.txt文件中的URL。

对于大多数网站，以下示例是最佳做法：

User-agent: *
Allow: /

我们甚至在自己的robots.txt文件中使用此方法。

该代码的作用是什么？

该User-agent: *说明指出，以下任何说明都适用于所有的搜索引擎。

因为我们没有提供任何进一步的说明，所以我们说“所有爬网程序都可以不受限制地自由爬行该网站”。

如果您想防止搜索引擎对WordPress网站的某些部分进行爬网或编制索引，通常最好通过添加meta robots标签或robots HTTP标头来做到这一点。

在搜索结果的可见性之前，搜索引擎需要发现、爬网和索引页面。如果您已通过robots.txt阻止了某些URL，则搜索引擎将无法再通过这些页面来发现其他页面。这可能意味着关键页面不会被发现。

Robots.txt拒绝链接值

SEO的基本规则之一是来自其他页面的链接会影响您的性能。如果某个URL被阻止，不仅搜索引擎不会对其进行爬网，而且它们也可能不会将指向该URL的任何“链接值”或通过该URL分发给网站上的其他页面。

Google全面呈现您的网站

人们过去常常阻止对CSS和JavaScript文件的访问，以使搜索引擎专注于那些最重要的内容页面。

如今，Google会获取您所有的样式和JavaScript，并完全呈现您的页面。了解页面的布局和表示形式是评估质量的关键部分。因此，当您拒绝Google 访问CSS或JavaScript文件时，Google根本不喜欢它。

您（通常）不需要链接到您的站点地图

robots.txt标准支持将指向您的XML网站地图的链接添加到该文件。这有助于搜索引擎发现站点的位置和内容。

我们一直觉得这是多余的。您应该已经通过将站点地图添加到 Google Search Console和Bing网站管理员工具帐户中来访问分析和效果数据。如果这样做，则在robots.txt文件中不需要引用。