3 robots.txt文件的常见用途-BotAdmin站掌门

尽管存在相当自我解释的robots.txt标准，但一体化教程和高级提示，robots.txt主题仍然经常被误解和滥用。因此，我决定总结一个主题，给出文件的三个最常见的用途，以便在损失时参考。

默认robots.txt.

默认robots.txt文件基本上告诉每个遗留者，它允许任何网站目录到其心内容：

用户代理： *

不允许：

（

翻译为“禁止没有”

）

这里经常问过的问题是为什么要使用它。嗯，它不是必需的，但建议使用搜索机器人的简单原因无论如何吗（这意味着您可以在请求不存在的robots.txt页面的机器人中看到日志文件中的404错误）。此外，默认robots.txt将确保您的网站与爬虫之间不会存在任何误解。

robots.txt阻止特定文件夹/内容：

robots.txt最常见的使用是禁止爬行者froM访问私人文件夹或内容，提供给他们的其他信息。这主要是为了挽救爬虫的时间：BOTS在预算上爬行 - 如果您确保它不会浪费时间在不必要的内容上，它将爬行您的网站更深入且更快。

robots.txt文件的样本阻止特定内容（注意：我只突出显示了最少的最基本情况）：

用户代理： *

禁止：/数据库/

（

阻止来自/数据库/文件夹的所有爬虫

）

用户代理： *

不允许： /*？

（

阻止包含所有URL的所有爬虫？

）

用户代理： *

禁止：/海军/

允许：/navy/about.html.

（

阻止来自/ navy /文件夹的所有爬虫，但允许从此文件夹访问一个页面

）

John Mueller注释如下：

robots.txt允许访问特定的爬虫

有些人选择节省带宽并允许只能访问他们关心的那些爬虫（例如，雅虎和MSN）。在这种情况下，robots.txt文件应列出这些机器人，然后是命令本身，等：

用户代理：*

不允许： /

用户代理：GoogleBot

不允许：

用户代理：SLURP

不允许：

用户代理：msnbot

不允许：机器人

（

第一部分阻止了所有爬虫，而以下3个块列出允许访问整个站点的3个爬虫

）

需要高级robots.txt使用情况？

我倾向于推荐人们在robots.txt文件中避免做任何太棘手的东西，除非他们在主题中100％知识渊博。 Messed-up robots.txt文件可以导致螺纹项目启动。

许多人花了几个月和几个月试图弄清楚为什么在爬行者忽略了网站，直到他们意识到（通常是一些外部帮助），他们误用了他们的机器人。控制爬网程序活动的更好解决方案可能是逃避页面解决方案（机器人元标签）。亚伦做得很好地总结了他的指南（页面底部）的差异。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。如若转载，请注明出处:http://www.botadmin.cn/sylc/1132.html

3 robots.txt文件的常见用途