1. 您的位置:首页 > seo技术 >内容

3 robots.txt文件的常见用途

尽管存在相当自我解释的robots.txt标准,但一体化教程和高级提示,robots.txt主题仍然经常被误解和滥用。因此,我决定总结一个主题,给出文件的三个最常见的用途,以便在损失时参考。

默认robots.txt.

默认robots.txt文件基本上告诉每个遗留者,它允许任何网站目录到其心内容:

用户代理: *

不允许:

翻译为“禁止没有”

这里经常问过的问题是为什么要使用它。嗯,它不是必需的,但建议使用搜索机器人的简单原因无论如何吗(这意味着您可以在请求不存在的robots.txt页面的机器人中看到日志文件中的404错误)。此外,默认robots.txt将确保您的网站与爬虫之间不会存在任何误解。

robots.txt阻止特定文件夹/内容:

robots.txt最常见的使用是禁止爬行者froM访问私人文件夹或内容,提供给他们的其他信息。这主要是为了挽救爬虫的时间:BOTS在预算上爬行 - 如果您确保它不会浪费时间在不必要的内容上,它将爬行您的网站更深入且更快。

robots.txt文件的样本阻止特定内容(注意:我只突出显示了最少的最基本情况):

用户代理: *

禁止:/数据库/

阻止来自/数据库/文件夹的所有爬虫

用户代理: *

不允许: /*?

阻止包含所有URL的所有爬虫?

用户代理: *

禁止:/海军/

允许:/navy/about.html.

阻止来自/ navy /文件夹的所有爬虫,但允许从此文件夹访问一个页面

John Mueller注释如下:

robots.txt允许访问特定的爬虫

有些人选择节省带宽并允许只能访问他们关心的那些爬虫(例如,雅虎和MSN)。在这种情况下,robots.txt文件应列出这些机器人,然后是命令本身,等:

用户代理:*

不允许: /

用户代理:GoogleBot

不允许:

用户代理:SLURP

不允许:

用户代理:msnbot

不允许:机器人

第一部分阻止了所有爬虫,而以下3个块列出允许访问整个站点的3个爬虫

需要高级robots.txt使用情况?

我倾向于推荐人们在robots.txt文件中避免做任何太棘手的东西,除非他们在主题中100%知识渊博。 Messed-up robots.txt文件可以导致螺纹项目启动。

许多人花了几个月和几个月试图弄清楚为什么在爬行者忽略了网站,直到他们意识到(通常是一些外部帮助),他们误用了他们的机器人。控制爬网程序活动的更好解决方案可能是逃避页面解决方案(机器人元标签)。亚伦做得很好地总结了他的指南(页面底部)的差异。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.botadmin.cn/sylc/1132.html