过去两年中抓取预算的变化情况

作者:站群原创• 更新时间：2022-01-31 12:43:09 •阅读:1128

了解搜寻预算是SEO经常被忽略的部分。但是我的团队写了一篇关于该主题的两年老文章，实际上是SEO行业的悠久历史。因此，在本文中，我将解释在过去几年中我们对爬网预算的理解如何变化，保持不变以及对您的爬网预算优化工作意味着什么。

什么是抓取预算，为什么重要？

用于从网页收集信息的计算机程序称为网络蜘蛛，爬虫或漫游器。这些可能是恶意的（例如，黑客蜘蛛）或有益的（例如，搜索引擎和Web服务蜘蛛）。例如，我公司的反向链接索引是使用一个名为BLEXBot的蜘蛛建立的，该蜘蛛每天抓取多达75亿个页面，收集反向链接数据。

当我们谈论抓取预算时，实际上是在谈论搜索引擎抓取工具抓取您的网页的频率。根据Google的说法，抓取预算是您的抓取速度限制（即确保Googlebot这样的机器人不会频繁抓取您的页面以至于损害服务器的限制）和抓取需求（即Google希望抓取的数量）的组合您的页面）。

优化抓取预算意味着增加蜘蛛“访问”每个页面，收集信息并将该数据发送到负责索引和评估内容质量的其他算法的频率。简而言之，您的抓取预算越好，当您对网站进行更改时，信息在搜索引擎索引中的更新速度就越快。

但是不用担心。除非您运行的是大型网站（数百万或数十亿个URL），否则您将永远不必担心爬网预算：

IMO爬网预算被高估。大多数站点都无需为此担心。这是一个有趣的话题，如果您要爬网或运行数十亿个URL的网站，这一点很重要，但对于普通网站所有者而言，则不那么重要。
—？约翰？（@JohnMu）2018年5月30日

那么，为什么还要烦恼抓取预算优化呢？因为即使您不需要提高抓取预算，这些技巧也包含了许多可以改善网站整体运行状况的良好做法。

我认为这是值得澄清的。删除25个无用的页面对于精简网站非常有用，并且可以帮助用户避免在那里迷路，但这不是一个爬网预算问题。人们会这样做只是为了获得SEO奖金吗？我们如何能帮助您帮助他们？
—？约翰？（@JohnMu）2018年5月30日

而且，正如约翰·穆勒（John Mueller）在同一主题中所解释的那样，拥有精简网站的潜在好处包括更高的转化率，即使这些转化率不能保证影响到SERP中页面的排名。

当然可以，但值得一提的是潜在影响的大小。如果我们每天可以从您的网站抓取5万页，那么从1000页到900页的总页数是否会对抓取有所改变？并非如此，但也许可以增加转化率，对吗？
—？约翰？（@JohnMu）2018年5月30日

什么保持不变？

在2018年12月14日的Google网站管理员环聊中，约翰被问到如何确定其抓取预算。他解释说，很难固定下来，因为抓取预算不是面向外部的指标。

他还说：

“ [预算预算]随时间变化很大。 我们的算法非常动态，它们会尝试对您在网站上所做的更改做出快速反应……这并不是一次分配给网站的内容。”

他用一些示例说明了这一点：

如果您进行了一些诸如未正确设置CMS的操作，则可以减少抓取预算。 Googlebot可能会在一两天内注意到您的网页运行缓慢，并且爬行速度变慢。
如果您改善了网站，则可以增加抓取预算（通过迁移到CDN或更快地提供内容）。 Googlebot会注意到，您的抓取需求也会增加。

这与我们几年前对抓取预算的了解一致。现在，许多用于优化抓取预算的最佳做法也同样适用：

1.不要阻止重要页面

您需要确保所有重要页面都是可爬网的。如果您的.htaccess和robots.txt禁止搜索引擎抓取基本页面的能力，那么内容将不会给您带来任何价值。

相反，您可以使用脚本将搜索漫游器引导到不重要的页面。请注意，如果您禁止大量内容或受限制的页面收到大量传入链接，并且仍然可以抓取这些页面，则Googlebot可能会认为您犯了一个错误。

页面<head>部分中的以下meta标记将阻止大多数搜索引擎机器人将您网站上的页面编入索引：<meta name =“ robots” content =“ noindex”>

您还可以使用以下元标记专门阻止Google抓取您的网页：<meta name =“ googlebot” content =“ noindex”>

或者，您可以返回“ noindex” X-Robots-Tag标头，指示蜘蛛程序不要为您的页面编制索引：X-Robots-Tag：noindex

2.尽可能使用HTML

Googlebot在抓取JavaScript，Flash和XML等富媒体文件方面已经有了很多进步，但是其他搜索引擎bot仍然在处理其中许多文件方面遇到困难。我建议尽可能避免使用纯HTML格式的这些文件。您可能还想为搜索引擎机器人提供严重依赖这些富媒体文件的页面文本版本。

3.修复长重定向链

每个重定向的URL都会浪费您的抓取预算。更糟糕的是，如果搜索引擎连续遇到不合理数量的301和302重定向，它们可能会停止遵循重定向。尝试限制您网站上的重定向次数，并连续使用两次。

4.告诉Googlebot URL参数

如果您的CMS生成了大量的动态URL（就像许多流行的URL一样），那么您可能会浪费您的爬网预算-甚至可能对重复的内容发出危险信号。要通知Googlebot您的网站引擎或CMS添加的不会影响页面内容的URL参数，只需将参数添加到Google Search Console中（转到“抓取> URL参数” ）。

5.更正HTTP错误

John在2017年末纠正了一个常见的误解，澄清了404和410页实际上确实在使用您的抓取预算。由于您不想将爬网预算浪费在错误页面上，或者使尝试访问这些页面的用户感到困惑，因此，最好的办法是搜索HTTP错误并尽快修复它们。

6.保持最新的站点地图

干净的XML网站地图将帮助用户和漫游器了解内部链接在何处以及网站的结构。您的站点地图应仅包含规范网址（在涉及Google的情况下，站点地图是规范化信号），并且应与robots.txt文件保持一致（不要告诉蜘蛛抓取您阻止了它们的页面）。

7.使用rel =“ canonical”避免重复的内容

说到规范化，您可以使用rel =” canonical”来告诉bot哪个URL是页面的主要版本。但是，为了以防万一，请确保页面各个版本中的所有内容都对齐是您的最大利益。自Google于2016年引入移动设备首次索引以来，他们经常默认将页面的移动版本作为规范版本。

8.使用hreflang标记指示国家/语言

漫游器使用hreflang标记来了解页面的本地化版本，包括特定于语言和区域的内容。您可以使用HTML标签，HTTP标头或站点地图来向Google指示本地化的页面。去做这个：

您可以在页面标题中添加以下链接元素：<link rel =” alternate” hreflang =” lang_code ” href =“” url_of_page ” />

您可以通过指定支持的语言/区域代码来返回HTTP标头，以告知Google页面上的语言变体（也可以将其用于非HTML文件，例如PDF）。您的标头格式应如下所示：Link：< url1 >; rel =“ alternate”; hreflang =” lang_code_1 ”

您可以将<loc>元素添加到特定的URL，并指示包含页面的每个本地化版本的子条目。该页面将教您更多有关如何设置语言的信息-以及特定于区域的页面，这些页面将帮助搜索引擎机器人抓取您的页面。

有什么变化？

自从我们在2017年撰写原始文章以来，有两个主要变化。

首先，我不再推荐RSS源。在剑桥分析公司（Cambridge Analytica）丑闻过后，由于许多用户都避开了社交媒体算法，RSS有所回升-但它并未得到广泛使用（也许新闻记者除外），并且它并未取得重大回升。

第二，作为原始文章的一部分，我们进行了一项实验，该实验表明外部链接与爬网预算之间存在很强的相关性。似乎表明，增加链接配置文件将有助于网站的抓取预算按比例增长。

前面提到的Google网站站长视频群聊似乎证实了这一发现; John提到，网站的抓取预算“很大程度上取决于我们这方面的需求”。

但是，当我们试图对研究进行最终更新时，我们无法重新创建这些原始发现。相关性非常松散，这表明自2017年以来Google的算法已经变得更加复杂。

就是说，请不要阅读此内容，不要以为“太好了，我可以停止链接构建！”

链接仍然是Google和其他搜索引擎用来判断相关性和质量的最重要信号之一。 因此，虽然链接构建对于提高抓取预算并不是必不可少的，但是当您要提高SEO时，它应该是当务之急。

就是这样！如果您想了解有关抓取预算的更多信息，我建议您查阅斯蒂芬·斯潘塞（Stephan Spencer）的由三部分组成的关于机器人成群和蜘蛛争夺的指南。

本文中表达的观点是来宾作者的观点，不一定是Search Engine Land。 工作人员作者在此处列出。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。如若转载，请注明出处:http://www.botadmin.cn/sylc/10196.html

站群引流中山站群优化推广站群专用服务器

过去两年中抓取预算的变化情况

什么是抓取预算，为什么重要？

什么保持不变？

有什么变化？

过去两年中抓取预算的变化情况相关推荐