这是我追踪Googlebot 3个月后发生的事情

作者:站群原创• 更新时间：2022-01-30 08:43:09 •阅读:1319

在互联网论坛和与内容相关的Facebook小组上，人们经常讨论Googlebot的工作原理（在这里我们将其称为GB），它可以看到和看不到的东西，访问的链接类型以及对SEO的影响。

在本文中，我将介绍为期三个月的实验结果。

在过去的三个月中，GB几乎每天都在拜访我，就像一个朋友来我这里喝啤酒。

有时它是一个人：

[02/09/2018 18:29:49]： 66.249.76.136 /page1.html Mozilla / 5.0（兼容; Googlebot / 2.1; + http：//www.google.com/bot.html）

[02/09/2018 19:45:23]： 66.249.76.136 /page5.html Mozilla / 5.0（兼容; Googlebot / 2.1; + http：//www.google.com/bot.html）

[02/09/2018 21:01:10]： 66.249.76.140 /page3.html Mozilla / 5.0（兼容; Googlebot / 2.1; + http：//www.google.com/bot.html）

[02/09/2018 21:01:11]： 66.249.64.72 /page2.html Mozilla / 5.0（兼容; Googlebot / 2.1; + http：//www.google.com/bot.html）

[02/09/2018 23:32:45]： 66.249.64.72 /page6.html Mozilla / 5.0（兼容; Googlebot / 2.1; + http：//www.google.com/bot.html）

有时它带来了它的伙伴：

[16/09/2018 19:16:56]： 64.233.172.231 /page1.html Mozilla / 5.0（X11; Linux x86_64）AppleWebKit / 537.36（KHTML，如Gecko; Google Search Console）Chrome / 41.0.2272.118 Safari / 537.36

[16/09/2018 19:26:08]： 66.249.69.235 /image.jpg Googlebot-Image / 1.0

[27/08/2018 23:37:54]： 66.249.76.156 /page2.html Mozilla / 5.0（Linux; Android 6.0.1; Nexus 5X Build / MMB29P）AppleWebKit / 537.36（KHTML，like Gecko）Chrome / 41.0。 2272.96移动Safari / 537.36（兼容; Googlebot / 2.1; + http：//www.google.com/bot.html）

我们在玩各种游戏时玩得很开心：

捕获：我观察了GB如何喜欢运行重定向301和抓取图像以及从规范中运行。

捉迷藏： Googlebot隐藏了隐藏的内容（如其父母所言，它不会容忍和避免）

生存：我准备了陷阱，并等待陷阱弹起。

障碍：我以各种难度放置障碍，以了解我的小朋友将如何处理它们。

您可能会说，我并不失望。我们玩得很开心，并且成为了好朋友。我相信我们的友谊有美好的未来。

但是，让我们直说吧！

我建立了一个网站，内容涉及与星际旅行社有关的功绩，该星际旅行社提供飞往我们银河系及其他地区尚未发现的行星的航班。

内容似乎有很多优点，而实际上却是胡说八道。

实验性网站的结构如下：

我提供了独特的内容，并确保每个锚点/标题/替代文字以及其他系数在全局上都是唯一的（假单词）。为了使读者更容易理解，在说明中，我将不使用诸如anchor cutroicano matestito之类的名称，而是将其称为anchor1 ，等等。

建议您在阅读本文时，在单独的窗口中打开上面的地图。

第1部分：第一个链接计数

我想在此SEO实验中测试的一件事是“第一链接计数”规则-它是否可以省略以及它如何影响优化。

“第一个链接计数”规则表示，在页面上，Google Bot仅看到指向子页面的第一个链接。如果在一个页面上有两个链接到同一子页面，则根据此规则，将忽略第二个链接。在计算页面排名时，Google Bot将忽略第二个链接以及每个连续链接中的锚。

这是一个由许多专家广泛监督的问题，但尤其是在在线商店中存在着一个问题，在这些商店中，导航菜单极大地扭曲了网站的结构。

在大多数商店中，我们都有一个静态的（在页面源代码中可见的）下拉菜单，例如，该菜单提供了指向主要类别的四个链接和指向子类别的25个隐藏链接。在页面结构的映射过程中，GB会看到所有链接（在具有菜单的每个页面上），这导致所有页面在映射过程中具有同等的重要性，并且它们的功能（汁液）平均分配，如下所示：

我认为最常见但错误的页面结构。

上面的示例不能称为适当的结构，因为所有类别都是从有菜单的所有站点链接在一起的。因此，主页以及所有类别和子类别都具有相等数量的传入链接，并且整个Web服务的力量以相等的力量流过它们。因此，主页的功能（由于传入链接的数量而通常是大多数功能的来源）被划分为24个类别和子类别，因此它们中的每一个仅获得该功能的4％。主页。

结构外观：

如果您需要像Google一样快速测试页面的结构并对其进行爬网，Screaming Frog是一个有用的工具。

在此示例中，主页的功能被分为四个，每个类别都接收到25％的主页功能，并将其一部分分配给子类别。此解决方案还提供了更好的内部链接机会。例如，当您在商店的博客上写文章并希望链接到其中一个子类别时，GB在爬网网站时会注意到该链接。在第一种情况下，由于“第一链接计数”规则，它将不会执行此操作。如果指向子类别的链接位于网站的菜单中，则文章中的链接将被忽略。

我通过以下操作开始了此SEO实验：

首先，在page1.html上，我包含一个指向子页面page2.html的链接，作为带有锚点的经典dofollow链接：anchor1。
接下来，在同一页上的文字中，我加入了一些稍作修改的参考，以验证GB是否渴望检索它们。

为此，我测试了以下解决方案：

在Web服务的主页上，我为一个带有URL锚的短语分配了一个外部dofollow链接（因此，毫无疑问，主页和给定短语的子页面的任何外部链接都是如此）–它加快了该服务的索引编制速度。
我等待page2.html开始对来自page1.html的第一个dofollow链接（anchor1）中的短语进行排名。在目标页面上找不到该虚假短语或我测试过的其他任何短语。我假设如果其他链接有效，那么page2.html还将在搜索结果中排名其他链接的其他短语。花了大约45天。然后，我得出了第一个重要结论。

即使是一个既不在内容中也不在元标题中但与研究的锚链接在一起的关键字的网站，也可以轻松地在搜索结果中排名高于包含该单词但未链接到关键字的网站。

而且，包含研究短语的主页（page1.html）是Web服务中最强的页面（从78％的子页面链接到该页面），但在研究短语上的排名仍然低于子页面（page2.html）。）链接到所研究的词组。

在下面，我介绍了我测试过的四种类型的链接，所有这些链接都位于指向page2.html的第一个dofollow链接之后。

链接到具有锚点的网站

<a href =” page2.html#testhash”> anchor2 </ a>

dofollow链接后面的代码中出现的第一个附加链接是带有锚点的链接（井号）。我想看看GB是否会通过该链接，并且是否在短语anchor2下索引page2.html，尽管该链接指向该页面（page2.html），但URL更改为page2.html#testhash使用了anchor2 。

不幸的是，GB从未想起那种连接，它也没有将电源指向该短语的子页面page2.html。结果，在撰写本文之日，针对短语anchor2的搜索结果中，只有子页面page1.html，在该页面中可以在链接的锚点中找到该词。谷歌搜索短语testhash时，我们的域也未排名。

使用参数链接到网站

page2.html？parameter = 1

最初，GB对紧随查询标记和anchor3链接内的锚点之后的URL的这一有趣部分感兴趣。

出于好奇，GB试图弄清楚我的意思。它想，“这是一个谜吗？” 为了避免索引其他URL下的重复内容，规范的page2.html指向自身。日志在该地址上共记录了8个爬网，但得出的结论相当可悲：

2周后，GB的访问频率显着下降，直到它最终离开并且再也没有爬行该链接为止。
page2.html未在词组anchor3下建立索引，URL parameter1的参数也未建立索引。根据Search Console，此链接不存在（不计入传入链接中），但同时，词组anchor3被列为锚定短语。

从重定向链接到网站

我想迫使GB爬网更多，这导致GB每两天在page1.html上使用锚anchor4进入dofollow链接，从而导致page3.html，该页面以301代码重定向到page2.html。不幸的是，就像带有参数的页面一样，在45天之后，page2.html尚未在出现在page1.html重定向链接中的anchor4短语的搜索结果中排名。

但是，在Google Search Console的“锚文本”部分中，anchant4是可见的并已建立索引。这可能表明一段时间后，重定向将开始按预期运行，因此尽管page2.html是指向同一网站内同一目标页面的第二个链接，但仍将在anchor4的搜索结果中排名。

使用规范标签链接到页面

在page1.html上，我用锚anchor5放置了对page5.html的引用（以下链接）。同时，在page5.html上有唯一的内容，并且在页面的头上有一个page2.html的规范标记。

<link rel = “ canonical ” href =” https://example.com/page2.html” />

该测试得出以下结果：

指向page5.html的规范链接（直接重定向到page2.html）的anchor5短语的链接未转移到目标页面（就像在其他情况下一样）。
尽管使用了规范标签，但仍对page5.html进行了索引。
page5.html没有在anchor5的搜索结果中排名。
page5.html在页面文本中使用的短语上排名，这表明GB完全忽略了规范标签。

我敢断言使用rel = canonical来防止某些内容的索引编制（例如，在过滤时）根本行不通。

第2部分：抓取预算

在设计SEO策略时，我想让GB随心所欲而不是反其道而行之。为此，我在服务器日志（访问日志和错误日志）级别上验证了SEO流程，这为我提供了巨大的优势。多亏了这一点，我知道了GB的所有动向以及它对我在SEO活动中引入的更改（网站重组，内部链接系统颠倒，显示信息的方式）的反应。

在SEO活动期间，我的任务之一是重建网站，使GB仅访问那些能够对其进行索引并且希望对其进行索引的URL。简而言之：从Google索引中的SEO角度来看，应该只存在对我们重要的页面。另一方面，GB应该只抓取我们希望被Google索引的网站，这对每个人来说都不是显而易见的，例如，当一家网上商店通过颜色，大小和价格进行过滤时，它是通过操纵URL参数，例如：

example.com/women/shoes/?color=red&size=40&price=200-250

事实证明，允许GB爬网动态URL的解决方案使它花费时间搜索（并可能建立索引）而不是爬网页面。

example.com/women/shoes/

这种动态创建的URL不仅无用，而且可能对SEO有害，因为它们可能被误认为是稀疏内容，这将导致网站排名下降。

在这个实验中，我还想检查一些构造方法，而不使用rel =” nofollow”，在robots.txt文件中阻止GB或将部分HTML代码放在该机器人不可见的框架中（阻止的iframe）。

我测试了三种JavaScript链接。

具有onclick事件的JavaScript链接

一个基于JavaScript构建的简单链接

<a href =” javascript：void（0）” onclick =” window.location.href ='page4.html'”> anchor6 </ a>

GB可以轻松地移至子页面page4.html并为整个页面建立索引。该子页面未在anchor6词组的搜索结果中排名，并且无法在Google Search Console的“锚文本”部分中找到该词组。结论是链接没有转移果汁。

总结一下：

经典的JavaScript链接可让Google抓取该网站并为其访问的页面建立索引。
它不转移汁液-它是中性的。

具有内部功能的Javascript链接

我决定提高游戏质量，但令我惊讶的是，GB在链接发布后不到2小时内克服了障碍。

<A HREF =“JavaScript的：无效（0）”类=” JS-链接”数据-URL =” page9.html”> anchor7 </ A>

为了操作该链接，我使用了一个外部函数，该函数旨在从数据中读取URL以及重定向（如我希望的那样，仅重定向用户）到目标page9.html。与先前的情况一样，page9.html已被完全索引。

有趣的是，尽管缺少其他传入链接，page9.html是GB在整个Web服务中访问量排名第三的页面，仅次于page1.html和page2.html。

在构造Web服务之前，我曾使用过这种方法。但是，正如我们所看到的，它不再起作用。在SEO中，除了黄页之外，没有任何东西永远存在。

带编码的JavaScript链接

尽管如此，我还是不放弃，我决定必须有一种方法可以有效地关闭GB的大门。因此，我构造了一个简单的函数，使用base64算法对数据进行编码，引用看起来像这样：

<a href =” javascript：void（0）” class =“ js-link” data-url =“ cGFnZTEwLmh0bWw =”> anchor8 </ a>

结果，GB无法生成JavaScript代码，该代码既可以解码数据URL属性的内容，又可以重定向。就在这里！我们有一种结构化Web服务的方法，而无需使用rel = nonfollows来防止漫游器爬到他们喜欢的任何地方！这样，我们就不会浪费我们的抓取预算，这在大型Web服务的情况下尤其重要，而GB最终可以满足我们的要求。无论是在首页的同一页上引入该功能还是在外部JS文件中引入该功能，服务器日志或Search Console中都没有机器人的迹象。

第3部分：隐藏内容

在最后的测试中，我想检查是否应考虑GB来考虑和索引隐藏选项卡中的内容，或者像某些专家声称的那样，Google是否渲染了这样的页面并忽略了隐藏的文本。

我想确认或驳回这一主张。为此，我在page12.html上放置了一面带有2000多个符号的文本墙，并在“层叠样式表”中隐藏了一个文本块，其中包含大约20％的文本（400个符号），并添加了显示更多按钮。在隐藏的文本中，有一个指向锚13的page13.html链接。

毫无疑问，机器人可以呈现页面。我们可以在Google Search Console和Google Insight Speed中观察到它。不过，我的测试表明，单击“显示更多”按钮后显示的一段文本已完全索引。隐藏在搜索结果中的文本中隐藏的短语和GB跟随文本中隐藏的链接。此外，来自隐藏文本块的链接的锚点在Google Search Console的“锚点文本”部分中可见，并且page13.html也开始在关键字anchor9的搜索结果中排名。

这对于在线商店至关重要，因为在线商店通常将内容放置在隐藏的选项卡中。现在我们确定GB可以在隐藏的选项卡中看到内容，对其进行索引，并从隐藏在其中的链接中传输果汁。

我从该实验中得出的最重要结论是，我还没有找到使用修改后的链接（带参数的链接，301重定向，规范，锚链接）绕过“第一链接计数”规则的直接方法。同时，可以使用Javascript链接构建网站的结构，因此，我们不受“第一链接计数”规则的限制。此外，Google Bot可以查看和隐藏隐藏在书签中的内容，并且可以跟踪隐藏在其中的链接。

本文中表达的观点是来宾作者的观点，不一定是Search Engine Land。 工作人员作者在此处列出。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。如若转载，请注明出处:http://www.botadmin.cn/sylc/10127.html

站群域名批发站群是什么意思独立站群