僵尸和蜘蛛争夺的终极指南-第3部分

作者:站群原创• 更新时间：2022-01-29 01:43:09 •阅读:1372

在本系列的第一部分和第二部分中，我们了解了机器人是什么以及爬网预算为何很重要。在第三部分（也是最后一部分）中，我们将回顾机器人在其旅途中可能遇到的常见编码，移动和本地化问题，以使搜索引擎了解您网站上的重要内容。

常见编码问题

如果您想要自然排名，那么好的，简洁的代码至关重要。不幸的是，小错误可能会使抓取工具感到困惑，并导致搜索结果严重受损。

这里有一些基本的注意事项：

1.无限空间（也称为蜘蛛陷阱）。 不良的编码有时会无意间导致“无限空间”或“蜘蛛陷阱”。

某些问题可能会导致蜘蛛卡住，从而迅速耗尽您的抓取预算。其中包括指向相同内容的无尽统一资源定位符（URL）; 具有相同信息的页面以多种方式（例如，数十种方式对产品列表进行排序）呈现; 或包含无限不同日期的日历。

错误地在404错误页面的超文本传输协议（HTTP）标头中提供200状态代码是向漫游器呈现无边界网站的另一种方法。依靠Googlebot正确确定所有“软404”是玩抓取预算的危险游戏。

当机器人碰到大量的稀疏或重复内容时，它最终将放弃，这可能意味着它永远无法达到您的最佳内容，并且您最终会在索引中看到一堆无用的页面。

找到蜘蛛陷阱有时可能很困难，但是使用上述日志分析器或第三方抓取工具（如Deep Crawl）是一个不错的起点。

您正在寻找的是不应进行的漫游器访问，不应该存在的URL或没有任何意义的子字符串。另一个线索可能是具有无限重复元素的URL，例如：

example.com/shop/shop/shop/shop/shop/shop/shop/shop/shop/shop / ...

2.嵌入式内容。 如果您希望您的网站有效地进行爬网，那么最好保持简单。 Bot经常遇到Javascript，框架，Flash和异步JavaScript和XML（AJAX）的麻烦。

即使Google在抓取Javascript和AJAX之类的格式方面做得更好，但在可行的情况下，坚持使用老式的超文本标记语言（HTML）是最安全的。

一个常见的例子是使用无限滚动的站点。尽管它可能会提高您的可用性，但可能会使搜索引擎难以正确地对内容进行爬网和编制索引。即使您的文章或产品页面以滚动格式显示，也请确保每个文章或产品页面均具有唯一的URL，并通过传统的链接结构进行连接。

行动网站

Google在2016年11月宣布推出移动优先索引技术，在搜索引擎优化（SEO）社区引起了震惊。考虑一下这并不奇怪，因为大多数搜索都是通过移动设备进行的，而移动设备是计算的未来。在分析和排名方面，Google专心致力于网页的移动版本，而不是桌面版本。这意味着漫游器先查看您的移动页面，然后再查看您的桌面页面。

1.首先针对移动用户进行优化。 移动网站可以成为桌面网站的简化版的日子已经一去不复返了。相反，首先要考虑移动用户（和搜索引擎机器人），然后再进行反向工作。

2.移动/桌面一致性。 尽管现在大多数移动网站都可以响应，但如果您的网站具有单独的移动版本，请确保其具有相同的内部链接结构，并使用rel = alternate和rel = canonical链接元素在两个站点之间进行双向链接。

使用rel = canonical指向移动网站的桌面版本，使用rel = alternate指向桌面网站的移动网站。请注意，这是一个过渡解决方案，直到您转向响应式设计（这是首选方法）为止，据Google称。

3.加速移动页面。 加速移动页面（AMP）是Google最具争议的发明之一，许多网站管理员仍然不愿意使用它们，因为这意味着让Google在自己的域上托管您页面的缓存版本。

Google的理由是，加速的移动页面可以使它们更快地向用户提供内容，这对于移动而言至关重要。虽然目前尚不清楚Google是否在搜索结果中实际上将加速的移动页面优先于其他类型的移动页面，但更快的加载时间可能有助于获得更高的排名。

使用rel = amphtml指向页面的AMP版本，并使用rel = canonical指向AMP页面的规范URL。请注意，即使加速的移动页面托管在Google URL上，它们仍然会占用您的抓取预算。

你应该阻止坏的机器人吗？

不幸的是，不仅仅是使用机器人的搜索引擎。它们具有各种形状和大小……和意图，包括旨在黑客，间谍，垃圾邮件的内容，并且通常会对您的网站造成不良影响。

与友善的搜索引擎机器人不同，这些蜘蛛更可能会忽略您的所有指令，而直接进入丛林。您仍然可以使用一些技巧来阻止恶意机器人。请注意，这些黑客攻击可能很耗时，因此如果您真的很挣扎，可能值得向托管公司咨询其安全解决方案。

1.使用htaccess阻止Internet协议（IP）地址。 阻止不良的机器人很简单，就像为要阻止的每个机器人在htaccess文件中添加“拒绝”规则一样。当然，这里最棘手的部分实际上是弄清机器人正在使用的IP地址。

某些漫游器甚至可能使用几个不同的IP，这意味着您需要阻止一系列地址。您还想确保您不阻止合法的IP地址。除非您从可信任的来源获得了要阻止的已知IP列表，或者除非您知道该僵尸程序访问了哪个页面以及服务器的大致时间或地理位置，否则您可能要花费数小时来搜索日志文件。

2.使用htaccess阻止用户代理字符串。 另一种选择是为特定的用户代理字符串设置“拒绝”规则。同样，您将需要一个来自受信任来源的列表，或者您将通过对日志文件进行排序以识别特定的机器人，然后将该信息添加到htaccess文件中。

本土化

由于漫游器需要了解您希望网页显示在哪个国家/地区版本的搜索引擎中，因此您需要确保代码和内容提供一致的提示，以指示应将网站编入索引的位置。

1. Hreflang。 hreflang标记（实际上是rel = alternate链接元素的一种）告诉漫游器您的页面所针对的语言和区域（例如，en-ca或en-au）。

这听起来很简单，但是会引起很多麻烦。如果同一页面的两个版本使用不同的语言，则需要为每个页面提供一个hreflang标记。这两个hreflang标签将需要同时包含在两个页面中。如果您搞砸了，您的语言定位可能会被视为无效，并且您的网页可能会跳到重复的内容过滤器中，或者未在正确的国家/地区Google版本中建立索引。

2.本地拼写。 尽管hreflang标签很重要，但漫游器还在寻找其他线索来指导它们如何索引您的网站。要注意的一件事是本地拼写。如果您的网页是针对美国受众的，但您使用的是英国拼写，则可能会导致该网页在错误的国家/地区Google版本中列出。

3.不同位置的顶级域，子域或子目录。 如果您想让漫游器更清楚地知道您的内容是针对特定区域的，则可以使用国家/地区代码顶级域（ccTLD），子域或子目录。例如，以下是指示针对加拿大用户的内容的各种方法：

example.ca/category/widget

要么

ca.example.com/category/widget

要么

example.com/ca/category/widget

结论

尽管许多网站所有者甚至某些SEO可能都认为仅凭其良好的内容和高质量的反向链接就可以为其提供支持，但我想强调的是，许多这些小的调整都会对您的排名产生重大影响。

如果您的网站没有被抓取（或抓取严重），您的排名，流量和销售最终将受到影响。

本文中表达的观点是来宾作者的观点，不一定是Search Engine Land。 工作人员作者在此处列出。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。如若转载，请注明出处:http://www.botadmin.cn/sylc/10050.html

制作站群站群域名批发站酷qq群

僵尸和蜘蛛争夺的终极指南-第3部分

常见编码问题

行动网站

你应该阻止坏的机器人吗？

本土化

结论

僵尸和蜘蛛争夺的终极指南-第3部分相关推荐