[反向链接]Ahrefs如何计算链接和域
每个反向链接工具都会存储不同的链接。
在构建web索引时,公司必须在爬行,分析和索引数据方面做出许多选择。虽然索引之间会有很多重叠,但根据每个公司的决策也会有一些差异。
以透明的名义,我们想让人们更多地了解Ahrefs的链接索引。
- 什么是链接?
- 哪些链接被索引?
- 哪些域被索引?
- 为什么我们看不到所有链接
什么是链接?
单击时,链接将用户从一个网页带到另一个网页。有很多方法可以创建它们,最常见的方法是经典的HTML具有href属性的元素。
但是,可以创建与其他元素的链接,包括:
- 点击
- 按钮
- 点击
- 选项/值
- 等…
哪个链接被索引?
在理想世界中,任何用作链接的功能都将被存储。不幸的是,我们并不生活在一个理想的世界。Ahrefs和Google都不存储所有类型的链接,因为加载每个页面并单击每个链接并不是一个有效的过程。如果你想找到所有适用于用户的链接,这正是你必须做的事情。
相反,爬行者通常会获取页面,可能会呈现页面,然后提取和存储各种类型的链接。所有爬行动物的工作方式都不同,所以让我们来讨论我们如何在Ahrefs上做事情。
我们存储的链接
这里是我们存储在索引中的链接类型。
外部链接
使用经典HTML具有href属性的元素。
内部链接
从网站上的一个页面链接到同一网站上的另一个页面。我们的指数中有22.21万亿个内部反向链接. 这比我们的实时外部链路数量要广泛得多。我们是唯一的SEO工具,您无需自定义网站爬行即可访问此数据。我们在URL评级(UR)计算中使用内部链接数据,类似于Google在其PageRank计算中使用它。
如果您想查看我们第一次和最后一次爬行URL,您可以在站点资源管理器中检查“最佳链接”报告。外部和内部链接都有选项卡。
我们可以存储的链接
这里是我们在某些情况下存储的所有链接。
使用JavaScript插入的链接
由于Google呈现所有页面,因此可以计算插入的链接使用JavaScript,但不在HTML代码中。大规模渲染需要更多的资源,而不仅仅是下载页面的HTML。在Ahrefs,我们每天提供大约8000万页。这就是为什么我们会用JavaScript插入其中一些链接,但不是全部链接。我们目前是在我们定期爬行web期间呈现的唯一SEO工具,因此我们有一些其他工具没有的链接数据。
但是,我们只计算插入的链接如果JavaScript格式为HTML带有href属性的元素,则使用JavaScript。您将在backlinks报告中看到这些链接标记为“JS”,如下所示:
具有URL参数
参数的页面链接是对URL的添加?tag=什么。您可能会在我们的索引中看到其中一些URL,但它们通常是显示不同内容的参数。在许多情况下,带有参数的页面可以显示相同的内容。我们有许多系统可用于将URL合并为规范版本,并为无限爬行路径提供额外保护。其他工具可能不会做出相同的决定或具有相同的决定保护到位。因此,它们可能多次计算基本相同的链接。
我们尝试不存储的链接
这里是我们尽最大努力不存储的链接。
来自具有URL参数
的页面的链接如上所述,参数类型好坏。我们尝试不存储重复的内容。
无限爬行路径中页面的链接反向链接
这些路径创建了无数个可能的URL。参数是它们可以形成的一种方式,但过滤器,动态内容和链接的断开相对路径也是如此。如前所述,我们对这些类型页面上的链接提供了许多保护,因此它们不太可能出现在我们的报告中。尊重规范化以及我们优先考虑爬行页面的方式只是其中两项保护措施。每个索引都必须处理这些无限空间,但是这些页面有可能夸大链接数量。
链接我们不存储
这里都是我们从未存储的链接。
PDF或其他文档中的链接
Google将许多文档格式转换为HTML并将它们索引为任何其他页面。这意味着他们计算这些文档中的链接。我不相信任何SEO工具当前都会索引这些链接,但我们可能应该这样做。我认为有一天我们会这样做,但我也担心这所需的努力和资源不值得。根据Google Webmaster趋势分析师John Mueller的说法,PDF中的链接在web搜索中没有任何实际效果。
iframes中的链接
iframes允许另一个页面显示在页面内部。因此,Ahrefs不计算iframes中的链接。但是,它们显示给用户,因此即使内容在技术上属于不同的页面,其他工具也可以对其进行计数。Google可能会或可能不会计算这些链接。
未编入索引页面的链接
我们删除了这些链接。Google提供了混合消息代表们是否在链接计算中使用这些。不同的工具可能会做出不同的决定。
noindex的某些内容永远不会到达服务索引,但我们将获取链接图计算等内容的副本。-Gary锟physiology/경리Illyes(@methode)12月17日,2020
来自多个IP的相同链接
关于web的一个有趣事实是,站点可以从多个IP服务于同一页面地址。如果是这种情况,链接索引可能会多次计算相同的链接。我们不这样做。我们将链接与它们所在的页面相关联。
从单个页面到同一页面的多个链接
目前,我们仅在页面上记录一个版本的链接。如果您链接到菜单中的页面,然后再次链接到正文内容中,我们将只计算其中一个链接。我们将来可能会改变这一点,为用户提供更多数据,但这是当前状态。Google将计算所有版本的链接以通过页面排名,但可能只使用一个版本的锚定文本。
影响索引的其他链接相关项目
了解我们如何计算链接是一件事,但是许多其他事情可能会影响到什么和什么都不会被计算。
每页链接数量
我不相信我们对每页计算的链接数量有限制,但是我们确实有一个页面大小限制,最终可能会影响我们看到的链接数量。Google建议每页不超过几千个链接。
重定向或规范化
在Ahrefs,我们相信所有重定向和规范标签,并整合网站告诉我们的链接。对于Google来说,这更加复杂,因为它们有许多规范化信号来确定规范集群中的哪个页面。我们保持简单,因为不可能知道Google如何查看每种情况,如果我们每次处理规范并进行不同的重定向,它会混淆我们的用户。
这些链接是标签在我们的报告中使用“301”,“302”或“规范”,例如:
哪个域被索引?
在Ahrefs中,我们有引用域报告,显示所有域链接到网站或网页。
但是我们究竟如何计算域?
您认为这将是一个容易回答的问题。只是域名,对?不幸的是,事情有点复杂,因为有很多方法来计算域。一种选择是将每个注册域视为一个域,这似乎是Google在Google搜索控制台中聚合它们的方式。另一个是将每个子域视为不同的域。您还可以聚合网站的某些部分而不是其他部分(Google所做的),在不同的技术堆栈上依次浏览每个部分等。有很多选项。
在Ahrefs,我们有约1.75亿域名审查后。审查过程包括删除垃圾邮件域并分解一些子域,我们确定不同用户控制不同区域。我们为此使用自定义列表,但是在https://publicpound.org/list/。
重要的是要注意,不同的域定义可能导致引用域的变化很大。这里有一些其他的例子,而不是Ahrefs,可以算作单独的域:
- 移动版本子域(m。域名, mobile.domain.com等)
- 国家/语言子域(en.domain.com, fr.domain.com, de.domain.com, jp.domain.com等等)。这可能有例外在我们的索引中,例如****,但这不是标准做法。
- 随机子域(support.domain.com, images.domain.com等)
另一个决策-反向链接工具提供商必须做出的是,他们是否应该将某些子文件夹视为不同的域。例如,我认为大多数链接索引会在众所周知的平台(例如user1)上计算不同的博客。blogspot.com,user2。blogspot.com)作为不同的域,因为不同的用户控制它们。但为什么不这样做的网站,如medium.com/user1或者github.com/user1?在Ahrefs,我们目前没有这样做,但我们将来有可能知道不同的人控制一个站点上的每个子文件夹。
这里的重点是有很多方法可以计算域。当您查看互联网上计算网站的公司的不同数据时,这一点很明显。根据Verisign的统计,所有TLD中Q32020的注册域名为3.777亿。根据Netcraft的统计,2020年11月,263787870个独特领域共有1229948224个站点,拥有1.938亿个活动站点。根据互联网实时统计数据,目前约有18亿网站活跃,目前不到2亿。每个公司显然都有不同的域计数方法。
要概括一下,我们在Ahrefs上所做的就是获取我们所了解的所有站点并删除许多垃圾邮件和非活动域,然后为站点上的子域添加一些blogspot.com. 这就是我们如何计算约1.75亿的域名总数。其他索引可能会做得不同,并且会产生不同的计数。
为什么我们看不到所有链接
由于我们通过爬行找到反向链接web,我们只能在允许爬行的站点上这样做。如果网站所有者阻止AhrefsBot在他们的robots.txt文件,我们无法爬行他们的网站反向链接。例如,如果您从网站和网站blocks AhrefsBot,我们无法爬行他们的网站,也无法获得您的反向链接't出现在Ahrefs中。IP块,来自服务器的用户代理块(不同于robots.txt),服务器超时,机器人保护等许多事情也会影响我们爬行某些网站的能力。按比例爬行web并不容易。
我们有多个链接索引
每个工具都必须做出有关数据存储和检索的决定。在Ahrefs,我们将数据分成多个索引。
- Live-我们看到在web上仍然活动的链接。这最能代表web的当前状态,也是我们许多用户发现最有用的内容。
- 最近的-我们在过去3-4个月内在web上看到活跃的链接。
- 历史-我们所见过的所有链接。这将是最全面的列表,但不再存在许多链接。
您可以在我们的反向链接和引用域报告中的索引之间切换。
其他索引可以选择显示他们曾经看到的所有数据,虽然这意味着它们可能会显示很多链接,但其中许多链接可能不再存在。
最终想法
我们希望您,我们的用户能够获得有关我们索引的更多信息,以便您可以做出明智的决定。我们还希望您告诉我们您是否认为我们应该改变事情以及原因。
如果您目前正在比较链接索引或对我们的数据有疑问,请随时与我们联系,提出任何问题或澄清。
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.botadmin.cn/sylc/256.html