1. 您的位置:首页 > seo技术 >内容

人机与机器智能:“重复”内容独特时如何取胜

尽管机器学习和基于算法的智能令人印象深刻,但它们通常缺少人类自然而然的东西:常识。

众所周知,将相同的内容放在多个页面上会产生重复的内容。 但是,如果您创建关于相似事物的页面,而差异却很重要呢? 算法将它们标记为重复,尽管人类毫无疑问地将这些页面分开:

  • 电子商务:具有多种变体或重大差异的相似产品
  • 旅行:酒店分支机构,具有类似内容的目的地套餐
  • 分类:相同项目的详尽清单
  • 业务:在不同地区提供相同服务的本地分支机构的页面

这是怎么发生的? 您如何发现问题? 你能怎么办?

重复内容的危险

重复的内容会干扰您通过以下方式使网站对搜索用户可见的功能:

  • 对于无意中竞争相同关键字的唯一网页失去排名
  • 无法在集群中对页面进行排名,因为Google选择了一个页面作为规范页面
  • 大量稀薄内容失去站点授权

机器如何识别重复内容

Google使用算法来确定两个页面还是页面的一部分是重复内容,Google将其定义为“明显相似”的内容。

Google的相似性检测基于其专利的Simhash算法,该算法可分析网页上的内容块。 然后,它为每个块计算一个唯一的标识符,并为每个页面组成一个哈希或“指纹”。

因为网页的数量巨大,所以可伸缩性是关键。 当前,Simhash是大规模查找重复内容的唯一可行方法。

Simhash指纹为:

  • 计算便宜。 它们是在页面的一次爬网中建立的。
  • 固定长度,易于比较。
  • 能够找到近重复项。 与许多其他算法不同,它们将页面上的细微变化等同于哈希中的细微变化。

这最后意味着可以通过算法测量任意两个指纹之间的差异,并以百分比表示。 为了减少评估每一对页面的成本,Google采用了以下技术:

  • 聚类:通过将足够相似的页面集分组在一起,仅需要比较聚类中的指纹,因为其他所有事物都已被分类为不同的指纹。
  • 估计:对于异常大的簇,在计算了一定数量的指纹对之后应用平均相似度。

比较页面指纹。 来源:用于网络爬网的几乎重复的文档检测(Google专利)

最后,Google使用加权相似率,排除某些内容相同的块(样板:页眉,导航,边栏,页脚;免责声明……)。 它使用n-gram分析来考虑页面的主题,以确定页面上哪些单词出现频率最高,并且-在站点的上下文中-最重要。

使用Simhash分析重复内容

我们将查看使用Simhash标记为相似的内容集群的地图。 OnCrawl的这张图表叠加了对重复内容群集上重复内容策略的分析。

OnCrawl的内容分析还包括相似率,内容簇和n-gram分析。 OnCrawl还在研究实验性热图,该热图指示可以覆盖在网页上的每个内容块的相似性。

通过内容相似性映射网站。 每个块代表一组相似的内容。 颜色表示每个群集的规范化策略的一致性。 资料来源:OnCrawl。

用规范验证集群

使用规范的URL指示一组相似页面中的主页是一种有意将页面聚类的方法。 理想情况下,规范人员创建的星团与Simhash建立的星团应相同。

与相似性类匹配的规范类(绿色)。 突出显示:100%相似的6页。 您的规范政策和Google的Simhash分析以相同的方式对待它们。

如果不是这种情况,通常是因为您的网站上没有规范的政策:

没有规范的声明:每个簇有数百页,平均相似率为99-100%。 Google可能会强制使用规范的URL。 您无法控制哪些页面将排名,哪些页面将不会排名。

或者是因为您的规范策略与Google用于对相似内容进行分组的方法之间存在冲突:

规范的问题:相似度超过80%的大型集群,每个集群有多个规范URL。 Google会强加自己的规范网址,或为您要保留在索引之外的重复页面编制索引。

您网站的集群看起来不像上面的集群。 您已经按照最佳做法处理了重复内容。 包含相同内容的URL(例如可打印/移动版本或CMS生成的备用URL)声明正确的规范URL。

规范化后映射相似性集群。

过滤出规范策略正确处理的重复内容。 其余的非规范化URL是您要排名的页面。

在删除经过验证的(绿色)聚类和相似度小于80%的聚类之后,以前的映射。 其余46个集群中的大多数只有2页。

根据Simhash和语义分析仍然出现在群集中的URL是您和Google不一致的URL。

解决唯一内容的重复内容问题

没有令人满意的技巧来纠正机器对看起来重复的唯一页面的看法:我们无法更改Google识别重复内容的方式。 但是,仍然有一些解决方案可以使您对独特内容的认知与Google的认知保持一致,同时仍然为所需的关键字排名。

以下是五种适合您的网站的策略。

解决边缘案例

首先看一下边缘情况:相似度非常低或很高的聚类。

  • 相似度低于20%:相似,但不太相似。 您可以通过在群集中的页面之间进行链接(使用每个页面的不同锚文本)来指示Google将它们视为不同的页面。

  • 最大相似度:查找根本问题。 您将需要丰富内容以区分页面或将页面合并为一个页面。

减少构面数

如果重复的页面与构面相关,则可能存在索引问题。 保持已经排序的方面,并限制您允许Google编制索引的方面数量。

基于可排序构面的相同页面组成的集群。 资料来源:OnCrawl。

使页面(更多)独特

请记住:内容上的细微差别会在Simhash指纹中产生细微的差别。 您需要对页面上的内容进行重大更改,而不是进行小的调整。

丰富页面内容:

  • 向页面添加文本内容。
    • 添加图像的不同描述。
    • 包括完整的客户评论(如果评论适用于多个页面,请合并页面!)。
    • 添加其他信息。
    • 添加相关信息。
  • 使用不同的图像。
  • 使用非常不同的锚文本测试到不同页面的链接。
  • 减少相似页面之间共有的源代码量。
  • 提高页面上的语义密度。
    • 增加与主题相关的词汇并减少填充词。

创建排名参考页

如果无法充实您的页面,请考虑创建一个单独的参考页面来代替所有“重复”页面。 此策略使用与内容中心相同的原理来推广多个关键字的主页。 当您需要将多个版本的产品维护为单独的页面时,此功能特别有用。

此策略可用于创建针对需求或季节性机会的页面。 它可以通过提供更强的语义和排名来改善页面系列。

它还可以使分类网站,求职网站以及其他包含很多经常相似的列表的网站受益。 参考页应按单个特征对列表进行分组; 位置(城市)通常可以成功使用。

该怎么办:

  1. 创建一个参考页面,该参考页面将所有“重复”产品页面的语义内容汇总在一起。 它应该推广您要使用的所有关键字,并链接到所有“重复”页面。
  2. 将每个“重复”页面的规范URL设置为参考页面,并将参考页面的规范URL本身设置为参考页面。
  3. 在“重复”页面之间链接。
  4. 优化网站导航以提升参考页。

通过“重复”页面,规范声明和组合内容中的链接增强了参考页面的排名。

合并您的页面

您一直在尝试丰富具有相同内容的页面吗? 您无法解释为什么要保留所有内容? 也许是时候将它们结合起来了。

如果您决定将页面合并为一个页面:

  • 保留效果最佳的网址。
  • 将要摆脱的页面重定向(301)到要保留的页面。
  • 将要删除的页面中的内容添加到保留的页面中,并对其进行优化以对所有群集关键字进行排名。

重复内容的未来

Google了解页面内容的能力在不断发展。 随着识别样板并区分网页意图的能力日益提高,被标识为重复项的独特内容最终将成为历史。

在此之前,了解您的内容为何看起来像Google的副本,并加以改编以使Google信服,这是成功进行相似页面SEO的关键。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.botadmin.cn/sylc/10133.html