人机与机器智能:“重复”内容独特时如何取胜
尽管机器学习和基于算法的智能令人印象深刻,但它们通常缺少人类自然而然的东西:常识。
众所周知,将相同的内容放在多个页面上会产生重复的内容。 但是,如果您创建关于相似事物的页面,而差异却很重要呢? 算法将它们标记为重复,尽管人类毫无疑问地将这些页面分开:
- 电子商务:具有多种变体或重大差异的相似产品
- 旅行:酒店分支机构,具有类似内容的目的地套餐
- 分类:相同项目的详尽清单
- 业务:在不同地区提供相同服务的本地分支机构的页面
这是怎么发生的? 您如何发现问题? 你能怎么办?
重复内容的危险
重复的内容会干扰您通过以下方式使网站对搜索用户可见的功能:
- 对于无意中竞争相同关键字的唯一网页失去排名
- 无法在集群中对页面进行排名,因为Google选择了一个页面作为规范页面
- 大量稀薄内容失去站点授权
机器如何识别重复内容
Google使用算法来确定两个页面还是页面的一部分是重复内容,Google将其定义为“明显相似”的内容。
Google的相似性检测基于其专利的Simhash算法,该算法可分析网页上的内容块。 然后,它为每个块计算一个唯一的标识符,并为每个页面组成一个哈希或“指纹”。
因为网页的数量巨大,所以可伸缩性是关键。 当前,Simhash是大规模查找重复内容的唯一可行方法。
Simhash指纹为:
- 计算便宜。 它们是在页面的一次爬网中建立的。
- 固定长度,易于比较。
- 能够找到近重复项。 与许多其他算法不同,它们将页面上的细微变化等同于哈希中的细微变化。
这最后意味着可以通过算法测量任意两个指纹之间的差异,并以百分比表示。 为了减少评估每一对页面的成本,Google采用了以下技术:
- 聚类:通过将足够相似的页面集分组在一起,仅需要比较聚类中的指纹,因为其他所有事物都已被分类为不同的指纹。
- 估计:对于异常大的簇,在计算了一定数量的指纹对之后应用平均相似度。
最后,Google使用加权相似率,排除某些内容相同的块(样板:页眉,导航,边栏,页脚;免责声明……)。 它使用n-gram分析来考虑页面的主题,以确定页面上哪些单词出现频率最高,并且-在站点的上下文中-最重要。
使用Simhash分析重复内容
我们将查看使用Simhash标记为相似的内容集群的地图。 OnCrawl的这张图表叠加了对重复内容群集上重复内容策略的分析。
OnCrawl的内容分析还包括相似率,内容簇和n-gram分析。 OnCrawl还在研究实验性热图,该热图指示可以覆盖在网页上的每个内容块的相似性。
用规范验证集群
使用规范的URL指示一组相似页面中的主页是一种有意将页面聚类的方法。 理想情况下,规范人员创建的星团与Simhash建立的星团应相同。
如果不是这种情况,通常是因为您的网站上没有规范的政策:
或者是因为您的规范策略与Google用于对相似内容进行分组的方法之间存在冲突:
您网站的集群看起来不像上面的集群。 您已经按照最佳做法处理了重复内容。 包含相同内容的URL(例如可打印/移动版本或CMS生成的备用URL)声明正确的规范URL。
过滤出规范策略正确处理的重复内容。 其余的非规范化URL是您要排名的页面。
根据Simhash和语义分析仍然出现在群集中的URL是您和Google不一致的URL。
解决唯一内容的重复内容问题
没有令人满意的技巧来纠正机器对看起来重复的唯一页面的看法:我们无法更改Google识别重复内容的方式。 但是,仍然有一些解决方案可以使您对独特内容的认知与Google的认知保持一致,同时仍然为所需的关键字排名。
以下是五种适合您的网站的策略。
解决边缘案例
首先看一下边缘情况:相似度非常低或很高的聚类。
- 相似度低于20%:相似,但不太相似。 您可以通过在群集中的页面之间进行链接(使用每个页面的不同锚文本)来指示Google将它们视为不同的页面。
- 最大相似度:查找根本问题。 您将需要丰富内容以区分页面或将页面合并为一个页面。
减少构面数
如果重复的页面与构面相关,则可能存在索引问题。 保持已经排序的方面,并限制您允许Google编制索引的方面数量。
使页面(更多)独特
请记住:内容上的细微差别会在Simhash指纹中产生细微的差别。 您需要对页面上的内容进行重大更改,而不是进行小的调整。
丰富页面内容:
- 向页面添加文本内容。
- 添加图像的不同描述。
- 包括完整的客户评论(如果评论适用于多个页面,请合并页面!)。
- 添加其他信息。
- 添加相关信息。
- 使用不同的图像。
- 使用非常不同的锚文本测试到不同页面的链接。
- 减少相似页面之间共有的源代码量。
- 提高页面上的语义密度。
- 增加与主题相关的词汇并减少填充词。
创建排名参考页
如果无法充实您的页面,请考虑创建一个单独的参考页面来代替所有“重复”页面。 此策略使用与内容中心相同的原理来推广多个关键字的主页。 当您需要将多个版本的产品维护为单独的页面时,此功能特别有用。
此策略可用于创建针对需求或季节性机会的页面。 它可以通过提供更强的语义和排名来改善页面系列。
它还可以使分类网站,求职网站以及其他包含很多经常相似的列表的网站受益。 参考页应按单个特征对列表进行分组; 位置(城市)通常可以成功使用。
该怎么办:
- 创建一个参考页面,该参考页面将所有“重复”产品页面的语义内容汇总在一起。 它应该推广您要使用的所有关键字,并链接到所有“重复”页面。
- 将每个“重复”页面的规范URL设置为参考页面,并将参考页面的规范URL本身设置为参考页面。
- 在“重复”页面之间链接。
- 优化网站导航以提升参考页。
通过“重复”页面,规范声明和组合内容中的链接增强了参考页面的排名。
合并您的页面
您一直在尝试丰富具有相同内容的页面吗? 您无法解释为什么要保留所有内容? 也许是时候将它们结合起来了。
如果您决定将页面合并为一个页面:
- 保留效果最佳的网址。
- 将要摆脱的页面重定向(301)到要保留的页面。
- 将要删除的页面中的内容添加到保留的页面中,并对其进行优化以对所有群集关键字进行排名。
重复内容的未来
Google了解页面内容的能力在不断发展。 随着识别样板并区分网页意图的能力日益提高,被标识为重复项的独特内容最终将成为历史。
在此之前,了解您的内容为何看起来像Google的副本,并加以改编以使Google信服,这是成功进行相似页面SEO的关键。
本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.botadmin.cn/sylc/10133.html