1. 您的位置:首页 > 站群资讯 >内容

站群文章采集器 您认为您有重复的内容问题吗?

内容重复。我们都知道。关于它为什么不好,如何避免它的文章已经写了无数。但是,也许您遇到了重复的内容问题,甚至都不知道它在那里。否则您的重复内容问题比千百度站群您意识到的要大。这么大,这是史诗般的。

这就是我最近在审核客户网站时发现的。我们并不是在谈论在多个站点之间**的内容。不是刮板站点或翻录站点。一个站点。原始且唯一的来源。而且正是通过法医策略,我才发现问题到底有多严重。多么史诗般。史诗级的数量级。

在这种情况下,我们谈论的是房地产网站。覆盖加利福尼亚的大部分地区-办公室遍布加利福尼亚北部和南部。 2010年房屋销售总额达数十亿美元。

网站:–关键指标

每当我执行SEO审核时,我都会运行一个网站:将站群作为我的首要任务之一,然后询问客户他们真正拥有多少页。这只是为了了解如何ell the site’s currently indexed. This site showed 86,000 pages indexed on my initial check. Except there’s really only about 15,000 pages. Wow. Really? Oh boy…

Now, it’s not uncommon to run a site: check and get less pages showing than actually exist. The public display of pages found is only an approximation, and subject to how well a site is indexed, 站群’s algorithm at any given moment as well as fluctuations in the results due to competitive factors.

But this an opposite indexing problem. More than five times as many pages showing as actually exist. So I went back and began to examine the site, my senses on full alert.

1999 Called & Wants It’s Programming Methods Back

What I found that set off the next bell in my “that’s not right” process was finding that they’ve got over 400 agent pages – no – it’s not odd that a large real estate site has hundreds of agent pages. It’s that when you get to any of those pages, the next time you click on any page in the main navigation, 代理商的ID停留在URL上。主页链接不再转到主站点主页,而是返回到该代理的主页。

这是一种常见的编程方法-在URL字符串中传递标识符。除了我立即知道然后再检查规范的URL标记之外,以查看站群是否将这些URL标记作为真实的“唯一”页面拾取,或者该网站是否编码为“不对该版本编制索引”。

没有规范标签。任何地方。

可以,快速的数学时间– 15,000页– 400个代理。那有可能被索引的六百万页。除了我只看到其中的百分之一。对于现实来说仍然太多了。然而,这本来不是“ OMG”灾难。还是吗?

法证SEO策略

这是我真正感到好奇的地方–我真的需要仔细研究所有这些结果,以弄清楚到底发生了什么吗?不,不是我。决不。不行相反,我让我的大脑咀嚼这个问题。

想到了–让我们先搜索站群,查看是否实际显示了这些代理程序附加的URL中的任何一个。果然,我手动尝试过的每个工具都在那里。

从那里,我执行了一个高级站点:检查。在这些特定的URL中,有一系列字母用作变量标识符-因此,URL字符串中XYZ之后的所有内容都是代理的唯一ID。因此,我的搜索如下所示:Site:www.Domain.com + XYZ

猜猜我发现了什么?不是60,000页(从实际计数到“找到的页面”计数的“超量”)。我发现的是

找到509,000页

伟大的。太好了

那么到底发生了什么?

更多测试。这次,我在这些代理URL中使用了不同的代码块来运行它。那我得到了什么?

找到120万页

哇。这真是一团糟。我的第一个想法是–怎么可能存在这种完全疯狂的变化?

站群–“我们尽力而为”

原来是问题是多层的。在任何给定的时间,站群Bot都会尝试对站点进行爬网。在某一点上,等您厌倦了探索一个地点,然后逃到那里的下一个闪亮物体上。尤其是当这些代理页面在链接链中位于几层时。这意味着从那里链接的所有页面在链接链的更下方也“技术上”(但不是真的)。

然后,即使其中某些页面最终进入了索引,在某个时候,站群也会看到“嘿,此内容与所有其他内容完全相同。”

尽管有人声称(谢谢马特!)“站群在解决问题方面做得很好”,但这是一个很好的例子,说明了为什么这是一个不完善的系统。本质上,在处理所有这些数据的过程中,系统将陷入困境。在这种特殊情况下,甚至可能会有些不适。

但总的来说,考虑到实际上有超过一百万个“页面”在索引中,他们可以将其缩减几个数量级,降低到86,000(仍然是高得离谱的)页面范围。

足够好还不够

所以站群的sy在没有进一步指导的情况下,词干最多只能削减到86,000个寻呼机。仍然有70,000个页面是重复的。这意味着仍然存在大问题。

站群如何知道哪个版本最重要?各种搜索结果的前十二个页面中的大多数结果都是主站点版本,没有代理程序附件。但不是所有的。对于某些词组,首先显示所有座席页面。

反过来,这意味着最重要的页面没有得到完整的价值。大规模。

解决方法并非如此简单

因此,您是在自言自语–只是在那儿拍了个规范标签。问题解决了。

好的,那很重要。唯一的好处就是将来的体验。该网站永远都是这样。您想成为确保301重定向针对该混乱正确实施的人吗?好吧,如果您是REGEX的天才,也许您会的。我,没那么多。

然后有必要(是的,这是必要的站群文章采集器)o将整个网站重新编码为“停止使用URL字符串”。因为我不在乎多少站群会说您只需要规范标签。因为并非每个搜索引擎或链接提供商(有意或无意)都支持这一点。

甚至对站群来说,也只是“一个指标”。这不是保证。

不,这里唯一适当的最佳实践任务是剔除所有这些URL参数。只需使用Cookie即可,以大声喊叫。

这意味着对一些可怜的代码猴子来说是一场代码梦.。

还有更多质量检查,以确保所有操作均正确完成。在整个网站上。

幸运的是,我不是必须编写代码的人。但我是必须对此进行质量检查的人。是的。谢谢。我将在这里curl缩成一个胎儿球。哭了不可控制。至少直到我对Twitter上的程序感到满意为止。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.botadmin.cn/changjianwenti/7616.html