1. 您的位置:首页 > seo技术 >内容

黑帽站群软件_为什么抓取预算和URL计划可能会影响网站迁移中的排名

网站设计SS 1920

今年早些时候,Google的Gary Illyes表示30倍重定向(301、302等)不会导致PageRank的丢失或减少。 您可以想象,许多SEO对此表示怀疑。

在最近的Webmaster Central Office Hours Hangouts中,我问Google的John Mueller是否怀疑,是因为当SEO在迁移过程中失去可见性时,他们可能尚未意识到影响排名的所有信号尚未传递到新页面,所以他们假设PageRank丢失了。

穆勒的回复:

是的,我的意思是,每当您在网站上进行较大的更改时-如果您重定向许多URL,如果您从一个域转到另一个域,如果您更改了网站结构-那么所有这些操作确实需要时间。定居。 因此,我们可以很快地进黑帽站群软件行跟踪,可以肯定地将信号转发到那里,但这并不意味着它会一天到一天地发生。

在迁移期间,Googlebot需要收集大量数据以进行日志整理,映射和内部更新,并且排名可能会在此过程中波动。 但除此之外,Googlebot的访问量在迁移过程中的排名波动中起着至关重要的作用,并且可能与“ URL计划”有关,这是爬网预算的关键组成部分。

抓取预算=主机负载+ URL计划的总和

网址调度实质上是“ Googlebot想访问什么(URL),以及访问频率是多少?” 另一方面,主机负载基于“基于容量和服务器资源,Googlebot可以从IP /主机访问什么?” 这些共同构成了IP或主机的“爬网预算”。 两者在迁移中仍然很重要。

在10页的小册子网站上,您可能不会在网站迁移期间看到任何可见性损失。 但是,如果您的站点是例如具有数万,数十万或更多URL的电子商务或新闻站点,该怎么办? 或者,如果您要将多个站点合并到同一IP主机上,该怎么办?

为了使所有内容都能完全通过,必须从最低限度开始,至少要由Googlebot进行完整的网站爬网。 甚至可能需要进行一些完整的网站爬网,因为Googlebot会了解有关URL的更多信息,以及网站内部如何适应所有内容并将其链接在一起,以及随后每次访问新迁移的网站。

在较大的站点上,这可能并没有您希望的那样。

在“上线”迁移之前,您可能已经使用自己喜欢的爬网工具对您的网站进行了爬网,并且您确信没有问题。 但是排名和整体可见度下降。 可能出了什么问题?

迁移可能会出错,但请考虑以下因素:也许没有错。

也许一些尚未通过的信号只是“正在传输的迟到和非常晚的信号”,而不是“丢失的信号”。

有些信号甚至可能需要几个月的时间才能通过。 为什么? 由于Googlebot不会像爬网工具那样对大型网站进行爬网,因此几乎无法模仿工具。

您的迁移时间表不是Googlebot的时间表

您有一个迁移计划。 并不是说Googlebot会步入正轨。 Googlebot也有自己的工作时间表。

URL的爬网频率基于每个URL。 Google的John Mueller证实了这一点,他说:

有些网址每隔几分钟就会抓取一次,有些则每隔几个月抓取一次,而其他网址则介于两者之间。

虽然Google指出有许多因素会影响URL的爬网频率,但在最近的一次网络研讨会中,Gary Illyes提到了“预定”和“存储桶”为Googlebot访问而预先准备的URL。 因此我们知道调度存在。 Google也有许多关于抓取效率的专利对此进行了介绍。

值得注意的是,爬网频率也不只是基于PageRank。 Google的Andrey Lipattsev和Gary Illyes最近在不同的网络研讨会上都表示,PageRank并不是唯一进行爬网或排名的驱动程序,Lipattsev表示:“这(PageRank)只是很多事情中的一件事。”

“重要性”很重要

对于过度使用“重要”一词我不会道歉,因为已经确认爬网调度主要是由URL的“重要性”驱动的。

实际上,Gary Illyes只是在最近一次Virtual Keynote录制的Eric Enge访谈中指出,他指出我们不应该继续将PageRank视为爬网或排名的唯一驱动力。

许多Google专利都提到了页面重要性,并提到“可能包括PageRank”,但是很明显,PageRank只是其中的一部分。 因此,页面重要性和PageRank不同,但是其中一个(重要性)可能包括另一个(重要性)。

我们所知道的是重要页面被更频繁地爬网。

在某种关系中……当我们认为某件事很重要时,我们倾向于更频繁地对其进行爬网。
约翰·穆勒

那么,“页面重要性”是什么?

当然,Google不会告诉我们“页面重要性”的所有贡献者,但是有关爬网效率和URL管理的许多Google专利都涉及到这一主题。

这些是我从专利,网络研讨会,Google网站站长环聊,旧访谈,博客文章和Google Search Console帮助中获得的一些发现。 需要明确的是,毫无疑问,还有更多的因素,并且只有以下列出的一些因素得到了Google的确认。

页面重要性贡献者

关于页面重要性的其他线索也有:

  • 最近,Gary Illyes在与Eric Enge的虚拟主题演讲网络研讨会中提到,如果XML站点地图中包含页面,则该页面可能比未包含的页面更重要。
  • 我们知道hreflang和规范化被用作信号(在页面漫游器管理中)。
  • 如上所述,PageRank“可能包含在页面重要性中”(并且可能包含在该内部PageRank中)。
  • 在Google的Search Console帮助中心中,内部反向链接表示为“向搜索引擎发出有关该页面相对重要性的信号”。
  • 谷歌前Webspam负责人Matt Cutts说,搜索引擎根据页面在URL参数级别中的位置来理解页面的重要性。 Illyes还以“关于我们”页面和“经常更改的主页”为例,它们对希望查看新鲜内容的用户具有不同的重要性级别。 “关于我们”页面没有太大变化。
  • 专利中还提到了文件类型和页面类型,例如,我们知道图像类型的爬网频率比其他URL少,因为它们的更改频率不高。

变更管理/新鲜度也很重要

我们确实知道的一件事是,更改频率会影响爬网频率。

URL在网络上一直在变化。 通过将搜索结果中的陈旧内容返回低于可接受的阈值来保持搜索引擎尴尬的可能性(“尴尬度量”)是关键,必须对其进行有效管理。

关于网络爬网效率和信息检索,会议程序甚至专利的大多数学术论文都将“搜索引擎的尴尬”一词归因于Wolf等。

为了对抗“尴尬”(在结果中返回陈旧的内容),构建了计划系统,以对抓取的重要页面和经常更改的重要页面进行优先排序,这些重要页面要优先于次要页面,例如更改不大或权限较低的页面。

与那些在搜索结果页面中不经常发现的页面相比,这些关键页面被搜索引擎用户看到的可能性最高。

通常,我们尝试根据我们认为该页面可能会更改的内容更改频率来进行爬网。 因此,如果我们认为某些内容会在更长的时间内保持不变,那么我们可能会在几个月内不进行爬网。
约翰·穆勒

这意味着搜索引擎会随着时间的推移在网页上学习重要的更改频率(在抓取效率Google专利中也提到了这一点),方法是将当前页面与以前的副本进行比较,以检测关键更改频率的模式。

重点在于页面上的更改对搜索引擎用户的重要性(“关键性材料更改”),以及页面本身对用户的重要性(页面重要性,其中可能包括PageRank)。

请注意,Mueller说:“我们认为此页面可能正在发生什么变化。” 它需要在页面中更改一些对搜索引擎用户有用的关键功能(“关键材料更改”)。

为什么Googlebot无法一次访问所有迁移的页面?

从上面的内容,我们可以得出结论,Googlebots大多到达一个目的明确的网站,一个“工作时间表”和一个“存储桶列表” URL,以便在访问期间进行爬网。 如果要相信有大量关于抓取效率的Google专利,则存储桶列表中的URL已由Google搜索引擎系统中的“调度程序”分配给了它(参见图片)。

搜索引擎抓取工具的计划程序

我之所以说“主要”,是因为全新站点的初始发现爬行与众不同。 由于不知道已经存在什么,因此调度程序可以将任何内容与之进行比较,没有任何内容-URL的过去版本。

当Googlebot到达您的站点时,如果您的IP(主机)在访问期间没有受到连接速度减慢或服务器错误代码的影响,则Googlebot会完成其存储段列表并检查周围是否有比原始存储段中的URL更重要的内容可能还需要收集的列表。

如果有的话,那么Googlebot可能会走得更远,也可以抓取这些其他重要的URL。 如果没有发现进一步重要的内容,Googlebot将返回另一个存储桶列表,以供下次访问您的网站。

无论您最近是否迁移过网站,Googlebot都主要关注很少的(重要)URL,偶尔会不定期访问那些被视为最不重要的URL,或者不希望经常进行实质性的更改(例如,旧的新闻网站上的存档或电子商务网站上不变的产品页面)。

当Googlebot到达您的网站,并且您决定开始进行迁移时,不会预先警告。 它已经有一个预定的URL列表可在您的网站**问,而这些URL可能是Googlebot仍希望在此情况下访问的重要URL(对于搜索引擎用户而言可能会有重要的更改)。

这些URL仍必须优先。

Googlebot现在不太可能要访问您所有的新重定向URL,因为并非所有页面都具有同等重要的地位,并且由于预期未来一段时间内它们可能不会发生任何有用的变化(因此尚未安排进行爬网)。

搜索引擎很可能已经注意到您的迁移正在进行中。 将遵循Googlebot所访问的URL上的重定向(可能还会增加一个百分比,这个百分比是为计划外发现的其他重要更改而保留的抓取百分比),并且所有抓取页面的服务器响应代码都将被报告回状态日志和历史日志。

如果Googlebot遇到很多重定向响应代码,它可能会发送一个信号,说:“嘿,那儿正在进行某种迁移,” URL调度程序将因此对访问进行调度。 根据约翰·穆勒的说法:

通常,当我们看到网站正在移动时会发生什么,我们将尝试更快地进行爬网以获取所有内容。

他们这样做是因为他们想赶上来。 但是,并不一定随之而来的一切都会被立即爬取,或者相当长的一段时间内甚至值得“追赶”。

在大多数情况下,只有最重要的迁移URL会作为优先级进行爬网,并且可能比平时更频繁地进行爬网。 只是为了确保获取有关那些重要的“新” URL(从“旧” URL重定向)的所有信息(几个信号)。

当然,页面重要性和更改频率并不是影响何时访问URL的唯一因素。 这里还有其他一些:

搜索引擎资源有限

网络的发展速度远远快于搜索引擎可用的资源。 例如,2013年至2014年间,互联网上的网站数量增加了三分之一。可用的搜索引擎资源和容量必须越来越多地在IP(主机)和位于其上的网站之间进行共享。

主机负载

每个IP(Web主机)都有它可以处理的连接能力。 搜索引擎系统会随着时间的流逝了解您的主机或IP可以处理的内容,并根据其过去的知识安排Googlebot的访问。 如果您在共享主机,虚拟IP或内容交付网络(CDN)上,这也将发挥作用,因为将学习“主机负载”并与IP上的其他站点共享。 Googlebot的发送方式不会对您的服务器造成损坏。

URL队列和迁移页面的重要性较低

爬网调度中有两种类型的队列。 首先,有网站队列(严格来说,它是IP /主机队列)。 其次,页面/ URL队列要在单个网站内或从IP(主机)进行爬网。

主机(其中的IP和网站)的队列在很大程度上取决于“主机负载”。 该主机可以处理什么? 如果连接速度或服务器错误代码变慢,则Googlebot甚至可以优先抓取重要性最高的URL,并从抓取中删除重要性较低的URL。 在迁移过程中,这意味着如果Googlebot在服务器上苦苦挣扎,低重要性URL(通常在网站中更深)可能会被丢弃。

如果Googlebot在一段时间内遇到这种类型的速度降低和错误代码的情况,也会撤退(由Google在2014年SMX East举行的Gary Illyes确认)。 因此,更少的爬行。 这可能意味着随着时间的流逝,您最终会从站点中获得大量URL等待访问。

主机内的网页队列主要由“ URL计划”驱动。 队列可以由各种排序过程来管理,这些排序过程主要基于页面的更改频率和重要性。 在迁移过程中,很可能一旦Googlebot通知了搜索引擎抓取系统中的各个播放器(URL调度程序,历史记录等),就会对要抓取的URL进行排序,并根据已知的重定向URL对其进行排队。

如果您有很多“不重要的URL”,具有历史非关键性更改的页面或已更改的页面,但是其中的功能不足以构成“实质性更改”,则您可能需要在队列中稍等片刻。迁移后。 那是在“主机负载”出现任何问题之前。

在迁移过程中,计划仍然适用,但是要抓取的URL队列变大了

当我问约翰·穆勒(John Mueller)在迁移期间(2016年8月)是否仍然应用计划时,他说是的,并继续说:

迁移后,我们不能仅仅突然搜寻一个全新的完整网站。

抓取效率仍然是关键。

在网站迁移中,您已经有效地添加了要爬网的URL的完整副本。 如果您决定将几个主站点合并到现有主站点中的新文件夹级别以进行合并-甚至更多的URL,则情况将更加糟糕。

突然,您要Googlebot抓取到最少两倍的URL。 即使仅使用直接重定向(没有重定向链或历史“ cruft”-另一个完整主题),Googlebot仍将从索引中找到301,然后跳至200 OK(每次初始URL访问至少两个URL,因此两倍网站的大小)。

Google会抓取更多高质量的网站部分

而且,如果您在新站点中添加了一个全新的,内容丰富,高度相关且内部链接良好的新部分,而旧迁移的一些不重要部分仍然没有被完全抓取,该怎么办?

好吧,有一个论点是,将对新的较高重要性/较高质量的网站部分进行更多的爬网,而旧的部分则被认为具有较低的重要性,或者在有可用的爬网容量时,较低质量的URL会排队等待更晚。

换句话说,在迁移后传递所有内容还需要更长的时间。

而且,如果您有重复或低价值的内容,则此过程将花费更长的时间。 您可能需要等待几个月! 根据Google的前网络垃圾邮件负责人Matt Cutts所说:

想象一下,我们从某个站点爬网了三个页面,然后发现另外两个页面是第三页面的重复。 我们将从三个页面中删除两个,只保留一个页面,这就是为什么它看起来不太好的内容的原因。 因此,我们可能往往不会从该站点进行太多爬网。

最近,在接受Eric Enge的采访时,Google的Gary Illyes评论:

较高质量的网站部分的爬取程度越来越高,例如,有关植物或树木的高质量部分可能意味着该部分中的花页后代将更容易被爬取,因为其网站结构中的父页面质量更高。

在下面的视频中大约46分钟提到了此问题。

网站迁移后,Googlebot仍需要重要页面

在迁移中,所有更改(所有URL)都发生了变化,但变化的一切并不一定对用户来说是至关重要的更改,特别是如果重定向的URL已被分类为“不重要”且“实质性更改”频率较低。 根据最近的Google专利:

在某些情况下,搜索引擎中的陈旧内容可能没有特别的意义,因为对搜索结果中列出的文档的更改很小,或者文档的相关性基本上保持不变。

如果一个页面几乎没有变化,或者仅更改了一些动态的点点滴滴,从索引重定向,这将是世界末日吗?

可能不会。 用户仍然可以通过您的重定向设法从搜索引擎结果页面访问目标页面,因此不会显着降低他们的体验。

您的“无关紧要”页面实际上可能为您的迁移前可见度增加了很多

由于随着时间的流逝,从成熟爬网上的旧爬网中拾取了许多次要信号,很可能在长尾查询(目前可能会得出很多结果)中获得当前排名。 重要页面在迁移后会得到较早的爬网,而大多数低重要性页面到无重要性页面(可能包括低到无PageRank)的结合为整体可见性增加了很多。

这可以包括相对重要的投票(例如,仅来自内部链接结构的投票),这些投票将遍布各地。

内部链接信号报告

直到进行爬网并在搜索引擎上更新之后,用于这些目的的用于排名的信号才会传递给新的URL。 所有低重要性(但有助于提高可见性)页面都将需要一段时间才能被抓取。

在您的旧站点上哪些页面在迁移之前可能没有索引过? 他们可能为可见度做出了一些有价值的贡献。

加里·伊利耶斯(Gary Illyes)在最近与埃里克·恩格(Eric Enge)举行的虚拟主题演讲中评论说,他认为从没有索引的URL传递PageRank并不会造成任何浪费,因此,此排名和其他历史排名信号可能仍会为您的迁移URL添加一些东西。

但是它们不再位于索引中,并且可能很长一段时间都不会再次爬网,因此任何旧信号都将需要很长时间才能通过。

他们仍然会不时与404甚至410一起被访问,因为“消失”从未真正消失(这是另一个主题,我不在这里讨论)。

例如,在该示例中,网站更改了地址,排名下降,谷歌工程师建议原因可能是旧站点中的某些页面不再被索引。

显然,有一些有价值的东西没有被传递出去,但实际上是至关重要的(从总体排名的角度来看),并且在历史上某个时候已经被传递了。

一切都很重要。

“大图景”和网站“本体论”需要重建

直到一切都已经被放回一起迁移之后,你的网站是一样的。 它处于半构建状态,整个拼图游戏的一部分丢失或部分移动。

首先,必须重建内部链接体系结构和您自己内部页面(围绕内部链接的文本,提供上下文以及任何内部锚点)的相对重要性信号。

Googlebot还需要重新理解页面在整个架构中的位置。 一切都可以在任何大小的站点上歪斜一会儿。

作为一个实体,站点的整个“相互连接”,主题或“本体”以及其中的所有语义相关性现在都不完整。

在重新组合所有内容(包括重要性较低的页面及其相对内部链接),关联性,上下文以及外部和内部重要性信号(包括PageRank)之前,即使您将所有内容都放在了网站上,网站也不会像以前那样正确的SEO网站迁移步骤。

最初,随着网站重要页面的爬行和处理,您可能只需要重新构建拼图的角部和侧面,但是结合起来的所有内容都会对“全局”和网站的排名产生影响。

在像以前一样重建网站之前,Googlebot和其他搜索引擎工作者的工作还没有完成。

在得出结论之前,至少要等待工作完成。


本文中表达的观点是来宾作者的观点,不一定是Search Engine Land。 工作人员作者在此处列出。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.botadmin.cn/sylc/9713.html