1. 您的位置:首页 > seo技术 >内容

如何使用Robots.txt,Meta Robot标签和SEOPressor控制Web爬网程序

正如Google的主导地位所显示的那样,Internet(更具体地说是万维网)被Web爬虫的存在和使用所支配。 具体来说,这些程序可以搜索,索引和评估现有的各种网站。 简而言之,当我们搜索特定的单词或短语时,它们会告诉我们要去哪里。

但是,大多数人仍然不知道他们如何实现这一目标。 这是有关网络爬虫的全面指南,以及如何通过robots.txt文件,元机器人标签以及我们的插件– SEOPressor Connect进行控制:

什么是网络爬虫?

网络爬虫的名称多种多样-行业用术语将其称为蜘蛛或机器人,但从技术上讲,它们被称为网络爬虫

无论名称如何,它们都用于扫描网络以“读取”他们找到的所有内容。 具体来说,它们索引在网站上使用了哪些单词以及在什么上下文中使用。 产生的索引基本上是一个巨大的列表,然后在进行“搜索”时,搜索会检查预制索引并提供最相关的结果-即,结果位于列表顶部。

为什么它们很有价值?

从最早的日子开始,搜索引擎如Lycos,Alta Vista,Yahoo! 一直到最近的Bing和Google都使用网络爬虫来定义它们的存在。

简而言之,网络爬虫是他们唯一的存在理由。 数不清的机器人被用来调查网络上的每个站点-至少可以说是一项艰巨的任务-但这仍然是非常有利可图的。 请问佩奇先生或布林先生。 但是,没有什么可以阻止您使用他们的技术来发挥自己的优势。

缺点是什么?

在理想情况下,网站页面的所有者可以指定将为该页面建立索引的确切关键字和概念。 当然,这个事实已经被不想要的SEO供应商严重破坏,他们想要尝试使用该系统。 无数的网站在其页面上填充了“江南风格”,“米拉·库尼斯”“希拉里·克林顿”等短语,以简单地增加其网络访问量。

不管好坏,这种策略现在已经成为普通“黑帽”网站推广者的一种生活方式。 提醒一下–远离他们。

Web爬网程序实际上如何工作?

对网站的第一次攻击始终是由网络爬虫进行的。 它以最简单的形式仅对站点上的所有内容进行分类。 被“扫描”的合法公司知道这一点,并希望提供尽可能多的信息。 目标是提供对尽可能多页面的访问,从而确定网站的价值。 通过有条不紊地从一个链接转到另一个链接,这些bot将系统地将网站归类为所有人的利益。 尽管如此,网站所有者或其指定代理商仍有义务充分利用这种自动分类功能。

从技术上来讲,这实际上意味着什么?

该过程的第一步是部署Web搜寻器以彻底搜索站点。 由此创建了单词索引。 在此过程中,重要的是使用元标记。 有了这些“标签” ,站点的程序员就可以描述Web爬网程序中最重要的关键字,短语和概念,从而以最合适的方式建立索引。 在某些情况下,页面所有者不希望页面被索引,并且可以包含机械手排除协议以使漫游器完全离开页面。

接下来,网络爬虫程序将生成一个“加权”索引。 一个简单的索引仅仅是单词和URL的列表–提供有用的搜索结果并不是特别好。

相反,最好的网络爬虫使用各种因素(例如,在整个文档中使用单词的次数,单词出现在副标题中还是单词或短语是否真正出现在标题中)来给单词赋予权重。 然后,当用户执行搜索时,权重最大的网站将出现在返回结果的顶部。

您可能想知道如何在如此庞大的Internet上高效地完成搜索。 答案是使用一种称为哈希的技术。 网站上的相关搜索词被组织到“哈希表”中,这些哈希表采用各种排名短语并为其分配编号。 即使搜索词有些复杂,此过程也会大大减少执行搜索所需的平均时间。

Web爬行的未来会怎样?

如今,尽管情况有所变化,但大多数搜索引擎都执行文字搜索。 也就是说,他们会尽可能准确地寻找用户输入查询的短语。 此外,如果用户知道自己在做什么,布尔运算符可以非常有效地用于缩小搜索范围。

当前正在开发较新的搜索引擎版本(尚未发布),这些版本将使用自然语言和基于概念的查询。 结果将是即使用户并不真正知道自己在做什么,搜索引擎也可以以更少的努力提供更好的结果。

我从这里去哪里?

在您的网站上发展和产生兴趣需要花费时间,而不是少量的经验。 一些企业主会在没有专业网站开发人员帮助的情况下找到幸运的组合。 但是,大多数其他人将失败。 不要犯这个错误。

但是,如果您的团队中没有Web开发人员,那么您始终可以自己学习如何做。 有多种控制网络爬虫的方法-通过robots.txt文件,元机器人标签或第三方解决方案来控制。 在本文中,我们将全面介绍所有3个选项,并教您如何做到这一点。

如何使用Robots.txt控制网络抓取工具?

要使用robots.txt引导搜索引擎抓取工具,首先,您需要创建一个robots.txt文件。

创建或编辑Robots.txt文件

robots.txt文件应位于您网站的根目录。 例如,如果您的域名是example.com,则应找到:

在您的网站上:

     http://example.com/robots.txt

在您的服务器上:

     /home/username/public_html/robots.txt

当搜索引擎抓取网站时,它首先请求robots.txt文件,然后遵循其中的规则。

  • 请注意,网络搜寻器不一定遵循robots.txt规则,它们只是有关行为方式的指南。
  • 如果要为Google设置抓取延迟,则必须在Google网站站长工具中进行设置。

通过Robots.txt文件控制网络爬虫的访问

您可以通过以下几种方法来控制抓取工具使用robots.txt文件抓取您的网站的方式:

用户代理:

    • 确定规则适用于哪个用户代理,并且*是与任何用户代理匹配的通配符。

不允许:

    确定不应该爬网的文件或文件夹。

如何使用Robots.txt的示例:

要限制所有Web爬网程序的爬网:

您可以使用以下规则禁止任何搜索引擎抓取您的网站:

    •  User-agent: * </ul> </li> </ul> <ul> Disallow: /

    要允许对所有搜寻器的完全访问权限:

    搜索引擎默认情况下可以抓取您的网站,因此无需添加此代码。

      •  User-agent: * </ul> </li> </ul> <ul> Disallow:

      要限制所有搜寻器搜寻多个目录或页面:

      如果您不想爬网的目录有多个,例如/ cgi-bin /,/ private /和/ tmp /,则可以使用以下代码:

        •  User-agent: * </ul> </li> </ul> <ul> <li style= "list-style-type: none" > <ul> Disallow: /cgi-bin/ </ul> </li> </ul> <ul> <li style= "list-style-type: none" > <ul> Disallow: /print-ready/ </ul> </li> </ul> <ul> Disallow: /refresh.htm

        您需要为每个要排除的URL开始新行“ Disallow”。

        排除单个搜寻器:

        如果只想从/ private /目录中排除单个爬网程序,并禁止所有其他漫游器,则可以使用:

          •  User-agent: Googlebot </ul> </li> </ul> <ul> Disallow: /

          仅向Google提供说明。

          要仅允许一个机器人访问:

          如果我们只想允许Googlebot访问/ private /目录,并禁止所有其他bot,我们可以使用:

            •  User-agent: * </ul> </li> </ul> <ul> <li style= "list-style-type: none" > <ul> Disallow: / </ul> </li> </ul> <ul> <li style= "list-style-type: none" > <ul> User-agent: Googlebot </ul> </li> </ul> <ul> Disallow:

            如您所见,特异性规则适用,而不适用继承。

            如何使用机器人元标记控制网络爬虫?

            如果通过“机器人元标记”控制网络爬虫的另一种方法。 如果您无权访问根目录,则可以使用此方法,因此无法上传robots.txt文件。 如果要限制Web爬网程序对站点上的某些页面进行爬网,这也很好。

            机器人元标记与其他元标记相似,它们被添加到代码的<head>部分中。

            如何使用机器人元标记的示例:

            要禁止所有搜寻器将页面编入索引:

              •  </ul> </li> </ul> <ul>

              即使搜寻器不会将页面编入索引,它们仍将遵循在页面上找到的链接。

              要限制搜寻器访问页面中的以下链接:

                •  </ul> </li> </ul> <ul>

                要限制搜寻器搜寻和索引该页面及其链接的后续页面,请执行以下操作:

                  •  </ul> </li> </ul> <ul>

                  要引导搜索引擎不缓存您的页面,请执行以下操作:

                  大多数搜索引擎会在一段时间内缓存您的链接,这可能会将访问者带到您页面的旧版本。 如果您的页面是动态的,则应使用此标记,以使搜索引擎不会缓存您的页面,并始终将访问者带到页面的最新版本。

                  索引并跟随页面:

                    •  </ul> </li> </ul> <ul>

                    这些命令指示Web爬网程序对页面进行索引并遵循页面上的链接。 它们是不必要的,因为爬网程序将默认执行此操作。

                    如何在不进行任何编码的情况下控制Web爬网程序

                    学习所有这些robots.txt或元机器人标签对于一个小任务可能会很麻烦,尤其是对于那些不懂编码,无法访问网站后端,管理着数千个页面的开发人员而言同时等等

                    但是,必须完成需要做的事情,指示爬虫不能做什么。 现在没有很多可用的解决方案可以自动完成此过程。 这就是为什么我们在插件中包含“机器人规则”功能的原因。

                    使用SEOPressor Connect ,控制Web爬网程序就像单击一样简单。

                    seopressor连接机器人规则

                    通过SEOPressor Connect,您只需轻轻一点便可以控制Web爬网程序。

                    所有您需要做的就是在您想要的功能上打勾,单击更新,SEOPressor Connect将生成代码并将其注入您的网站。 SEOPressor v5或较旧版本的插件不提供此功能。

                    它们与许多其他功能一起被添加到SEOPressor Connect中,因此您可以在一个插件中拥有所有功能。 使用SEOPressor Connect,您不必安装大量的插件,无需使WordPress网站混乱,也不必担心不兼容问题。 您可以将所有On-Page SEO解决方案集成在一个插件中-SEOPressor Connect。

                    网络爬虫正确访问您的网站后,您很快就会期望页面排名发生变化。

                    创建多样化的反向链接配置文件可以对您的网站产生积极影响,但是如何确定自己的努力正在奏效? 通过跟踪您的排名。

                    我们建议使用BiQ之类的具有排名跟踪功能的工具。 这样的专业工具每天都会自动刷新,因此您可以获取每日图表或排名。

                    使您可以非常轻松地监视已发生的任何更改。

                    因此,请记住跟踪您的排名,这样您就可以很好地了解自己的努力是否有成效,以及您是否正确设置了Web爬网程序权限。


                    您可能喜欢的其他文章:

                    • [公告] SEOPressor Connect正式上线!
                    • SEOPressor页面设置(META设置,规范,301重定向,机器人规则)
                    • 如何修复断开的链接以改善您的SEO

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.botadmin.cn/sylc/11204.html