1. 您的位置:首页 > seo技术 >内容

SEO:使用机器人排除协议管理抓取,建立索引

索引是自然搜索排名的前提。 但是有些页面您不希望搜索引擎索引和排名。 这就是“机器人排除协议”发挥作用的地方。

REP可以排除并包括搜索引擎爬网程序。 因此,这是阻止机器人或欢迎它们-或两者兼而有之的方法。 REP包含技术工具,例如robots.txt文件,XML站点地图以及元数据和标头指令。

REP可以排除并包括搜索引擎爬网程序。

但是请记住,爬虫遵守REP是自愿的。 好的bot确实会合规,例如来自主要搜索引擎的bot。

不幸的是,不良的机器人不会打扰。 例如,收集信息以在其他站点上重新发布的刮板。 您的开发人员应在服务器级别阻止不良的bot。

机器人排除协议是由三个早期搜索引擎的创始人Martijn Koster于1994年创建的,他对网站上的压力爬虫感到沮丧。 在2019年,谷歌提出将REP作为正式的互联网标准。

每种REP方法都有其功能,优点和缺点。 您可以单独使用或组合使用它们来实现爬网目标。

Robots.txt

Walmart.com的robots.txt文件“禁止”漫游器访问其网站的许多区域。

Walmart.com的robots.txt文件“禁止”漫游器访问其站点的许多区域。

robots.txt文件是优秀的bot在网站**问的第一页。 与site.com/robots.txt中的每个网站都在同一个地方,并且被称为相同的事物(“ robots.txt”)。

使用robots.txt文件来请求漫游器避开您网站上的特定部分或页面。 当好的机器人遇到这些请求时,它们通常会遵从。

例如,您可以指定漫游器应忽略的页面,例如购物车页面,感谢页面和用户个人资料。 但是,您也可以要求漫游器抓取本应阻止的部分中的特定页面。

以最简单的形式,robots.txt文件仅包含两个元素:用户代理和指令。 大多数站点都希望被索引。 因此,最常见的robots.txt文件包含:

User-agent: *
Disallow:

星号是一个通配符,表示“ all”,在此示例中表示该指令适用于所有漫游器。 空的Disallow伪指令表示不应禁止任何操作。

您可以将用户代理限制为特定的机器人。 例如,以下文件将限制Googlebot将整个网站编入索引,从而导致无法在自然搜索中排名。

User-agent: googlebot
Disallow: /

您可以根据需要添加尽可能多的禁止和允许行。 以下示例robots.txt文件请求Bingbot抓取/ user-account目录中除用户登录页面之外的任何页面。

User-agent: bingbot
Disallow: /user-account*
Allow: /user-account/log-in.htm

当漫游器过快访问您网站的页面并影响服务器性能时,您还可以使用robots.txt文件请求爬网延迟。

每个网站协议(HTTPS,HTTP),域(site.com,mysite.com)和子域(www,shop,无子域)都需要自己的robots.txt文件-即使内容相同。 例如, https: //shop.site.com上的robots.txt文件不适用于http://www.site.com上托管的内容。

更改robots.txt文件时,请始终使用Google Search Console中的robots.txt测试工具进行测试,然后再将其实时发布。 robots.txt语法令人困惑,错误可能会对您的自然搜索性能造成灾难性的影响。

有关语法的更多信息,请参见Robotstxt.org。

XML网站地图

Apple.com的XML网站地图包含对Apple希望机器人抓取的页面的引用。

Apple.com的XML网站地图包含对Apple希望机器人抓取的页面的引用。

使用XML网站地图将最重要的页面通知搜索引擎抓取工具。 他们检查了robots.txt文件后,抓取工具的第二站就是您的XML网站地图。 站点地图可以具有任何名称,但是通常可以在站点的根目录找到,例如site.com/sitemap.xml

除了版本标识符和打开和关闭urlset标记外,XML站点地图还应包含<url><loc>标记,以标识每个URL机器人应进行爬网,如上图所示。 其他标签可以标识页面的最后修改日期,更改频率和优先级。

XML站点地图非常简单。 但是请记住三件事。

  • 仅链接到规范URL,即您要排名的URL,而不是重复内容的URL。
  • 尽可能频繁地更新站点地图文件,最好使用自动化过程。
  • 保持文件大小小于50MB,URL计数小于50,000。

XML站点地图很容易忘记。 站点地图通常包含旧的URL或重复的内容。 至少每季度检查一次其准确性。

许多电子商务网站都有超过50,000个URL。 在这些情况下,请创建多个XML站点地图文件,并在站点地图索引中将所有链接链接到它们。 索引本身可以链接到50,000个站点地图,每个站点地图的最大大小为50 MB。 您还可以使用gzip压缩来减小每个站点地图和索引的大小。

XML网站地图还可以包含视频文件和图像,以优化图像搜索和视频搜索。

漫游器不知道您为XML网站地图命名的名称。 因此,请将Sitemap网址包含在robots.txt文件中,并将其上传到Google Search Console和Bing网站站长工具。

有关XML网站地图及其与HTML网站地图的相似性的更多信息,请参阅“ SEO:HTML,XML网站地图介绍”。

有关XML网站地图语法和期望的更多信息,请参见Sitemaps.org。

元数据和标题指令

Robots.txt文件和XML网站地图通常会一次排除或包含许多页面。 REP元数据在页面级别,HTML代码开头的元标记中或服务器随单个页面发送的HTTP响应的一部分中工作。

Lululemon的购物车页面使用漫游器元标记来指示搜索引擎抓取工具不要为该页面编制索引或通过其链接传递链接权限。

Lululemon的购物车页面使用漫游器元标记来指示搜索引擎爬网程序不要为该页面编制索引或通过其链接传递链接权限。

最常见的REP属性包括:

  • Noindex。 不要索引指令所在的页面。
  • Nofollow。 不要通过页面上的链接传递链接权限。
  • 跟随。 即使页面未编入索引,也请通过页面上的链接传递链接权限。

在漫游器元标记中使用时,语法如下:

<meta name="robots" content="noindex, nofollow" />

尽管它是在页面级别应用的(一次影响一个页面),但是meta robots标签可以按比例缩放插入模板中,然后将标签放置在每个页面上。

锚标记中的nofollow属性停止链接授权的流,如下所示:

<a href="/shopping-bag" rel="nofollow">Shopping Bag</a>

meta robots标记位于页面的源代码中。 但是,通过在HTTP响应中使用它,其指令可以应用于非HTML文件类型,例如PDF。 请求文件时,此方法将robots指令作为服务器响应的一部分发送。

在服务器的HTTP标头中使用时,该命令将如下所示:

X-Robots-Tag: noindex, nofollow

与meta robots标签一样,robots指令适用于单个文件。 但是它可以通过您站点的根.htaccess或Apache上的httpd.conf文件或Nginx上的.conf文件应用于多个文件(例如所有PDF文件或单个目录中的所有文件)。

有关机器人属性和示例代码段的完整列表,请访问Google的开发者网站。

搜寻器必须访问文件才能检测机械手指令。 因此,虽然与索引相关的属性可以有效地限制索引,但它们却无济于事,无法保留您网站的抓取预算。

如果您有许多带有noindex指令的页面,则robots.txt不允许显示会更好地阻止抓取以保留抓取预算。 但是,如果内容已被索引,搜索引擎将无法通过robots.txt对内容进行索引删除。

如果您需要对内容进行索引编制并限制漫游器对其进行爬网,请从noindex属性开始(以进行索引编制),然后在robots.txt文件中应用禁止项,以防止爬网程序继续对其进行访问。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.botadmin.cn/sylc/11555.html