1. 您的位置:首页 > seo技术 >内容

「黑帽站群效果」搜索robots.txt设置教程

关于机器人的语法和功能。txt

众所周知,搜索引擎都有自己的"搜索机器人"并使用这些机器人链接到网络上的网页(通常是HTTP和SRC链接)不断爬行数据以构建自己的数据库。

对于网站管理员和内容提供商,有时会有一些他们不想被机器人爬行的网站内容。为了解决这个问题,机器人开发社区提供了两种方法:robots.txt和机器人元标签。

一世。robots.txt

1. 是什么robots.txt?
Robots.txt是一个纯文本文件,声明网站不希望被机器人访问。这样,网站的部分或全部内容不能被搜索引擎索引,或者指定的搜索引擎只能包括指定的内容。当机器人搜索站点时,它首先检查站点根目录是否包含robots.txt. 如果找到它,搜索机器人将根据文件中的内容确定访问范围。如果文件不存在,搜索机器人会沿着链接爬行。

Robots.txt必须放置在站点的根目录中,所有文件名必须小写。
网站URL
URLrobots.txt
Http://www.ali173.com/
Http://www.ali173.com/robots.txt

Http://www.ali173.com: 80/
Http://www.ali173.com: 80/robots.txt.

Http://www.ali173.com: 1234/
Http://www.ali173.com: 1234/robots.txt

Http://ali173.com/
Http://ali173.com/robots.txt

2. robots.txt语法

The"robots.txt"file包含一个或多个由空行分隔的记录(以Cr,Cr/NL或NL作为终止符)。每个记录的北京站群系统便宜格式如下:

":".

在此文件中,您可以使用#进行注释。用法与UNIX中的用法相同。该文件中的记录通常以一行或多行用户代理开始,然后是几行不允许的行。详情如下:>

用户代理:

此项的值用于描述搜索引擎机器人的名称。在"robots.txt"file,如果多个用户代理记录指示多个机器人受此协议限制,则对于此文件,必须至少有一个用户代理记录。如果此参数设置为*,则该协议对所有机器均有效。在"robots.txt"文件,只有一个记录,如"用户代理:&"可以存在。

不允许:

此项目的值用于描述您不想访问的URL。此URL可以是完整路径或部分路径,机器人将不会访问任何以disallow开头的URL。例如,"disallow:/help"不允许搜索引擎访问/help.html和/帮助/index.html,而"不允许:/help/"允许机器人访问/help.html,但无法访问/帮助/index.html.

如果任何不允许记录为空,则意味着允许访问网站的所有部分。"中至少需要一个不允许记录/robots.txt"文件。如果"/robots.txt"是一个空文件,该网站对所有搜索引擎机器人开放。

以下是一些基本用法robots.txt:

L禁止所有搜索引擎访问网站的任何部分:
用户代理:*
不允许:/

L允许所有机器人访问
用户代理:*
不允许:
或者,您可以创建一个空文件"/robots.txt"文件

L禁止所有搜索引擎访问网站(以下示例中的cgi-bin,TMP和私有目录)
用户代理:*
Disallow:/cgi-bin/
Disallow:/TMP/
Disallow:/private/

L禁止访问搜索引擎(以下示例中为badbot)
用户代理:badbot
不允许:/

L仅允许访问搜索引擎(以下示例中的webcrawler)

用户代理:webcrawler
不允许:

用户代理:*
不允许:/

3. 普通s的名称搜索引擎机器人

名称搜索引擎

Baiduspiderhttp://www.baidu.com
踏板车http://www.altavista.com。
Ia_archiverhttp://www.alexa.com
谷歌搜索http://www.google.com
快速webcrawlerhttp://www.alltheweb.com
Slurphttp://www.inktomi.com
Msnbothttp://search.msn.com

4. robots.txt例

以下是robots.txt一些着名的网站:
Http://www.cnn.com/robots.txt
Http://www.google.com/robots.txt
Http://www.ibm.com/robots.txt
Http://www.sun.com/robots.txt
Http://www.eachnet.com/robots.txt

5. 无效robots.txt错误

L颠倒了顺序:
写入错误
用户代理:*
Disallow:googlebot

以下哪项语句为真:
用户代理:googlebot
不允许:*

L一行放置多个禁用命令:
例如,您可能错误地写入
Disallow:/CSS//cgi-bin//images/

以下哪项是正确的?
Disallow:/CSS/
Disallow:/cgi-bin/
Disallow:/images/

L行
前面有大量空间,例如
不允许:/cgi-bin/
尽管标准中未提及,但此方法容易出现问题。

L将404重定向到另一页:
当许多网站没有robots.txt在robotnet中配置的文件,系统将自动将404重定向到另一个HTML页面。在这种情况下,robotnet通常会以a的形式处理HTML页面文件robots.txt文件。虽然没有这样的问题,但最好放一个空白robots.txt网站根目录下的文件。

大写

L。例如
User Agent:excite
Disallow:
尽管该标准不区分大小写,但目录和文件名应使用小写:
User Agent:googlebot
Disallow:

L只不允许,不允许!
语法不正确:
用户代理:baiduspider
Disallow:/John/
允许:/Jane/

L忘记斜线/
写不正确:
用户代理:baiduspider
不允许:CSS

以下哪项是正确的?
用户代理:baiduspider
不允许:/CSS/

二。机器人meta-tag

1. 什么是机器人元标签?

robots.txt文件主要限制搜索引擎访问整个站点或目录,而机器人元标签主要针对特定页面。像其他元标签(如使用的语言,页面描述和关键字)一样,机器人元标签也放在页面上,专门用于告诉搜索引擎机器人如何捕获此页面的内容。
2。机器人元标签的语法:

机器人元标签对大小写不敏感。名称="机器人"表示所有搜索引擎。您可以输入name="baiduspider"用于特定的搜索引擎"。内容部分有四个命令选项:Index,noindex,follow和nofollow。命令用逗号分隔。

索引命令告诉搜索机器人捕获页面;

以下命令指示搜索机器人可以继续沿着页面上的链接爬行;

除了Inktomi之外,机器人元标签的默认值是索引和跟随。默认值是index和nofollow。

应该指出的是robots.txt并且上述机器人元标签仅以需要搜索引擎机器人协作的方式限制搜索引擎机器人(机器人)捕获站点内容,而不是每个机器人都这样做。

目前,大量搜索引擎机器人符合robots.txt规则。目前,机器人元标签不太支持,但正在逐渐增加。例如,着名的搜索引擎Google得到了充分支持,此外,Google还添加了命令"ARCHIVE"以限制Google是否保留web快照。例如:

捕获网站上的页面并沿着页面上的链接爬行,但是不能在goolge上保留页面的快照。

示例:
#机器人,scram

用户代理:*
Disallow:/cgi-bin
Disallow:/transcript
Disallow:/Development
Disallow:/Third
Disallow:/beta
Disallow:/Java
Disallow:/Shockwave
Disallow:/jobs
Disallow:/PR
Disallow:/interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/digest
Disallow:/quicknews
Disallow:/search

用户代理:Mozilla/3.01(hotwired test/0.1)
Disallow:/cgi-bin
Disallow:/transcript
Disallow:/Development
Disallow:/Third
Disallow:/beta
Disallow:/Java
Disallow:/Shockwave
Disallow:/jobs
Disallow:/PR
Disallow:/interactive
Disallow:/alt_index黑帽站群效果.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/digest
Disallow:/quicknews
Disallow:/search

用户代理:slurp
Disallow:/cgi-bin
Disallow:/transcript
Disallow:/Development
Disallow:/Third
Disallow:/beta
Disallow:/Java
Disallow:/Shockwave
Disallow:/jobs
Disallow:/PR
Disallow:/interactive
Disallow:/alt_index.html
Disallow:/webmaster_logs
Disallow:/newscenter
Disallow:/virtual
Disallow:/digest
Disallow:/quicknews
Disallow:/search

例如,我们编写了DZ程序。您应该能够按照上述说明理解它们。

#
# Robots.txt对于discuz!董事会
#版本5.5.0
##

用户代理:*

Disallow:/admin/
Disallow:/API/
Disallow:/Attachments/
Disallow:/customavatars/
Disallow:/images/
Disallow:黑帽站群效果/forumdata/
Disallow:/include/
Disallow:/ipdata/
Disallow:/templates/
Disallow:/plugins/
Disallow:/mspace/
Disallow:/WAP/
Disallow:admincp。php
Disallow:Ajax。php
Disallow:摘要。php
Disallow:日志记录。php
不允许:会员。php
Disallow:memcp。php
Disallow:Misc。php
Disallow:My。php
Disallow:PM。php
Disallow:Post。php
Disallow:注册。php
Disallow:RSS。php
Disallow:搜索。php
Disallow:seccode。php
Disallow:topicadmin。php

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.botadmin.cn/sylc/2283.html