#{91position/}

Robots.txt文件语法使用详解

时间:2009-9-29 作者:admin 浏览量:()

1. robots.txt只能存放于网站的根目录下,置于除此之外的任何地方均不会被Spider发现。 

2. 每个网站,或每个域名(包括子域名),只能有一个robots.txt。 

3. 文件名“robots.txt”为小写字母,其他如Robots.txt或robots.Txt是不正确的,命名错误将会被Spider忽略。
 
robots.txt语法。最简单的 robots.txt 文件使用两条规则:
   User-Agent: 适用下列规则的漫游器
   Disallow: 要拦截的网页 

这两行被视为文件中的一个条目。您可根据需要包含任意多个条目。您可在一个条目中包含多个 Disallow 行和多个 User-Agent。

User-agent:该项的值用于描述搜索引擎robot的名字。

在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。

如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的Disallow和Allow行的限制。

Disallow:该项的值用于描述不希望被访问的一组URL。

这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。

"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。

• 要拦截整个网站,请使用正斜扛。
Disallow:/

• 要拦截目录及其中的所有内容,请在目录名后添加正斜扛。
Disallow:/private_directory/

• 要拦截网页,请列出该网页。
Disallow:/private_file.html

网址区分大小写。例如:Disallow:/private_file.html
会拦截 private_file.html
但不会拦截 Private_File.html

Google、百度和雅虎的蜘蛛还支持Allow语法

Allow:该项的值用于描述希望被访问的一组URL。

与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。

注意:Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。

使用 * 匹配字符序列

您可使用星号 (*) 来匹配字符序列。例如,要拦截对所有以"专用"开头的子目录的访问,可使用下列条目:
User-Agent:Googlebot
Disallow:/专用*/

要拦截对所有包含问号 (?) 的网址的访问,可使用下列条目:
User-agent:*
Disallow:/*?