Robots文件写法

2011年05月11日 8,017 次浏览陈华评论已关闭

每次写Robots都要百度一下，其实Robots文件很好写，只是怕写错，如果写错了，后果很严重，所以，今天把robots文件写法发布出来，希望对大家有帮助。

我比较喜欢的一个是指定网站地图语句，例如：Sitemap: http://www.cchua.com/sitemap.xml

搜索引擎Robots协议：是放置在网站根目录下robots.txt文本文件，在文件中可以设定搜索引擎蜘蛛爬行规则。设置搜索引擎蜘蛛Spider抓取内容规则。
下面是robots的写法规则与含义：
首先要创建一个robots.txt文本文件，放置到网站的根目录下，下面开始编辑设置Robots协议文件：

一、允许所有搜索引擎蜘蛛抓取所以目录文件，如果文件无内容，也表示允许所有的蜘蛛访问，设置代码如下：

User-agent: *
Disallow:

或者

User-agent: *
Allow: /

二、禁止某个搜索引擎蜘蛛抓取目录文件，设置代码如下：

User-agent: Msnbot
Disallow: /

例如想禁止MSN的蜘蛛抓取就设为，Msnbot代表MSN的蜘蛛，如果想禁止其他搜索引擎就更换蜘蛛名字即可，其他蜘蛛名字如下：
百度的蜘蛛：baiduspider
Google的蜘蛛： Googlebot
腾讯Soso:Sosospider
Yahoo的蜘蛛：Yahoo Slurp
Msn的蜘蛛：Msnbot
Altavista的蜘蛛：Scooter
Lycos的蜘蛛： Lycos_Spider_(T-Rex)

三、禁止某个目录被搜索引擎蜘蛛抓取，设置代码如下：
User-agent: *
Disallow: /目录名字1/
Disallow: /目录名字2/? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?? ?
Disallow: /目录名字3/

把目录名字改为你想要禁止的目录即可禁止搜索引擎蜘蛛抓取，目录名字未写表示可以被搜索引擎抓取。

四、禁止某个目录被某个搜索引擎蜘蛛抓取，设置代码如下：

User-agent: 搜索引擎蜘蛛名字? ???说明(上面有说明蜘蛛的名字)
Disallow: /目录名字/? ?? ?? ?? ???说明(这里设定禁止蜘蛛抓取的目录名称)

例如，想禁目Msn蜘蛛抓取admin文件夹，可以设代码如下：
User-agent: Msnbot
Disallow: /admin/

五、设定某种类型文件禁止被某个搜索引擎蜘蛛抓取，设置代码如下:

User-agent: *
Disallow: /*.htm? ?说明(其中“.htm”，表示禁止搜索引擎蜘蛛抓取所有“htm”为后缀的文件)

六、充许所有搜索引擎蜘蛛访问以某个扩展名为后缀的网页地址被抓取，设置代码如下:

User-agent: *
Allow: .htm$??说明(其中“.htm”，表示充许搜索引擎蜘蛛抓取所有“htm”为后缀的文件)

七、只充许某个搜索引擎蜘蛛抓取目录文件，设置代码如下：

User-agent: 搜索引擎蜘蛛名字? ???说明(上面有说明蜘蛛的名字)
Disallow:

自由转载，转载请注明： 转载自WEB开发笔记 www.chhua.com

本文链接地址: Robots文件写法 http://www.chhua.com/web-note2000

随机笔记

网络营销, 网站运营 Robots写法

WEB开发笔记

Robots文件写法

随机笔记

评论

联系我：

最近笔记

文章归档