模板:今日头条/2010年第15期

来自站长百科
跳转至: 导航、​ 搜索
Wutu.jpg

robots.txt的作用是用来告诉搜索引擎机器人不索引网站的哪些内容。robots.txt文件就是一个普通的文本文件,名称用小写,一般放在网站的根目录下。当一个搜索引擎机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

robots.txt的作用就是告诉搜索引擎哪些内容不要索引,一般为了实现如下目的而使用:1.禁止搜索引擎索引系统文件,后台文件,模板文件,背景图片。这样做一方面可以防止搜索引擎收录很多无关内容,另外可以降低搜索引擎蜘蛛抓取网站时消耗的资源;2.禁止搜索引擎收录需要保密的文件,或者是隐私内容。不过值得注意的是,robots.txt只能告诉搜索引擎不收录这些内容,但是并不能防止这些内容被访问,如果是重要信息最好是设置密码;3.网址规范化方面的应用。启用伪静态的网站,一般同时存在至少两套网址,一套是rewrite之后的静态地址,一套是原始的动态地址,如果不限制,搜索引擎可能会收录大量的重复内容。为了方式这种情况,可以将动态格式的地址禁止索引。