评论:Robots协议的争论毫无意义

      近期,由于国内互联网上出现了一个新的搜索引擎竞争者,关于搜索引擎是否应当遵守Robots协议的问题成为了业内人士讨论的热点。一些人宣称:Robots协议是搜索领域的行业规范,触犯Robots协议是没有底线的行为,不禁不合法,而且还会泄露用户隐私。

      笔者也马马虎虎算是个IT工程师,不过主要研究方向是通信技术,在计算机和互联网领域,只能说是比外行人强点,但比内行人还差得多,充其量是个半专业人士。出于好奇,本人查阅了一些和Robots协议相关的资料以及近期的各种热门评论,结果惊讶的发现,那些所谓的“专家”原来绝大多数都是“伪专家”,不过是利用人们对“Robots”的陌生和对“专家”的信任在混淆视听。

      虽然我顶多算是半个专业人士,但还是希望能说几句真话,希望能够帮助读者更加接近真相。

      Robots协议的由来

      早期的互联网主要是“用户-网站”模式。用户通过网站获取信息,网站通过吸引用户点击来实现广告收入。不过,当Google把搜索引擎变成一种成功的商业模式之后,很多网站原有的商业模式遭到了严重的破坏。因为很多用户会停留在搜索引擎的搜索结果之中,不再访问信息的源头或发布信息的网站。

      于是,为了维护自身的利益,一些欧美大型网站联合起来与Google谈判,要求Google必须做到“有所为有所不为”,于是就有了“Robots协议”。

      Robot,又称Spider,是搜索引擎自动获取网页信息的电脑程序的通称。Robots协议的核心思想就是要求Robot程序不要去检索那些站长们不希望被直接搜索到的内容。将约束Robot程序的具体方法规范成格式代码,就成了Robots协议。一般来说,网站是通过Robots.txt文件来实现Robots协议。

      Robots协议的影响

      国内使用Robots协议最典型的案例,就是淘宝网和新浪微博拒绝百度搜索。不过,绝大多数中小网站都需要依靠搜索引擎来增加流量,因此通常并不排斥搜索引擎,也很少使用Robots协议。

      一些站长和程序员还把Robots协议当成偷懒的工具:对于那些本来需要加密保存的信息或限制访问的内容,他们只是写个了Robots.txt文件,要求搜索引擎不要去访问,之后便以为万事大吉。这不是典型的掩耳盗铃吗?

      不过,Robots协议最深远的影响还是帮助Google和百度这样的垄断搜索引擎遏制后起的竞争者。这是因为,Google当年在制定这个协议时,特意留下了后手,即:协议中不仅包括是否允许搜索引擎进行搜索的内容,还包括允许谁和不允许谁进行搜索内容。Google和百度在实现了垄断地位之后,就利用这些排斥性规则挡住了后来的进入者。

      微软的必应,国产的搜狗、搜搜等搜索引擎,虽然运行多年,但搜索结果始终差强人意,并不是因为他们的技术能力真的不如百度,很大程度上就是受到了Robots协议的影响。

      Robots协议的误区

      有了前面的介绍,我们就可以来揭露那些“伪专家”们是如何误导技术知识有限的广大公众的。

      1)Robots协议不是行业规范,更不是国际标准

      所谓的Robots协议,其实就是Google自己制定的一个协议规范,并不是各大搜索厂商的共识或统一的协议,也从来没有任何一家国内搜索引擎服务商公开承诺遵守Robots协议或签署类似协议或声明。

      所以说,Robots协议连个行业规范都算不上,更别说什么国际标准了,即便在美国,也只有Google把它当回事来说,而不是真的当回事来做。

      不过客观的说,确实有一些网站站长误以为Robots协议是强制规范,误以为写了Robots.txt就万事大吉了。

      2)Robots协议和保护用户隐私毫不相干

      研究之后我才发现,最普遍,但也是最可笑的一种言论就是把Robots协议和用户隐私保护扯上关系,说什么违背Robots协议是泄漏用户隐私的主要原因。

      Robots协议即不是什么加密算法,也不是什么安全机制,怎么可能阻止外部用户访问相关数据呢?确切的说,Robots协议希望解决的,不是用户能不能访问的问题,而是用户是否可以通过搜索引擎来访问的问题。就算Robots协议挡得住搜索引擎,那也挡不住用户访问啊。只要用户能够从外部访问,那该“泄密”还是会“泄密”。

      想通过Robots协议来保护私密数据,实际上只是一些懒惰的站长们误解和滥用了Robots协议。所谓的搜索引擎泄露用户隐私,本质上说,还是网站本身安全性严重欠缺。

      到底有谁在遵守Robots协议

      到底谁遵守了Robots协议?这个问题很有挑战性。

      最近几天,百度和360相互揭底,各自爆出了不少对方违背Robots协议的案例。非常有趣的是,对于这些案例,双方采取的应对措施都是揭露对方的更多案例,而谁也没敢正面质疑对方提供案例的真实性。同时,在这些爆料中,包括Google在内其他一些国内国外主流搜索引擎也都或多或少的,不幸的躺着中枪。

      这些事情似乎在告诉我们,Robots协议只不过是某些人口中讨伐对手的工具而已,其实,起码在中国,谁也没太把Robots协议真的当回事,除非是自己的垄断地位受到威胁!

稿源:木鱼博客

广告合作
QQ群号:707632017

温馨提示:

1、本网站发布的内容(图片、视频和文字)以原创、转载和分享网络内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。邮箱:2942802716#qq.com(#改为@)。

2、本站原创内容未经允许不得转裁,转载请注明出处“站长百科”和原文地址。

热门教程

  • Z-Blog教程
    Z-Blog教程
    ZBlog教程分享ZBlog安装教程、ZBlog建站教程和ZBlog使用教程等相关教程,包括如何创建...
  • WordPress教程
    WordPress教程
    WordPress教程提供了关于WordPress的基础知识和技巧,包括安装、设置、发布内容、选择主...
  • CSS教程
    CSS教程
    CSS教程提供了关于如何使用CSS来设计和美化网页的基础知识和技巧,包括选择器、样式规则、盒模型、布...
  • 宝塔面板教程
    宝塔面板教程
    宝塔面板教程是一个致力于向用户传授宝塔面板的使用技巧和知识的学习资源,旨在帮助用户快速上手和充分利用...
  • PHP教程
    PHP教程
    PHP教程提供了关于PHP语法、变量、函数、流程控制等概念的详细指导,同时介绍了常见的Web开发技术...

3个月免费VPS

亚马逊云科技

阿里云