搜索引擎工作原理

来自站长百科
跳转至: 导航、​ 搜索

探寻蜘蛛和机器人[ ]

搜索引擎要知道网上的新生事物,就得派人出去收集,每天都有新的网站产生,每天都有网站内容的更新,而且这些产生的网站数量、更新的网站内容是爆炸式的,靠人工是不可能完成这个任务的,所以搜索引擎的发明者就设计了计算机程序,派它们来执行这个任务。

探测器有很多叫法,也叫Crawler(爬行器)、spider(蜘蛛)、robot(机器人)。这些形象的叫法是描绘搜索引擎派出的蜘蛛机器人爬行在互联网上探测新的信息,Google把它的探测器叫做Googlebot,百度就叫Baiduspider,Yahoo称为Slurp,无论它们叫什么,它们都是人们编制的计算机程序,由它们不分昼夜的访问各个网站,取回网站的内容、标签、图片等,然后依照搜索引擎的算法给它们定制索引。

网络蜘蛛通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

当抓取到这些网页后,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。

建立网页索引数据库后,当用户输入关键词搜索,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。

最后,由检索器将搜索结果的链接地址和页面内容摘要等内容组织起来,返回给用户。

如何辨别搜索引擎机器人身份[ ]

搜索引擎派出他们的搜索机器人去访问、索引网站内容,网站管理员也默认、欢迎它们来访。但是由于搜索引擎派机器人来访会在一定程度上影响网站性能,因此并非所有的机器人都是无害的,有一些非法机器人伪装成主流搜索引擎漫游器对网站大量遍历,并且不遵循robots.txt规范,会严重拖垮网站性能而又无其它益处。因此,网站管理员需要验证每个机器人身份是否合法。

在你的服务器日志文件中,可见每次访问的路径和相应的IP地址,如果是机器人来访,则user-agent会显示Googlebot或MSNBot等搜索引擎漫游器名称,每个搜索引擎都有自己的user-agent,但仅有这个还不足以证明这个机器人的合法性,因为很多垃圾制造者可能将他们的机器人也命名为Googlebot,以伪装蒙混进入网站,大肆采掘内容。

目前,主流搜索引擎都建议网站管理员通过这种方式来辨别真实的机器人身份:通过DNS反向查询找出搜索引擎[机器人]IP地址对应的主机名称;用主机名查找IP地址以确认该主机名与IP地址匹配。

首先,使用DNS反向查询(Reverse DNS Lookup),找出机器人IP地址对应的主机名称。主流搜索引擎的主机名称通常情况下应是这样的:

  • Google:主机名称应包含于googlebot.com域名中,如:crawl-66-249-66-1.googlebot.com;
  • MSN:主机名称应包含于search.live.com域名中,如:livebot-207-46-98-149.search.live.com;
  • Yahoo:主机名称应包含于inktomisearch.com域名中,如:ab1164.inktomisearch.com。

最后,做一次DNS查询,用主机名查找IP地址(Forward DNS Lookup),以确认该主机名与IP地址匹配。由此证明该机器人是合法的。
现在,如果发现一个机器人将自己伪装成合法搜索引擎漫游器,你就可以通过服务器上的设置来阻止这个非法机器人。

如何吸引蜘蛛[ ]

分析一下,要想蜘蛛经常光顾自己的站,首先要先把蜘蛛引过来。怎么引?最简单的办法是你自己创造个关键字,注意要保证关键字的唯一性,百度搜索到的结果相关性要低。那关键字要在你首页出现,而且有相关解释,目的是围绕关键字做相关内容。

然后去搜索引擎更新快的地方,发布相关信息。你发表的文章要围绕你创造的关键字写,关键字可以使用一两次加粗,色彩,或者下划线等,关键字连接到你首页地址,内容里再加一两次你首页地址(传说中的软文)。

最关键字加好了,信息也发布了,最关键的就是要触发搜索引擎检测数据库,使蜘蛛会顺着那些新内容找到你首页!怎么触发?还用问吗?刚做的关键字,具有唯一性,而且相关性低。如果有人搜索那关键字,蜘蛛检索时候会优先考虑最合适的页面,也许搜索引擎暂时没显示收录你的站,但是蜘蛛肯定已经闻风而动了。

原理已经介绍了,吸引蜘蛛还有许多方法,简单的总结一下:

  一、增加原创的文字,适当围绕关键字优化,强烈建议在title里也加一下。这里的原创不是说纯自己写的就完事了,你还要搜索一下别人是不是写过类似的,如果有劝你还是另换话题吧。二、在百度权重高,更新快的地方发布围绕关键字相关内容的信息和你站点连接,让百度蜘蛛能够从多个地方转到你的站上去。我常用的有百度知道、贴吧以及各大网摘。

  三、围绕这个关键字进行推广,发布大量外链,让检索结果定位到你的站。

相关条目[ ]