编辑“了解搜索引擎”（章节）

==搜索引擎工作原理简介==
搜索引擎工作过程非常复杂，接下来我们简单介绍搜索引擎是怎样实现网页排名的。搜索引擎的工作过程大体上可以分成三个阶段：

1）爬行和抓取 – 搜索引擎蜘蛛通过跟踪链接访问网页，获得页面[[HTML]]代码存入数据库。

2）预处理 -  索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理，以备排名程序调用。

3）排名 - 用户输入关键词后，排名程序调用索引库数据，计算相关性，然后按一定格式生成搜索结果页面。

===爬行和抓取===
爬行和抓取是搜索引擎工作的第一步，完成数据收集的任务。

为了抓取网上尽量多的页面，搜索引擎蜘蛛会跟踪页面上的链接，从一个页面爬到下一个页面，就好像蜘蛛在蜘蛛网上爬行那样，这也就是搜索引擎蜘蛛这个名称的由来。整个互联网是由相互链接的网站及页面组成的。从理论上说，蜘蛛从任何一个页面出发，顺着链接都可以爬行到网上的所有页面。当然，由于网站及页面链接结构异常复杂，蜘蛛需要采取一定的爬行策略才能遍历网上所有页面。

最简单的爬行遍历策略分为两种，一是深度优先，二是广度优先。

所谓深度优先指的是蜘蛛沿着发现的链接一直向前爬行，直到前面再也没有其他链接，然后返回到第一个页面，沿着另一个链接再一直往前爬行。

广度优先是指蜘蛛在一个页面上发现多个链接时，不是顺着一个链接一直向前，而是把页面上所有第一层链接都爬一遍，然后再沿着第二层页面上发现的链接爬向第三层页面。

在实际工作中，蜘蛛的带宽资源、时间都不是无限的，也不可能爬完所有页面。实际上最大的搜索引擎也只是爬行和收录了互联网的一小部分。深度优先和广度优先通常是混合使用的，这样既可以照顾到尽量多的网站（广度优先），也能照顾到一部分网站的内页（深度优先）。

===预处理===
在一些SEO材料中，预处理也被简化称为索引，因为索引是预处理最主要的步骤。

搜索引擎蜘蛛抓取的原始页面，并不能直接用于查询排名处理。搜索引擎数据库中的页面数都在数万亿级别以上，用户输入搜索词后，靠排名程序实时对这么多页面分析相关性，计算量太大，不可能在一两秒内返回排名结果。因此抓取来的页面必须经过预处理，为最后的查询排名做好准备。

和爬行抓取一样，预处理也是在后台提前完成，用户搜索时感觉不到这个过程。

===排名===
经过搜索引擎蜘蛛抓取页面，索引程序计算得到倒排索引后，搜索引擎就准备好可以随时处理用户搜索了。用户在搜索框填入关键词后，排名程序调用索引库数据，计算排名显示给用户，排名过程是与用户直接互动的。