站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
▼
建站程序
开发
服务器
办公软件
开发教程
▼
服务器教程
软件使用教程
运营教程
热门电子书
▼
CSS教程
WordPress教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
热点词条
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
搜索引擎工作原理
”(章节)
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
==探寻蜘蛛和机器人== 搜索引擎要知道网上的新生事物,就得派人出去收集,每天都有新的网站产生,每天都有网站内容的更新,而且这些产生的网站数量、更新的网站内容是爆炸式的,靠人工是不可能完成这个任务的,所以搜索引擎的发明者就设计了计算机程序,派它们来执行这个任务。<br> 探测器有很多叫法,也叫Crawler(爬行器)、spider([[蜘蛛]])、robot([http://www.zzbaike.com/wiki/%E8%9C%98%E8%9B%9B 机器人])。这些形象的叫法是描绘搜索引擎派出的蜘蛛机器人爬行在互联网上探测新的信息,Google把它的探测器叫做[http://www.zzbaike.com/wiki/%E8%9C%98%E8%9B%9B Googlebot],百度就叫[http://www.zzbaike.com/wiki/%E8%9C%98%E8%9B%9B Baiduspider],Yahoo称为[http://www.zzbaike.com/wiki/%E8%9C%98%E8%9B%9B Slurp],无论它们叫什么,它们都是人们编制的计算机程序,由它们不分昼夜的访问各个网站,取回网站的内容、标签、图片等,然后依照搜索引擎的算法给它们定制索引。 [http://www.zzbaike.com/wiki/%E8%9C%98%E8%9B%9B 网络蜘蛛]通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。<BR> 当抓取到这些网页后,由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包括网页所在[[URL]]、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库。<BR> 建立网页索引数据库后,当用户输入[[关键词]]搜索,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 <BR> 最后,由检索器将搜索结果的链接地址和页面内容摘要等内容组织起来,返回给用户。
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)