网页抓取:修订间差异

来自站长百科
跳转至: 导航、​ 搜索
无编辑摘要
无编辑摘要
 
第1行: 第1行:
'''网页抓取'''主要有三个方面:1、搜集新出现的网页;2、搜集那些在上次搜集后有改变的网页;3、发现自从上次搜集后已经不再存了的网页,并从库中删除。
'''网页抓取'''主要有三个方面:1、搜集新出现的[[网页]];2、搜集那些在上次搜集后有改变的网页;3、发现自从上次搜集后已经不再存了的网页,并从库中删除。
== 网页抓取的优先策略 ==
== 网页抓取的优先策略 ==
通常是尽可能的首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。
通常是尽可能的首先抓取重要性的[[网页]],这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。


什么是重要性高的网页呢,主要由这三个方面决定的:
什么是重要性高的网页呢,主要由这三个方面决定的:
=== 链接欢迎度 ===
=== 链接欢迎度 ===
链接欢迎度主要是由反向链接的数目和质量决定的。
[[链接欢迎度]]主要是由反向链接的数目和质量决定的。
=== 链接重要度 ===  
=== 链接重要度 ===  
链接重要度它是关于一个URL字符串的函数,仅仅考察字符串本身,它主要通过一些模式,如认为包含|“。com”,“HOME”的URL重要度高,以及包含较少斜杠的URL重要度高等。
[[链接重要度]]它是关于一个[[URL]]字符串的函数,仅仅考察字符串本身,它主要通过一些模式,如认为包含|“。com”,“HOME”的[[URL]]重要度高,以及包含较少斜杠的URL重要度高等。
=== 平均链接的深度 ===
=== 平均链接的深度 ===
平均链接的深度表示在一个种子站点集合中,每个种子站点如果存在一条链路到达该网页,那么平均链接深度又是该网页的一个链接指标,因为距离种子站点越近说明被访问的机会越多。
[[平均链接的深度]]表示在一个种子站点集合中,每个种子站点如果存在一条链路到达该[[网页]],那么平均链接深度又是该网页的一个链接指标,因为距离种子站点越近说明被访问的机会越多。


==相关条目==
==相关条目==

2012年12月31日 (一) 17:48的最新版本

网页抓取主要有三个方面:1、搜集新出现的网页;2、搜集那些在上次搜集后有改变的网页;3、发现自从上次搜集后已经不再存了的网页,并从库中删除。

网页抓取的优先策略[ ]

通常是尽可能的首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。

什么是重要性高的网页呢,主要由这三个方面决定的:

链接欢迎度[ ]

链接欢迎度主要是由反向链接的数目和质量决定的。

链接重要度[ ]

链接重要度它是关于一个URL字符串的函数,仅仅考察字符串本身,它主要通过一些模式,如认为包含|“。com”,“HOME”的URL重要度高,以及包含较少斜杠的URL重要度高等。

平均链接的深度[ ]

平均链接的深度表示在一个种子站点集合中,每个种子站点如果存在一条链路到达该网页,那么平均链接深度又是该网页的一个链接指标,因为距离种子站点越近说明被访问的机会越多。

相关条目[ ]

参考来源[ ]