网页抓取：修订间差异

2012年12月31日 (一) 17:48的最新版本

网页抓取主要有三个方面：1、搜集新出现的网页；2、搜集那些在上次搜集后有改变的网页；3、发现自从上次搜集后已经不再存了的网页，并从库中删除。

网页抓取的优先策略[ ]

通常是尽可能的首先抓取重要性的网页，这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。

什么是重要性高的网页呢，主要由这三个方面决定的：

链接欢迎度[ ]

链接欢迎度主要是由反向链接的数目和质量决定的。

链接重要度[ ]

链接重要度它是关于一个URL字符串的函数，仅仅考察字符串本身，它主要通过一些模式，如认为包含|“。com”，“HOME”的URL重要度高，以及包含较少斜杠的URL重要度高等。

平均链接的深度[ ]

平均链接的深度表示在一个种子站点集合中，每个种子站点如果存在一条链路到达该网页，那么平均链接深度又是该网页的一个链接指标，因为距离种子站点越近说明被访问的机会越多。

参考来源[ ]

参考来源1

@@ 第1行： / 第1行： @@
-'''网页抓取'''主要有三个方面：1、搜集新出现的网页；2、搜集那些在上次搜集后有改变的网页；3、发现自从上次搜集后已经不再存了的网页，并从库中删除。
+'''网页抓取'''主要有三个方面：1、搜集新出现的[[网页]]；2、搜集那些在上次搜集后有改变的网页；3、发现自从上次搜集后已经不再存了的网页，并从库中删除。
 == 网页抓取的优先策略 ==
-通常是尽可能的首先抓取重要性的网页，这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。
+通常是尽可能的首先抓取重要性的[[网页]]，这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。
 什么是重要性高的网页呢，主要由这三个方面决定的：
 === 链接欢迎度 ===
-链接欢迎度主要是由反向链接的数目和质量决定的。
+[[链接欢迎度]]主要是由反向链接的数目和质量决定的。
 === 链接重要度 ===
-链接重要度它是关于一个URL字符串的函数，仅仅考察字符串本身，它主要通过一些模式，如认为包含|“。com”，“HOME”的URL重要度高，以及包含较少斜杠的URL重要度高等。
+[[链接重要度]]它是关于一个[[URL]]字符串的函数，仅仅考察字符串本身，它主要通过一些模式，如认为包含|“。com”，“HOME”的[[URL]]重要度高，以及包含较少斜杠的URL重要度高等。
 === 平均链接的深度 ===
-平均链接的深度表示在一个种子站点集合中，每个种子站点如果存在一条链路到达该网页，那么平均链接深度又是该网页的一个链接指标，因为距离种子站点越近说明被访问的机会越多。
+[[平均链接的深度]]表示在一个种子站点集合中，每个种子站点如果存在一条链路到达该[[网页]]，那么平均链接深度又是该网页的一个链接指标，因为距离种子站点越近说明被访问的机会越多。
 ==相关条目==

WIKI使用导航

站长百科导航

站长专题