淘特Jsp Cms WEB采集说明

导航: 上一页

添加采集任务[ ]

第一步：填写采集任务名称，要采集的网址，及编码，选择采集的文章使用哪个文章模板，设置采集文章到哪个栏目

第二步：设置文章列表标记

这一步主要设置对方网页文章列表的起始和结束标签，标签设置的原理其实就是掐头去尾法，比如对方网页结构如下：

假如要采集“2007福建高考....”，至“地域歧视：北京….”之间的文章，那么列表起始标签可以设置为：高考新闻开始(这里为了演示，特意将高考新闻开始做为列表的头，这里只是为了说明原理，具体采集的时候请根据实际情况而定)

同样道理，列表起始结束标签设置为：高考新闻结束

一般来讲，都是根据对方网页源代码找到文章列表的前后一行特征代码，然后将其设置为起始和结束标签。(注意：这一行特征码要在其源代码中唯一出现，否则有可能截取的字符不是您想要的字符)

以上说明了文章列表的采集，以后不管是文章列表标签还是文章内容详细页标签，其设置均是掐头去尾法。

第三步、文章内容采集

这一步主要设置要采集文章的标题、内容、作者、来源等属性。起始、结束标签均是采用掐头去尾法截取内容。如对方网页文章源代码的标题一行代码为： <h1>香港高校明年起不再录取内地中学保送生</h1>

因此设置标题起始标记为：<h1> 标签结束标记为：</h1>

提示：如果上图上LinkList一项没有看到多行的链接地址，则说明没有采集到文章列表，建议返回上一步重新设置列表标记，直到LinkList下获取如上图所示的多行URL网址。

设置好文章标题、内容、作者等相关标记后，点击下一步，如果设计设置正确，将会显示如图。

假如采集获取的内容和上图类似，上图中每行提示采集到的标题(Title)，作者：Author，内容(Content)，这样一个采集任务到此添加成功了。点击“采集管理”链接返回至“采集任务”列表如下图：

采集任务系统提供了“执行”和“定时计划”两种方式，点击“执行”立即开始采集，点击“定时计划”出现窗口如下：

如上图设置相关参数后点击“开始执行”，采集任务将自动在定义时间内执行。

采集的进度和频率可以从系统日志中看到，大概如下：

……………..
56902 DEBUG [pool-1-thread-1] gather.ScheduledGatherThread - start scheduled gather task:1 for 1 times
57703 INFO  [pool-1-thread-1] gather.GatherTask - start gather task with urls num:50
59706 DEBUG [pool-1-thread-1] gather.GatherTask - call shut down after 2 seconds
60206 INFO  [pool-1-thread-1] gather.GatherTask - shutdown task
86905 DEBUG [pool-1-thread-1] gather.ScheduledGatherThread - start scheduled gather task:1 for 2 times
87416 INFO  [pool-1-thread-1] gather.GatherTask - start gather task with urls num:50
87526 INFO  [pool-1-thread-1] gather.GatherTask - shutdown task
116908 DEBUG [pool-1-thread-1] gather.ScheduledGatherThread - start scheduled gather task:1 for 3 times
117228 INFO  [pool-1-thread-1] gather.GatherTask - start gather task with urls num:50
117499 INFO  [pool-1-thread-1] gather.GatherTask - shutdown task
………………

参考来源[ ]

参考来源

WIKI使用导航

站长百科导航

站长专题

淘特Jsp Cms WEB采集说明

添加采集任务[ ]

相关条目[ ]

参考来源[ ]