淘特Jsp Cms WEB采集说明

来自站长百科
跳转至: 导航、​ 搜索

导航: 上一页

添加采集任务[ ]

  • 第一步:填写采集任务名称,要采集的网址,及编码,选择采集的文章使用哪个文章模板,设置采集文章到哪个栏目
TotJspCms WebCollection1.png
  • 第二步:设置文章列表标记
TotJspCms WebCollection2.png

这一步主要设置对方网页文章列表的起始和结束标签,标签设置的原理其实就是掐头去尾法,比如对方网页结构如下:

TotJspCms WebCollection3.png

假如要采集“2007福建高考....”,至“地域歧视:北京….”之间的文章,那么列表起始标签可以设置为:高考新闻开始(这里为了演示,特意将高考新闻开始做为列表的头,这里只是为了说明原理,具体采集的时候请根据实际情况而定)

同样道理,列表起始结束标签设置为:高考新闻结束

一般来讲,都是根据对方网页源代码找到文章列表的前后一行特征代码,然后将其设置为起始和结束标签。(注意:这一行特征码要在其源代码中唯一出现,否则有可能截取的字符不是您想要的字符)

以上说明了文章列表的采集,以后不管是文章列表标签还是文章内容详细页标签,其设置均是掐头去尾法。

  • 第三步、文章内容采集
TotJspCms WebCollection4.png

这一步主要设置要采集文章的标题、内容、作者、来源等属性。起始、结束标签均是采用掐头去尾法截取内容。如对方网页文章源代码的标题一行代码为: <h1>香港高校明年起不再录取内地中学保送生</h1>

因此设置标题起始标记为:<h1> 标签结束标记为:</h1>

提示:如果上图上LinkList一项没有看到多行的链接地址,则说明没有采集到文章列表,建议返回上一步重新设置列表标记,直到LinkList下获取如上图所示的多行URL网址。

设置好文章标题、内容、作者等相关标记后,点击下一步,如果设计设置正确,将会显示如图。

假如采集获取的内容和上图类似,上图中每行提示采集到的标题(Title),作者:Author,内容(Content),这样一个采集任务到此添加成功了。点击“采集管理”链接返回至“采集任务”列表如下图:

TotJspCms WebCollection5.png

采集任务系统提供了“执行”和“定时计划”两种方式,点击“执行”立即开始采集,点击“定时计划”出现窗口如下:

TotJspCms WebCollection6.png

如上图设置相关参数后点击“开始执行”,采集任务将自动在定义时间内执行。

采集的进度和频率可以从系统日志中看到,大概如下:

……………..
56902 DEBUG [pool-1-thread-1] gather.ScheduledGatherThread - start scheduled gather task:1 for 1 times
57703 INFO  [pool-1-thread-1] gather.GatherTask - start gather task with urls num:50
59706 DEBUG [pool-1-thread-1] gather.GatherTask - call shut down after 2 seconds
60206 INFO  [pool-1-thread-1] gather.GatherTask - shutdown task
86905 DEBUG [pool-1-thread-1] gather.ScheduledGatherThread - start scheduled gather task:1 for 2 times
87416 INFO  [pool-1-thread-1] gather.GatherTask - start gather task with urls num:50
87526 INFO  [pool-1-thread-1] gather.GatherTask - shutdown task
116908 DEBUG [pool-1-thread-1] gather.ScheduledGatherThread - start scheduled gather task:1 for 3 times
117228 INFO  [pool-1-thread-1] gather.GatherTask - start gather task with urls num:50
117499 INFO  [pool-1-thread-1] gather.GatherTask - shutdown task
………………

相关条目[ ]

参考来源[ ]