站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
▼
建站程序
开发
服务器
办公软件
开发教程
▼
服务器教程
软件使用教程
运营教程
热门电子书
▼
CSS教程
WordPress教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
热点词条
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
淘特Jsp Cms WEB采集说明
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
<span style="text-align:center; border:1px solid #000; float:right; padding:6px;"><strong>导航:</strong> [[淘特Jsp Cms|上一页]]</span> <div style="clear:both;"></div> ==添加采集任务== *'''第一步:填写采集任务名称,要采集的[[网址]],及编码,选择采集的文章使用哪个文章[[模板]],设置采集文章到哪个栏目''' [[Image:TotJspCms_WebCollection1.png|center]] *'''第二步:设置文章列表标记''' [[Image:TotJspCms_WebCollection2.png|center]] 这一步主要设置对方网页文章列表的起始和结束[[标签]],标签设置的原理其实就是掐头去尾法,比如对方网页结构如下: [[Image:TotJspCms_WebCollection3.png|center]] 假如要采集“2007福建高考....”,至“地域歧视:北京….”之间的文章,那么列表起始标签可以设置为:高考新闻开始(这里为了演示,特意将高考新闻开始做为列表的头,这里只是为了说明原理,具体采集的时候请根据实际情况而定) 同样道理,列表起始结束标签设置为:高考新闻结束 一般来讲,都是根据对方网页源代码找到文章列表的前后一行特征代码,然后将其设置为起始和结束标签。(注意:这一行特征码要在其源代码中唯一出现,否则有可能截取的字符不是您想要的字符) 以上说明了文章列表的采集,以后不管是文章列表标签还是文章内容详细页标签,其设置均是掐头去尾法。 *'''第三步、文章内容采集''' [[Image:TotJspCms_WebCollection4.png|center]] 这一步主要设置要采集文章的标题、内容、作者、来源等属性。起始、结束标签均是采用掐头去尾法截取内容。如对方网页文章源代码的标题一行代码为: <nowiki><h1>香港高校明年起不再录取内地中学保送生</h1></nowiki> 因此设置标题起始标记为:<nowiki><h1> 标签结束标记为:</h1></nowiki> '''提示:'''如果上图上LinkList一项没有看到多行的[[链接]]地址,则说明没有采集到文章列表,建议返回上一步重新设置列表标记,直到LinkList下获取如上图所示的多行[[URL]]网址。 设置好文章标题、内容、作者等相关标记后,点击下一步,如果设计设置正确,将会显示如图。 假如采集获取的内容和上图类似,上图中每行提示采集到的标题(Title),作者:Author,内容(Content),这样一个采集任务到此添加成功了。点击“采集管理”链接返回至“采集任务”列表如下图: [[Image:TotJspCms_WebCollection5.png|center]] 采集任务系统提供了“执行”和“定时计划”两种方式,点击“执行”立即开始采集,点击“定时计划”出现窗口如下: [[Image:TotJspCms_WebCollection6.png|center]] 如上图设置相关参数后点击“开始执行”,采集任务将自动在定义时间内执行。 采集的进度和频率可以从系统日志中看到,大概如下: <pre> …………….. 56902 DEBUG [pool-1-thread-1] gather.ScheduledGatherThread - start scheduled gather task:1 for 1 times 57703 INFO [pool-1-thread-1] gather.GatherTask - start gather task with urls num:50 59706 DEBUG [pool-1-thread-1] gather.GatherTask - call shut down after 2 seconds 60206 INFO [pool-1-thread-1] gather.GatherTask - shutdown task 86905 DEBUG [pool-1-thread-1] gather.ScheduledGatherThread - start scheduled gather task:1 for 2 times 87416 INFO [pool-1-thread-1] gather.GatherTask - start gather task with urls num:50 87526 INFO [pool-1-thread-1] gather.GatherTask - shutdown task 116908 DEBUG [pool-1-thread-1] gather.ScheduledGatherThread - start scheduled gather task:1 for 3 times 117228 INFO [pool-1-thread-1] gather.GatherTask - start gather task with urls num:50 117499 INFO [pool-1-thread-1] gather.GatherTask - shutdown task ……………… </pre> ==相关条目== *[[淘特AspShop]] *[[淘特分类信息系统]] *[[淘特Asp.NetCms]] *[[淘特Java论坛]] ==参考来源== *[http://www.totcms.com/help/ 参考来源] [[category:淘特Jsp Cms|W]]
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)