个人工具
名字空间
变换
操作

SiteFactoryCMS:第三步内容页采集设置

来自站长百科
跳转到: 导航, 搜索

导航: 上一页 | 首页 | DedeCMS | 帝国CMS | Drupal | PHPCMS | PHP168 | Xoops | Joomla | SupeSite

在列表页采集设置中获取到目标采集网站正确的内容页链接地址后,内容页采集设置步骤中将设置正文的标题、作者、来源、时间、关键字等相关选项。

在管理界面中,系统显示了标题、作者、来源、时间、关键字等正文选项信息。每一个选项值都可设置为使用字段默认值、使用指定值或使用采集规则。

温馨提示:在第一步采集项目设置中,若设置的栏目与模型不同,则本界面中所显示和设置的字段有所差异。系统将显示系统定义或用户自定义的模型中的字段选项。

Sf543.jpg

重要参数说明:

使用字段默认值:点选本项则不录入此字段信息(即不采集本字段信息)。若本字段在系统中有默认值,则取系统的默认值。

使用指定值:点选本项则指定本字段的值为固定的信息。如来源指定为“本站原创”等。

使用采集规则:点选本项则使用采集规则采集目标网页的相关信息。选择本项后还需进一步单击右侧“设置采集规则”功能按钮设置相应的采集选项。下面以“标题”为例,设置完整标题的采集规则。

点选“标题”的“使用采集规则”选项,单击右侧“设置采集规则”功能按钮,弹出管理界面窗口:

Sf544.jpg

温馨提示:最大化本窗口以方便设置相应选项。若无弹出窗口请检查浏览器是否设置了禁止弹出窗口。

在界管理界面中,左侧显示所需采集内容页的地址和源代码、“查看原始网页”功能链接,右侧显示“字段设置”相关选项。

在本例中所需采集的是内容页的标题信息,在内容页源代码中找到以下代码:

<!-- 标题 -->
<div class=“contitle”> <span>
<h1>“动易® SiteFactory™内容管理系统 RC 版正式发布</h1>
</span></div>

其中“动易® SiteFactory™内容管理系统 RC 版正式发布!”为所需要采集的正文标题,则在字段设置开始和结束代码中填写标题前面的代码“<h1>”和后面的代码“</h1>”:

·字段设置开始:“<h1>”。

·字段设置结束:“</h1>”。

温馨提示:填写的开始和结束代码尽量有唯一性,在此处因为网页中因为代码“<h1>”“</h1>”都是唯一的。如果不唯一则填写时尽可能向前或向后再多截取些代码。

同时,在本管理界面中可以进一步设置需要在采集时被过滤的项目内容:

·公用过滤项目:点选在“采集管理”->“采集过滤管理”中添加的过滤选项。

温馨提示:公有过滤项目可以在所有采集项目中通用,一般用于过滤非法字符或用户自定义的过滤内容。字段过滤执行的顺序是先公有过滤再私有过滤。

·私有过滤项目:点选过滤内联页、Falsh、脚本、样式、Div容器、Span容器、表格、图片、字体、链接、html元素等(按住“Ctrl”或“Shift”键可以多选择)项目及代码。

温馨提示:私有过滤项目只能在当前字段中使用,一般用于个性过滤。

单击页面底部的“测试字段”功能按钮可在左侧内容框中测试采集本字段的效果,单击“保存”按钮保存并返回内容页采集设置管理界面。

温馨提示:在以“测试字段”功能按钮进行测试时,不同的字段类型在设置采集规则时,其表单的显示会根据控件类型的业务规则而有所不同:

·字段是多文本框型、内容控件,则全部测试截取。字段若是文本框控件,则测试截取的信息显示不能超过255个字符。字段若是内容控件类型,在设置采集规则时有“是否保存远程图片”的选项。

·字段是数字型控件,则无论截取什么返回的都将是数字,如果截取的代码不是数字则将返回为0。

·字段是日期控件,截取返回的都将是日期,如果截取的代码不是日期将返回当前日期。

正文中所需采集的作者、来源、更新时间等选项都可参照上述方法设置为“使用采集规则”进行采集:

作者――“使用采集规则”:字段设置开始“作者:”,字段设置结束:“ 来源:”。

来源――“使用采集规则”:字段设置开始“来源:”,字段设置结束:“ 点击:”。

更新时间――“使用采集规则”:字段设置开始“更新时间:”,字段设置结束:“ 作者:”。

关键字――“使用指定值”:“公告|动易”。

其他字段可以保持系统默认选项即可。设置好后单击“下一步”按钮,系统出现“采集项目创建完毕” 成功提示信息。单击“<< 返回上一页”功能链接返回采集项目管理界面。

留言