个人工具
名字空间
变换
操作

SXCMS 采集功能说明

来自站长百科
跳转到: 导航, 搜索

导航: 上一页

目录

参数说明

  • 名称:为新规则命名
  • 内容类型:采集的内容类型,文章或原型等。
  • 栏目:设置多个栏个编号,用“,”号隔开。栏目必须与内容类型相对应。如果不设置,则平均采集到指定类型的所有栏目。
  • 目录地址:要采集的内容目录地址。如网站的列表页。设置多个,换行。
  • 页面链接:设置目录中指向内容的字符窜表达式。另起一行,设置分页的地址表达式。
  • 内容获取:分别设置内容的各项参数的表达式。如文章中要指定标题(subject),正文(body)等。
  • 默认值:表达式如:参数=值。多个换行。可设置内容的默认参数。如设置source=互联网,则内容来源会设置为“互联网”,其他可配置作者,发布会员ID,责任编辑等。但不支持设置标题 subject。
  • 其他特殊参数:
  1. charset :设置被采集的网页的编码类型。如果同本站相同,则可不设置,如同是gb2312,则可忽略。如被采集站为utf-8,而本站为 gb2312,则必须设置charset =utf-8.
  2. cPic:设置图片的裁剪范围。可裁去被采集图片的水印部分等。表示方法同样式中的padding. 如pic=6 则被采集的图存入本站时,按边界6PX裁剪。也可用pic=0,0,60,0,分别表示,上,右,下,左边界。
  3. cNextpage,设置可用于分页的内容参数。如文章,指正文分页,设置如:nextpage=body。
  4. cPagebreak:分页符,如果设置可采集分页,则表示分页符,如不设置,采集的内容将合并为一页。在文章中,分页符支持,设置如:Pagebreak =
  • 过滤设置:标准正则表达式。匹配项将被删除。可用于过滤广告等。
  • 采集源设置:编写自定义组件。默认使用网页采集。

规则

  • 如存在相同的标题,将被忽略。
  • 不要在设置项目使用换行。如源文中有换行,用--替换。如:

 <div>
       <h1>dddd</h1>

可替换为 <div>--<h1>dddd</h1>。

  • 表达式语法:

-- 表示起止。如:

  <a href="/list_27.aspx">产品</a><span><a href="/list_26.aspx">解决方案</a></span></h2>

可表示为<a -- h2> --部分表式任意字符。

{href}:表示地址。目录表达式中,必须指定该参数。

{参数}: 内容参数采集。如{subject},匹配部分将赋值标题,{body}匹配部分将赋值正文。


相关条目

参考来源

留言