Phpcms v9/采集模块

来自站长百科
跳转至: 导航、​ 搜索

Phpcms v9 | phpcms v9安装 | phpcms v9使用 | phpcms v9模板 |phpcms v9升级|phpcms v9转换 |phpcms v9整合|phpcms v9 FAQ

位置: 内容 > 内容发布管理 > 采集管理 >

说明:

文章的采集功能是通过程序来远程获取目标网页内容,经过本地规则解析处理后存储到服务器数据库内。

文章采集系统颠覆传统采集模式和流程,采集规则与采集界面分离,规则设置更简单,只需有基础技术知识的人员设置好相关规则。编辑人员无需了解太过细节的技 术规则,只需选中自己想要采集的文章列表,就可以像发布文章一样,轻松地完成数据采集操作。

一、采集流程

简单的讲有三个步骤:

1、添加采集点,填写采集规则。

2、采集网址,采集内容

3、发布内容到指定栏目

以采集新浪新闻(http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml) 为例,作一下详细流程介绍。

实例说明:

目标:采集新浪新闻到V9系统 国际新闻 栏目中。

目标网址:http://roll.news.sina.com.cn/news/gjxw/gjmtjj/index.shtml


1、添加采集点

1.1 网址规则配置


V9cjmk1.jpg


查看要采集的目标网址源代码,查找到要采集网址的开始点和结束点(这二个点要有在整个源代码里具有唯一性)。更进一步缩小采集网址搜索范围。

V9cjmk2.jpg


测试你的网址采集规则是否正确,如下图所示

V9cjmk3.jpg


1.2 内容规则配置

内容规则这里看起来比较复杂,其实也很简单,为了便于说明,我们只采集标题、内容两个字段。采集内容网址:

http://news.sina.com.cn/w/2010-12-01/135121565455.shtml 的内容采集规则,请你打开这个网址,然后页面空白处右键->查看源文件搜索标题和内容的开始边界。

标题采集配置:

从网页<title></title>里取标题,并去除不需要的字符。如下图

V9cjmk4.jpg


内容采集配置:

新浪新闻最终页,新闻内容都包含在 之间,而且这二个结点,在整个页面源代码中具有唯一性。所以可以以此为规则取内容。并对内容进行过滤。如下图


V9cjmk5.jpg


1.3 自定义规则

1.4 高级配置

可设置是否把图片下载到服务器上,是否打水印等配置。

V9cjmk6.jpg


2、采集网址,采集内容

采集规则配好以后,即可进行网址的采集,然后进行内容的采集。

V9cjmk7.jpg


3、发布内容到指定栏目


V9cjmk8.jpg

V9cjmk9.jpg


选择导入的栏目


V9cjmk10.jpg


设置 采集内容与数据库的字段对应关系.提交进行数据入库,在此期间请耐心等待, 完成后会自动转向。至此一个简单的采集流程就操作完成。

其它更多功能,期待你发掘。

参考来源[ ]

Phpcms v9使用手册导航

phpcms v9安装

phpcms v9安装

phpcms v9使用

phpcms v9网站设置|phpcms v9模块管理|phpcms v9企业黄页|phpcms v9用户管理|phpcms v9模板风格管理|phpcms v9模板风格列表管理|phpcms v9扩展管理

phpcms v9模板

phpcms v9吧风格模板|phpcms v9淘宝客店铺推广网站模板|phpcms v9大学网div+css模板|phpcms v9娱乐潮人网站模板

phpcms v9升级:

离线升级|在线升级

phpcms v9转换

PHPCMS2007 SP6 转 PHPCMS V9|帝国cms 6.5 转 PHPCMS V9|phpcms2008 to v9|DEDECMS 5.6 to v9|PHP168 Sharp to v9

phpcms v9整合:

整合Discuz 7.0-X1.5|整合Discuz X2|整合PHPWIND 8.7

phpcms v9 FAQ

phpcms v9 FAQ