SiteWeaver内容管理系统:采集管理事项

来自站长百科
跳转至: 导航、​ 搜索

导航: 上一页 | 首页 | DedeCMS | 帝国CMS | Drupal | PHPCMS | PHP168 | Xoops | Joomla | SupeSite

采集系统可以直接深入到站点及其网页的所有内容,将网页中的有效数据采集出来(而不仅是网页或链接),并保持数据之间的逻辑关系。对一个新闻站点,它可以将每个新闻的标题、正文等信息单独采集出来,分别作为字段存储在系统中。

采集项目管理

单击左侧管理导航的“采集管理”,出现采集的管理项目:

·文章采集:用于采集设置好的采集项目。

·项目管理:用于建立、管理和复制采集项目。

·过滤管理:用于过滤采集中的标题和正文的字符。

·历史记录:已采集的记录历史,避免重复采集。

·导入|导出:用于共享迁移采集项目。

·定时设置 | 启动定时:用于设置定时采集

·区域采集管理:就是采集网站页面的某个固定区域,并将采集得来的区域代码保存为内联页提供给模板调用,刷新区域采集就可时时更新。

文章采集

1.单击后台左侧管理导航的“采集管理”->“文章采集”,出现“采集系统项目管理”界面:

Sw550.jpg

参数说明:

·选择:选择您要采集的项目,可多选用于批量采集操作。
·状态:如果采集项目没有通过审核,则选择框的颜色为灰暗并不可选,其状态栏显示×。您要必须在“项目管理中”连续通过“采样测试”::->“设置属性”这两步,才能通过审核。通过审核的采集项目状态栏显示√。
·上次采集:显示最新的采集日期。
黑色:表示上一次采集的时间。如:2005-5-8 14:45:44。
红色:表示当天采集的时间。如:2005-5-10 11:31:32(如果过了当天时间则会变成黑色)。
·文章采集选项:系统提供了三种采集的样式,包括
->不录入数据库,只测试采集功能是否正常
->采集过程中预览文章内容
->不采集本系统中已经存在相同标题的文章(网站文章超过2万篇以上,请慎用此项)

这几个是多选选项,您可以选择您自己想要的方式,如果都不选择那就是直接把采集的文章写入到数据库中。

·采集模式:提供“稳定采集”、“快速采集”、“链接采集”和“断点采集”四种模式。
->稳定采集:是针对一台服务器有多个动易系统时建议选此项,每采集一篇文章让服务器休息3秒。这样当一台服务器多个动易系统同时采集的时候服务器不受采集影响。
->快速采集:是针对用户拥有一台独立的服务器或配置非常好的服务器使用的采集模式。快速采集将发挥采集的最快速度,采集的效率最高。
->链接采集:就是只采集对方网站的链接,不采集正文。
->断点采集:就是为了采集过程中突然中断提供的一种采集模式,当您上一次采集的时候突然中断后,在您再一次打开采集的时候,断点采集按钮就从灰色不可用转变成为可用按钮,您只要单击按钮就可以从上一次采集断开那一点开始继续采集。减少系统再次检测的时间。
·历史记录:采集项目具有采集统计功能,显示该项目采集成功数和失败数,点击成功失败可看到具体的历史记录信息,并提供采集统计功能。
·采集选项:提供“测试采集”和“正文预览”两项,分别是来测试建立项目成功后是否有效。
·每页项目数:您可以下拉选择每页显示的页数,用于批量采集,比如一次采集20个项目或更多。
·开始采集:勾选了相应采集项目前的选择框,再单击本功能按钮,系统开始进行项目采集与测试。

项目管理

单击后台左侧管理导航的“采集管理”->“项目管理”,出现“采集系统项目管理”界面:

Sw551.jpg

参数说明:

·管理导航:系统提供采集管理导航操作。
->管理首页:链接到采集系统项目管理首页。
->添加新项目:单击本功能链接添加新的采集项目。
·“操作”列功能链接说明:
->编辑:修改您指定的采集项目。
->测试:测试您的采集项目是否正确,如果显示采集的正文页证明成功,否则会提示您第几步错误。
->属性:设置您采集到的文章,放在那个频道中,那个栏目中,相对应的属性设置。
->复制:如果所采集网站的模板相同,可利用本功能复制多个项目,以提高采集效率。

如果导入采集项目后,就需要审核,是否是正确的采集项目,您必须点要审核项目的,

!采集项目只有通过测试和属性这连续两项后方可通过审核。测试:保证采集项目正确;属性:制定采集后的储存位置。

·操作按钮:系统提供将已选定的项目“批量删除”或“批量设置”二个操作按钮。
->批量删除:选择您要删除的采集项目(可多选),选择后单击“批量删除”按钮即可删除选定的采集项目。
->批量设置:选择您要设置的采集项目(可多选),选择后单击“批量设置”按钮,则可批量修改项目属性。

具体项目属性设置请参阅后章“项目管理”的“属性设置”。

采集的步骤

下面请认真阅读采集步骤说明,建立您要采集的项目。单击顶部的“添加新项目”功能链接,开始添加新的采集项目。

基本设置

“添加新项目--基本设置”的界面参数说明:

1.基本设置:

Sw552.jpg
·管理导航:如果是编辑项目,可任意点击所属的项目链接。
·添加项目名称:填写自定义项目名称。
·网站名称:填写自定义网站名称。
·新闻列表网址:填写采集网站的的栏目列表页(即标题较多的列表网页,不是首页)。
·网页编码格式:提供GB2312UTF-8Big5三种编码格式。国内的网站基本都是GB2312,(默认选项可不选)

如果是香港,台湾网站请采用 Big5编码,如果是采集海外网站用UTF-8编码。

·项目备注:填写自定义备注信息。

2.登录设置:

Sw553.jpg

·网站登录:选择不需要登录或设置参数(如果网站需要登录后才能浏览信息刚要选择此选项)设置参数中填写登录地址、提交地址、用户参数和密码参数。

详细设置:

登录地址: 用户要网站要登录的网页例如 :http://www.xxxx.com/UserLogin.asp

提交地址: 指用查看网页源代码方式查看登录地址的Form 表单提交的地址;比如上面输入登录地址为http://www.xxxx.com/UserLogin.asp 打开后查看网页源代码;在源代码中发现他的form 代码是 <form action='/User/User_ChkLogin.asp';那么提交地址就是http://www.xxxx.com/User/User_ChkLogin.asp

用户参数: 用户文本框名称就是查看网页源代码登录表单的用户文本框名称 例如:<input name='UserName'它的用户文本框名就是UserName用户名称就是您要登录对方网站的注册用户名

密码参数:密码文本框名称就是查看网页源代码登录表单的密码文本框名称 例如:<input name='UserPassword'它的用户文本框名就是 UserPassword密码名称就是您要登录对方网站的注册用户密码

失败信息: 这里获取地址的最简单方法是,在对方网站登录时随便输入一个错误的用户名和密码,点登录后,这时一般都会出现一个提示登录不正确的页面,把这个页面提示登录不正确的字符复制下来填写到这里就可以了(注意复制的字符要求在提示登录不正确页面的唯一字符,就是没有重复的字符).

->填写好相关参数后,单击“下一步”按钮,进行采集列表项目信息设置。

列表设置

本步骤界面中,将显示基本设置中填写的采集目标新闻列表页的信息,并设置采集的列表的相关代码:

1.网页预览:显示采集目标列表网页预览效果。

Sw554.jpg

2.代码预览:可以设置是否查看列表网页的源码。

Sw555.jpg

3.基本设置:设置详细的列表采集信息。

Sw556.jpg

·列表的开始代码和列表的结束代码:填写上部采集目标源码框中显示的采集列表代码的开始和结束的代码。

!填写的代码必须保证是当前列表页唯一的,可单击右侧的“测试代码”按钮是测试填写的代码是否唯一。

Sw557.jpg

·链接开始代码和结束代码:填写获得链接的代码。

如果列表分页正确后,就获得的一排列表标题代码。链接代码就要获得标题的URL链接,注意是要获得标题到正文的Url链接。

->使用例举1:

一个新闻标题的代码为“<td class='listbg'><a class='listA' href='/Help/Admin/others/394.html' title='文章标题:如何去掉图片随鼠标而放大或缩小的功能 作 者:壮志 更新时间:2005-5-13 20:04:23' target='_self'>如何去掉图片随鼠标而放大或缩小的功能</a><img src='/images/new.gif' alt='最新文章'></td>”

则链接开始代码和链接结束代码填写的信息为:

链接开始代码“<a class='listA' href='” 链接结束代码“' title='”

->使用例举2:

一个新闻标题的代码为<td valign="top"><a href="/chinese/SPORT-c/859117.htm" class="ty5" target="_blank">汉堡大师赛冷门迭爆 阿加西不敌非种子选手出局</a><span class="ty6">(05/11)</span></td>

则链接开始代码和链接结束代码填写的信息为:

链接开始代码“<a href="” 链接结束代码“" class="ty5" target="_blank">”

这时获得的字符正好为可运行的链接“/Help/Admin/others/394.html”和“/Help/Admin/others/394.html”。在这里,如何获得有效的链接是关键。

Sw558.jpg

·链接特殊处理:填写对链接的特殊处理定义。如果选择“重新定位”选项,则出现“绝对链接字符”内容框。

绝对链接字符:同列表重新定向原理一样,就是当有的栏目页用的是js代码运算,获得的URL而不是地址。但如果运算它并出现最后成功的页面,则可认为是正确的。把正确的URL添在下面以针对js处理的栏目页。

当链接代码是一些非常特殊的JS函数调用代码时,请设置此选项。

例如:列表中的链接代码形如:<a href='#' onclick='opennews(137)'>,对应的opennews(id)函数的代码为:window.open('http: //www.xxxx.com/xxx/news.asp?id='+id,'','****')。

则链接开始代码设置为: <a href='#' onclick='opennews(,链接结束代码为:)'>,此处“重定向URL”设置为:http://www.xxxx.com/xxx/news.asp?id={$ID}({$ID}是系统规定的标签)

->填写好相关参数后,单击“下一步”按钮进行采集正文的相关设置。

4.分页设置:

Sw559.jpg

从源代码中获取下一页的URL:

·开始代码或结束代码至少有一个在网页中是唯一的,才能保证可以正确采集到相关内容。因为每个列表页的代码都可能不同,所以需要您分析多个列表页并找到相同的开始代码和结束代码,才能保证可以从所有列表页中准确采集到所需内容。

·列表索引分页:如果列表网页中有象“上一页”、“下一页”这样的分页,则要设置索引分页。

->不作设置。注:当前采集的列表页不分页。

->设置标签。若采集的列表分页中有“下一页”和“上一页”的分页内容,则要获取分页开始与结尾的代码。

>>下页开始和结束标记:填写下一页开始和结束标记代码。

例:“共 82 篇新闻 首页 上一页 下一页 尾页”,这是某列表页的分页链接。

1.首先我们就要得到“下一页”的链接URL。

例:以下是网页中的“下一页”的URL代码“<a href='/news/List/List_2_2.html'>下一页</a>”,那么我们就要得到:下页开始标记“<a href='”,下页结束标记“'>下一页</a>”。

!请注意:开始和结束标记再加上中间采集到的代码,正好是一个完整的网络URL地址,这就是我们要设置的。

2.要正确的得到下一页URL地址关键是/news/List/List_2_2.html(如果是相对路径也不用担心,系统会自动转换为绝对路径),您还要单击右侧“测试”按钮以确认唯一性。

!因为下一页代码少,所以不可能全部唯一,但只要有一处代码为唯一就可以了。

> >索引分页重定向:系统能智能分析网站的相对路径,如果特殊情况分析不对,请按上述步骤使用此功能。一般不会用到,如果采集分页很纵深,并且下一页代码是相对路径。在下一步链接设置分析到的下一页列表的URL和实际不符,应用此功能。在列表设置捕获相对路径,如果是动态页捕获ID。

例:在索引分页中填写实际路径 http://www.xxxxx.com/xxx/xx/xxx/news/{$ID} {$ID}就是列表捕获的相对路径或动态ID。

Sw560.jpg

批量指定分页URL代码 :如果分页的代码都是数字,就可用批量生成自动控制分页。

>>原字符串:例:http://www.xxxxx.com/news/index_1.html 它的分页都为http://www.xxxxx.com/news/index_2.html,即有数字规律,则可在原字符串中这样填写:

“http://www.xxxxx.com/news/index_{$ID}.html”

其中{$ID}代表分页数。

>>生成范围:可写1-10或10-1,意思是采集1到10页或10到1页倒序采集。

Sw561.jpg

手动添加分页URL代码:

如果对方网页分页实在是没有头绪,则可用手工添加方式添加各个分页的URL。

!注:一行一个分页URL地址。事实证明这种效率并不高,为无奈之举,因为无头绪的分页中列表分页也未必是有头绪的。

5.列表缩略图:

Sw562.jpg

·缩略图开始代码和结束代码:填写获得缩略图地址的代码。

适用于截取一些列表页有缩略图的网站。列表缩略图就要获得缩略图的地址。

->使用例举:

一个网站列表缩略图的代码为

以下是引用片段:<td vAlign=top width=108 rowSpan=2><IMG height=62 src="/Skin/200508/index_001.gif" width=75></td>

则缩略图开始代码和缩略图结束代码填写的信息为:

缩略图开始代码

以下是引用片段:

<IMG height=62 src="

链接结束代码

以下是引用片段:

" width

这时获得的地址正好为缩略图的地址“/Skin/200508/index_001.gif”。

在这里,需要注意的是“缩略图开始代码”的代码设置,不能设置为:“src="”。这里要把您采集的缩略图的代码它们共同代码一起设置上,不然会出现和正文不对应的现象。

正文设置

本步骤界面中,将显示所采集正文的信息,并设置标题、正文、时间、作者、来源、关键字等信息:

1.网页预览 :显示采集目标内容页的预览效果。

Sw563.jpg

!上面显示“请选择测试的正文页”下拉选择框,可以选择相应的正文页面作为测试页。

2.代码预览:可以设置是否查看列表网页的源码。

Sw564.jpg

3.基本设置:

Sw565.jpg

·标题开始标记和结束标记:对网页正文的标题进行设置。

->使用例举1:

源码框中显示的标题信息为“<title>如何去掉图片随鼠标而放大或缩小的功能</title>”,则标题开始标记和标题结束标记中填写的信息为:

标题开始标记“<title>”

标题结束标记“</title>”

->使用例举2:

源码框中显示的标题信息为“<b><font size='4'><br>这是文章标题</font></b>”,则标题开始标记和标题结束标记中填写的信息为:

标题开始标记“<b><font size='4'><br>”

标题结束标记“</font></b>”

这时获得的字符正好为我们想要的标题“如何去掉图片随鼠标而放大或缩小的功能”和“这是文章标题”。

·正文设置操作如上

!在这里,如何获得有效的链接是关键。就会得到我们想要的标题。

4.选项设置:

Sw566.jpg

·更新时间、文章作者、文章来源、文章关键字、文章简介:

这些内容的设置与上述设置方法相同。

->使用例举:

源码框中显示的时间、作者、来源信息为“<td colspan="2" class="Article_tdbgall">作者:<a href='#' title='壮志'>壮志</a> 文章来源:本站原创 点击数:<script language='javascript' src='/Help/GetHits.asp?ArticleID=394'></script> 更新时间:2005-5-13</td>”

则填写的时间、作者、来源信息为:

时间开始标记“> 更新时间:”

时间结束标记“</td>”

作者开始标记“作者:”

作者结束标记“ 文章来源”

来源开始标记“文章来源:”

来源结束标记“点击数:”

·您可以指定作者设置、来源设置和关键字词的自定义文字。

在关键字词设置中,如果想让关键字是正文的标题,关键词操作:

->可选择将标题打散为关键词(默认) 打散的字数可以指定

->也可以指定网页中截取的关键词

如:关键字:|如何|何去|去掉|掉图|图片|片随|随鼠|鼠标|标而|而放|放大|大或|或缩|缩小|小的|的功|功能|能|

·文章简介可指定从获取内容前的多少字符为简介

5.自定义设置:

Sw567.jpg

这里显示您所设置的自定义字段。自定义字段设置请参阅本书自定义字段管理说明。

6.分页设置:

Sw568.jpg

·正文分页设置:在设置正文分页时通常所在页面没有分页,那么这样选择显示视图网页的上部有个下拉菜单,记录的当前列表分页的所有标题,在其中选择有正文分页的正文页。

·当正文里出现有分页的时候,就要用到这个设置,先看下这篇文章的分页情况:

Sw569.jpg

下面是代码里的“下一页”代码段部分

Sw570.jpg

这样我们就可以截取代码了,如图示:

Sw571.jpg

对于这个分页设置里的第三个选项:设置分页标签----这里的设置是选取区域段的全部的分页代码,如上面的图中的“1”<----->“10” 区域,我们再看下此正文页的这段区域代码:

Sw572.jpg

那么我们截取的代码就如下图所示:

Sw573.jpg

设置好了,点“下一步”,我们会看到正确打开的页面里对分页地址正确获取得到了

Sw574.jpg

->填写好相关参数后,单击“下一步”按钮进行采样测试。

Sw575.jpg

采样测试

本步骤界面中,将测试显示采集的效果是否正常。如果有分页请注意下面的小红色文字的提示。

Sw576.jpg

->采集所有测试页为内联页显示方便用户浏览和防变形,增加采集错误反馈机制,单击“下一步”按钮对采集的文章进行进行属性设置。


属性设置

本步骤为采集的最后一步,设置所采集文章在本网站中详细的属性,如所属栏目、专题、阅读点数、文章属性等信息,并可设置过滤选项、采集数量和采集属性。

1.基本设置:

Sw577.jpg
·文章频道:就是要指定您现在要采集的文章是属于那一个文章频道中。
·栏目/专题:指定您现在要采集的文章是属于哪一个栏目和专题。
·文章状态:是确定您正要采集的文章的状态,包括草稿、待审核、终审通过。
·立即生成:如果您把这个勾选上,在采集完成后就把您所要采集的文章生成html

2.属性设置:

Sw578.jpg

·内容页分页方式:推荐选择手动分页,以对方正文分页为基础。注:如果选择自动分页,分页的字符数绝不能为0,否则在生成html时会出现问题。

其他具体设置可以参阅添加文章相应部分内容。

3.收费设置:

Sw579.jpg

请参阅添加文章的相关收费部分。

4. 采集设置:

Sw580.jpg

参数说明:

·过滤选项:过滤采集正文页中的HTML字符。

Iframe:过滤内联。

Object:过滤Falsh和控件。

Script:过滤js、vbs等脚本。

Class:过滤类。

Div:过滤层。

Span:过滤。

Table、Tr、Td:过滤表格属性。

Img:过滤图片。注意如果选择过滤图片采集过来的数据中将不会有图片

Font:过滤字体定义。

A:过滤链接,可防止用户点击链接为其它网址。

HTML:过滤。注意如果选择过滤HTML采集过来的数据将以纯文本形式显现

·采集数量:系统提供了三个选项

->采集列表中的所有文章

->采集列表中的N篇文章后停止采集

->采集列表中的N个分页后停止采集

·采集图片设置:

->保存远程图片

->自动给图片增加水印

->自动为第一张图片创建缩略图

->将文章内容中的Flash和图片的地址保存到根目录中的CollectionFilePath.txt文件中,以方便网际快车等软件批量下载

·文章采集顺序:正序采集或者倒序采集。而系统推荐用的就是倒序采集。

!如果您要启用立即发布,发布后要记得生成相应的JS文件。

->填写好相关参数后,单击“完成”按钮,出现成功信息,完成本采集项目设置。

Sw581.jpg

采集信息操作

在添加好采集项目后,下面就可以开始进行信息采集的操作了操作的步骤非常管理,您可以在点击之间完成大量数据的录入。

1.单击后台左侧管理导航的“采集管理”->“文章采集”,出现“采集系统项目管理”界面:

Sw582.jpg

2.在选择相应项目后,单击您要选择的采集方式按钮开始采集信息。

!在采集前,您可以先勾选“不录入数据库,只测试采集功能是否正常”,以测试建立的采集项目采集信息是否有效。

3.系统出现信息采集过程界面:

在这个界面中,顶部显示了信息采集的运行过程与统计信息,单击“停止采集”按钮可终止本次采集过程。

每一个采集的页面都显示了标题、作者、来源、关键字、页面地址和其它分页、图片等信息:

系统信息采集完成后,出现成功采集的提示信息:

Sw583.jpg

系统自动返回“采集系统项目管理”界面,并在当前采集项目的“上次采集”列显示红色的最新采集日期。

4.在信息采集完成后,您可以进入相应的文章功能频道,查看采集的信息。如果您在采集项目的“属性设置”中没有勾选“通过审核”,您要审核后采集的信息才能显示在前台。