个人工具
名字空间
变换
操作

SiteFactoryCMS:第二步列表页采集设置

来自站长百科
跳转到: 导航, 搜索

导航: 上一页 | 首页 | DedeCMS | 帝国CMS | Drupal | PHPCMS | PHP168 | Xoops | Joomla | SupeSite

采集功能重要是用以批量采集的方法获取目标网站中的列表信息,在列表页采集设置的步骤中将对采集网站列表页获取列表区域代码和设置分页选项。

Sf542.jpg

在出现的界面中,左侧默认显示所需采集目标列表页的源代码,右侧以书签式面板显示列表设置和分页设置选项。

重要参数说明:

1.在“列表设置”书签式面板中,设置所需采集列表代码的区域。

·列表开始代码和列表结束代码:填写采集目标源码框中显示的采集列表代码的开始和结束的代码。

在动易官方网站公司动态列表页(http://www.powereasy.net/Announce/index.html)的源代码中,找到以下代码:

<div class=“c_main_box”>
<div class=“childclass_title”><span class=“childclass_pic”></span>公司动态</div>
<div class=“childclass_content”>
<ul>
>>
<a href=“/Announce/5527.html”>
动易短信通2.0Beta正式发布!独立短信通号码震撼上市!
</a>
  [日期:2008-02-01]<br>
……
</ul>
<div class=“clearbox”></div>
</div>
<B> </B> <div class=“childclass_bot”></div>
</div>
</div>

上述源代码中,从“<div class=“childclass_content”>”至“<div class=“clearbox”></div></div>”为所需要采集的列表代码。因此,在“列表开始代码”内容框中填写“<div class=“childclass_content”>”前面的代码,在“列表结束代码”内容框中填写“<div class=“clearbox”></div></div>”后面的代码,从而让系统能找到这个区域内所需要采集的列表代码:

列表开始代码填写:“ <div class=“childclass_title”><span class=“childclass_pic”></span>公司动态</div>”。

列表结束代码填写:“ <div class=“childclass_bot”></div>”。

填写后,可以单击底部的“测试列表”功能按钮,左侧内容框中将显示所需要采集的列表代码。

温馨提示:填写的开始代码或结束代码至少有一个在网页中是唯一的,才能保证可以正确采集到相关内容。因为每个列表页的代码都可能不同,所以需要您分析多个列表页并找到相同的开始代码和结束代码,才能保证可以从所有列表页中准确采集到所需内容。

·链接开始代码和链接结束代码:填写所需要获取链接地址的开始和结束的代码区域(链接地址就要获得标题的URL链接,注意是要获得到信息内容页的Url链接)。

在采集的列表代码中,信息标题的代码为:

<a href=“/Announce/5527.html”>
动易短信通2.0Beta正式发布!独立短信通号码震撼上市!
</a>
<p style="text-indent:2em;">上述源代码中,“/Announce/5527.html”为所需要获取的链接地址,则“<a href=“”和“”>”为开始和结束的代码区域。因此,链接开始和结束代码填写的信息为:

链接开始代码填写:“<a href=”

链接结束代码填写:“”>”

在这里,如何获得有效的链接是关键,让系统能找到这个区域内所需要采集的链接地址。填写后,可以单击底部的“测试链接”功能按钮,左侧内容框中将显示列表页中所需要采集的链接地址。

温馨提示:测试采集链接地址前,请先单击“测试列表”功能按钮获得列表页代码,再单击“测试链 接”功能按钮以测试所需采集的链接效果。

2. 如果采集的列表页中存在分页(如列表页的信息列表下方有“首页 上一页 1 2 3 4 5 6 7 下一页 尾页”等方式的分页),则需要进一步设置列表分页。单击“设置分页”书签式面板,在出现的界面中可选择以下的分页类型:

重要参数说明:

·不分页:选择本项则只采集当前页,不采集列表中其他分页中的信息列表。

·从源代码中获取下一页的URL:若采集的列表分页中有“上一页”“下一页”这样的分页链接,则选择本项以获取“下一页”的链接地址代码。

在动易官方网站公司动态列表页(http://www.powereasy.net/Announce/index.html)的源代码中,找到以下代码:

<a href=“/Announce/List_1.html”>首页</a>
<P> <a href=“/Announce/List_1.html”>上一页</a>
<P> <b><a href=“/Announce/List_1.html”>1</a></b> <a href=“/Announce/List_2.html”>2</a> <a
href=“/Announce/List_3.html”>3</a> <a href=“/Announce/List_4.html”>4</a> <a
href=“/Announce/List_5.html”>5</a> <a href=“/Announce/List_6.html”>6</a> <a
href=“/Announce/List_7.html”>7</a>
<P><a href=“/Announce/List_2.html”>下一页</a>
<P> <a href=“/Announce/List_7.html”>尾页</a>

“下一页”的URL代码是“/news/List/List_2_2.html”,那么我们要得到这个链接地址,则在“下一页”URL开始代码和结束代码内容框中填写为:

“下一页”URL开始代码:“</a>

<a href=“”。

“下一页”URL结束代码:“”>下一页”。

>>下页开始和结束标记:填写下一页开始和结束标记代码。

温馨提示:开始和结束标记区域内所采集到的代码,就是所需要采集的URL地址。若地址是相对路径地址也不用担心,系统能智能分析网站的相对路径,在采集时自动将相对路径地址转换为绝对路径地址,从而获得有效的链接访问地址。填写的代码尽量有唯一性,但因为下一页代码少,所以不可能全部唯一,只要有一处代码为唯一即可。

·批量指定分页URL代码:如果列表分页的链接地址代码差别只是数字,就使用批量指定分页URL代码。

URL地址:填写分页链接的变量地址。如上述列表分页中的链接地址为“/Announce/List_2.html”、 “/Announce/List_3.html”……(即有数字规律),则填写为http: //www.powereasy.net/Announce/List_ {$ID}.html(其中{$ID}代表分页数)。

ID范围:批量指定分页{$ID}的范围,如填写“1”To“7”(从第1个分页开始到第7个分页以升序进行采集)或“7”To“1”(从第7个分页开始到1第个分页以倒序进行采集)。

温馨提示:{$ID}是用以设置列表捕获的相对路径或动态ID。ID范围的灵活度比较大,用以指定采集范围内的列表,如既可以设置为“2”To“5 ”,也可以设置为“6”To“3”等。

·手动添加分页URL代码:如果对方网页分页实在是没有头绪,则可用手工添加方式添加各个分页的URL (一行一个分页URL地址),如:

http://www.powereasy.net/Announce/List_1.html

http://www.powereasy.net/Announce/List_2.html

http://www.powereasy.net/Announce/List_3.html

……

温馨提示:手工分页必须要保存所采集的绝对路径地址而不是相对路径地址。本类型分页设置的效率并不高,为无奈之举(因为无头绪的分页中,列表分页也未必有头绪)。

·从源代码中获取分页URL:若采集的列表分页中只有“1 2 3 4 5 6 7”这样的分页链接地址(即没有“下一页”这样的分页链接),则选择本项以先获取一定的分页区域,然后再采集其中的分页链接地址的代码。如上述代码为:

<a href=“/Announce/List_1.html”>上一页</a>
<P> <b><a href=“/Announce/List_1.html”>1</a></b> <a href=“/Announce/List_2.html”>2</a>
<a href=“/Announce/List_3.html”>3</a> <a href=“/Announce/List_4.html”>4</a> <a
href=“/Announce/List_5.html”>5</a> <a href=“/Announce/List_6.html”>6</a> <a
href=“/Announce/List_7.html”>7</a>
<P><a href=“/Announce/List_2.html”>下一页</a>

则要获取“1 2 3 4 5 6 7”的分页链接地址,则代码填写为:

分页代码开始:“上一页</a>”。

分页代码结束:“下一页</a>”。

分页URL开始代码:“<a href=“”。

分页URL结束代码:“”>”。

单击底部“测试从源代码中获取分页URL”功能按钮,则可看到从源代码中获取分页URL的链接代码。

温馨提示:若在测试时左侧内容框中出现“没有截取到分页URL链接,请加载源代码重新设置下。”的提示,请单击左侧底部“获取源代码”功能按钮重新获取列表的源代码后再进行测试。单击“查看原始网页”可查阅网页的前台效果。

设置好列表页采集的相关选项后,单击页面底部“下一步”按钮,以进入内容页采集的设置界面中。单击“返回采集管理”按钮将保存设置并返回采集项目管理界面。

留言