站长百科 | 数字化技能提升教程 数字化时代生存宝典
首页
数字化百科
电子书
▼
建站程序
开发
服务器
办公软件
开发教程
▼
服务器教程
软件使用教程
运营教程
热门电子书
▼
CSS教程
WordPress教程
导航
程序频道
推广频道
网赚频道
人物频道
网站程序
网页制作
云计算
服务器
CMS
论坛
网店
虚拟主机
cPanel
网址导航
WIKI使用导航
WIKI首页
热点词条
最新资讯
网站程序
站长人物
页面分类
使用帮助
编辑测试
创建条目
网站地图
站长百科导航
站长百科
主机侦探
IDCtalk云说
跨境电商导航
WordPress啦
站长专题
网站推广
网站程序
网站赚钱
虚拟主机
cPanel
网址导航专题
云计算
微博营销
虚拟主机管理系统
开放平台
WIKI程序与应用
美国十大主机
编辑“
SiteFactoryCMS:第二步列表页采集设置
”
人物百科
|
营销百科
|
网赚百科
|
站长工具
|
网站程序
|
域名主机
|
互联网公司
|
分类索引
跳转至:
导航
、
搜索
警告:
您没有登录。如果您做出任意编辑,您的IP地址将会公开可见。如果您
登录
或
创建
一个账户,您的编辑将归属于您的用户名,且将享受其他好处。
反垃圾检查。
不要
加入这个!
<span style="text-align:center; border:1px solid #000; float:right; padding:6px;"><strong>导航:</strong> [[SiteFactoryCMS:采集管理|上一页]] | {{Template:PowerEasy导航}}</span> <div style="clear:both;"></div> <p style="text-indent:2em;">[[采集]]功能重要是用以批量采集的方法获取目标[[网站]]中的列表信息,在列表页采集设置的步骤中将对采集网站列表页获取列表区域代码和设置分页选项。</p> <div style="width:750px; border:1px solid #000;"> [[{{ns:image}}:sf542.jpg]]</div> <p style="text-indent:2em;">在出现的界面中,左侧默认显示所需采集目标列表页的源代码,右侧以书签式面板显示列表设置和分页设置选项。</p> '''重要参数说明:''' <p style="text-indent:2em;">1.在“列表设置”书签式面板中,设置所需采集列表代码的区域。</p> <p style="text-indent:2em;">·列表开始代码和列表结束代码:填写采集目标源码框中显示的采集列表代码的开始和结束的代码。</p> <p style="text-indent:2em;">在动易官方网站公司动态列表页(<nowiki>http://www.powereasy.net/Announce/index.html</nowiki>)的源代码中,找到以下代码:</p> <pre style="width:680px; border:1px solid #999; background:white;"> <div class=“c_main_box”> <div class=“childclass_title”><span class=“childclass_pic”></span>公司动态</div> <div class=“childclass_content”> <ul> >> <a href=“/Announce/5527.html”> 动易短信通2.0Beta正式发布!独立短信通号码震撼上市! </a> [日期:2008-02-01]<br> …… </ul> <div class=“clearbox”></div> </div> <B> </B> <div class=“childclass_bot”></div> </div> </div> </pre> <p style="text-indent:2em;">上述源代码中,从“<nowiki><div class=“childclass_content”></nowiki>”至“<nowiki><div class=“clearbox”></div></div></nowiki>”为所需要采集的列表代码。因此,在“列表开始代码”内容框中填写“<nowiki><div class=“childclass_content”></nowiki>”前面的代码,在“列表结束代码”内容框中填写“<nowiki><div class=“clearbox”></div></div></nowiki>”后面的代码,从而让系统能找到这个区域内所需要采集的列表代码:</p> <p style="text-indent:2em;">列表开始代码填写:“ <nowiki><div class=“childclass_title”><span class=“childclass_pic”></span>公司动态</div></nowiki>”。</p> <p style="text-indent:2em;">列表结束代码填写:“ <nowiki><div class=“childclass_bot”></div></nowiki>”。</p> <p style="text-indent:2em;">填写后,可以单击底部的“测试列表”功能按钮,左侧内容框中将显示所需要采集的列表代码。</p> <p style="text-indent:2em;">温馨提示:填写的开始代码或结束代码至少有一个在网页中是唯一的,才能保证可以正确采集到相关内容。因为每个列表页的代码都可能不同,所以需要您分析多个列表页并找到相同的开始代码和结束代码,才能保证可以从所有列表页中准确采集到所需内容。</p> <p style="text-indent:2em;">·链接开始代码和链接结束代码:填写所需要获取链接地址的开始和结束的代码区域(链接地址就要获得标题的[[URL]]链接,注意是要获得到信息内容页的Url链接)。</p> <p style="text-indent:2em;">在采集的列表代码中,信息标题的代码为: <pre style="width:500px; border:1px solid #999; background:white;"> <a href=“/Announce/5527.html”> 动易短信通2.0Beta正式发布!独立短信通号码震撼上市! </a> </pre> <p style="text-indent:2em;">上述源代码中,“/Announce/5527.html”为所需要获取的链接地址,则“<nowiki><a href=“”</nowiki>和“”>”为开始和结束的代码区域。因此,链接开始和结束代码填写的信息为:</p> <p style="text-indent:2em;">链接开始代码填写:<nowiki>“<a href=”</nowiki></p> <p style="text-indent:2em;">链接结束代码填写:“”>”</p> <p style="text-indent:2em;">在这里,如何获得有效的链接是关键,让系统能找到这个区域内所需要采集的链接地址。填写后,可以单击底部的“测试链接”功能按钮,左侧内容框中将显示列表页中所需要采集的链接地址。</p> <p style="text-indent:2em;">温馨提示:测试采集链接地址前,请先单击“测试列表”功能按钮获得列表页代码,再单击“测试链 接”功能按钮以测试所需采集的链接效果。</p> <p style="text-indent:2em;">2. 如果采集的列表页中存在分页(如列表页的信息列表下方有“首页 上一页 1 2 3 4 5 6 7 下一页 尾页”等方式的分页),则需要进一步设置列表分页。单击“设置分页”书签式面板,在出现的界面中可选择以下的分页类型:</p> '''重要参数说明:''' <p style="text-indent:2em;">·不分页:选择本项则只采集当前页,不采集列表中其他分页中的信息列表。</p> <p style="text-indent:2em;">·从源代码中获取下一页的URL:若采集的列表分页中有“上一页”“下一页”这样的分页链接,则选择本项以获取“下一页”的链接地址代码。</p> <p style="text-indent:2em;">在动易官方网站公司动态列表页(<nowiki>http://www.powereasy.net/Announce/index.html</nowiki>)的源代码中,找到以下代码:</p> <pre style="width:780px; background:white; border:1px solid #999;"> <a href=“/Announce/List_1.html”>首页</a> <P> <a href=“/Announce/List_1.html”>上一页</a> <P> <b><a href=“/Announce/List_1.html”>1</a></b> <a href=“/Announce/List_2.html”>2</a> <a href=“/Announce/List_3.html”>3</a> <a href=“/Announce/List_4.html”>4</a> <a href=“/Announce/List_5.html”>5</a> <a href=“/Announce/List_6.html”>6</a> <a href=“/Announce/List_7.html”>7</a> <P><a href=“/Announce/List_2.html”>下一页</a> <P> <a href=“/Announce/List_7.html”>尾页</a> </pre> <p style="text-indent:2em;">“下一页”的URL代码是“/news/List/List_2_2.html”,那么我们要得到这个链接地址,则在“下一页”URL开始代码和结束代码内容框中填写为:</p> <p style="text-indent:2em;">“下一页”URL开始代码:“<nowiki></a></nowiki></p> <p style="text-indent:2em;"><nowiki><a href=“”</nowiki>。</p> <p style="text-indent:2em;">“下一页”URL结束代码:“”>下一页”。</p> <p style="text-indent:2em;">>>下页开始和结束标记:填写下一页开始和结束标记代码。</p> <p style="text-indent:2em;">温馨提示:开始和结束标记区域内所采集到的代码,就是所需要采集的URL地址。若地址是相对路径地址也不用担心,系统能智能分析网站的相对路径,在采集时自动将相对路径地址转换为绝对路径地址,从而获得有效的链接访问地址。填写的代码尽量有唯一性,但因为下一页代码少,所以不可能全部唯一,只要有一处代码为唯一即可。</p> <p style="text-indent:2em;">·批量指定分页URL代码:如果列表分页的链接地址代码差别只是数字,就使用批量指定分页URL代码。</p> <p style="text-indent:2em;">URL地址:填写分页链接的变量地址。如上述列表分页中的链接地址为“/Announce/List_2.html”、 “/Announce/List_3.html”……(即有数字规律),则填写为<nowiki>http: //www.powereasy.net/Announce/List_ {$ID}.html</nowiki>(其中{$ID}代表分页数)。</p> <p style="text-indent:2em;">ID范围:批量指定分页{$ID}的范围,如填写“1”To“7”(从第1个分页开始到第7个分页以升序进行采集)或“7”To“1”(从第7个分页开始到1第个分页以倒序进行采集)。</p> <p style="text-indent:2em;">温馨提示:{$ID}是用以设置列表捕获的相对路径或动态ID。ID范围的灵活度比较大,用以指定采集范围内的列表,如既可以设置为“2”To“5 ”,也可以设置为“6”To“3”等。</p> <p style="text-indent:2em;">·手动添加分页URL代码:如果对方[[网页]]分页实在是没有头绪,则可用手工添加方式添加各个分页的URL (一行一个分页URL地址),如:</p> <pre style="width:458px; border:1px solid #999; background:white;"> http://www.powereasy.net/Announce/List_1.html http://www.powereasy.net/Announce/List_2.html http://www.powereasy.net/Announce/List_3.html …… </pre> <p style="text-indent:2em;">温馨提示:手工分页必须要保存所采集的绝对路径地址而不是相对路径地址。本类型分页设置的效率并不高,为无奈之举(因为无头绪的分页中,列表分页也未必有头绪)。</p> <p style="text-indent:2em;">·从源代码中获取分页URL:若采集的列表分页中只有“1 2 3 4 5 6 7”这样的分页链接地址(即没有“下一页”这样的分页链接),则选择本项以先获取一定的分页区域,然后再采集其中的分页链接地址的代码。如上述代码为:</p> <pre style="width:758px; border:1px solid #999; background:white;"> <a href=“/Announce/List_1.html”>上一页</a> <P> <b><a href=“/Announce/List_1.html”>1</a></b> <a href=“/Announce/List_2.html”>2</a> <a href=“/Announce/List_3.html”>3</a> <a href=“/Announce/List_4.html”>4</a> <a href=“/Announce/List_5.html”>5</a> <a href=“/Announce/List_6.html”>6</a> <a href=“/Announce/List_7.html”>7</a> <P><a href=“/Announce/List_2.html”>下一页</a> </pre> <p style="text-indent:2em;">则要获取“1 2 3 4 5 6 7”的分页链接地址,则代码填写为:</p> <p style="text-indent:2em;">分页代码开始:“<nowiki>上一页</a></nowiki>”。</p> <p style="text-indent:2em;">分页代码结束:“<nowiki>下一页</a></nowiki>”。</p> <p style="text-indent:2em;">分页URL开始代码:“<nowiki><a href=“”</nowiki>。</p> <p style="text-indent:2em;">分页URL结束代码:“”>”。</p> <p style="text-indent:2em;">单击底部“测试从源代码中获取分页URL”功能按钮,则可看到从源代码中获取分页URL的链接代码。</p> <p style="text-indent:2em;">温馨提示:若在测试时左侧内容框中出现“没有截取到分页URL链接,请加载源代码重新设置下。”的提示,请单击左侧底部“获取源代码”功能按钮重新获取列表的源代码后再进行测试。单击“查看原始网页”可查阅网页的前台效果。</p> <p style="text-indent:2em;">设置好列表页采集的相关选项后,单击页面底部“下一步”按钮,以进入内容页采集的设置界面中。单击“返回采集管理”按钮将保存设置并返回采集项目管理界面。</p> [[category:SiteFactoryCMS采集管理]]
摘要:
请注意,您对站长百科的所有贡献都可能被其他贡献者编辑,修改或删除。如果您不希望您的文字被任意修改和再散布,请不要提交。
您同时也要向我们保证您所提交的内容是您自己所作,或得自一个不受版权保护或相似自由的来源(参阅
Wordpress-mediawiki:版权
的细节)。
未经许可,请勿提交受版权保护的作品!
取消
编辑帮助
(在新窗口中打开)
本页使用的模板:
模板:PowerEasy导航
(
查看源代码
)(受保护)