PHP168: 列表页如何设置有规则的多页:修订间差异

来自站长百科
跳转至: 导航、​ 搜索
无编辑摘要
无编辑摘要
 
第1行: 第1行:
<span style="text-align:center; border:1px solid #000; float:right; padding:6px;"><strong>导航: </strong>  [[PHP168:数据采集指南|上一级]] | [[PHP168]] | {{Template:php168导航}}</span>
<span style="text-align:center; border:1px solid #000; float:right; padding:6px;"><strong>导航: </strong>  [[PHP168:数据采集指南|上一级]] | [[PHP168]] | {{Template:php168导航}}</span>
<div style="clear:both;"></div>
<div style="clear:both;"></div>
要采集一个网站.他的列表页有很多页.  
要[[采集]]一个[[网站]].他的列表页有很多页.  
一般来说.如果你不是太懂的话.就一页一页的把网址复制下来.  
一般来说.如果你不是太懂的话.就一页一页的把[[网址]][[复制]]下来.  


手工输入多页 有规则的连续多页  
手工输入多页 有规则的连续多页  
第56行: 第56行:
能访问,此时就在右边输入没规则的第一页
能访问,此时就在右边输入没规则的第一页


一般来说动态页.ASP PHP动态是有规则的.就不需要设置.一般只是静态页HTML页才需要设置.
一般来说动态页.[[ASP]] [[PHP]]动态是有规则的.就不需要设置.一般只是静态页[[HTML]]页才需要设置.


对于第二项表单而言
对于第二项表单而言
第70行: 第70行:
'''<nowiki>http://php168.com/1/list.php?fid=1&p=20</nowiki>'''<br>
'''<nowiki>http://php168.com/1/list.php?fid=1&p=20</nowiki>'''<br>
'''<nowiki>http://php168.com/1/list.php?fid=1&p=30</nowiki>'''
'''<nowiki>http://php168.com/1/list.php?fid=1&p=30</nowiki>'''
[[Category:PHP168数据采集]]

2009年1月9日 (五) 17:10的最新版本

导航: 上一级 | PHP168 | 首页 | DedeCMS | 帝国CMS | Drupal | PHPCMS | Xoops | Joomla | PowerEasy | SupeSite

采集一个网站.他的列表页有很多页. 一般来说.如果你不是太懂的话.就一页一页的把网址复制下来.

手工输入多页 有规则的连续多页

系统默认的是手工输入多页.

一般来说.被采集的网站.每个列表页都是有规律的.即是有一个变动的页码数字.

方便起见的话.我们选择有规则的连缓多页.输入他的规则.

讲解如下;

Php168 22.jpg

对于图中的第一项表单,

(请复制两个不同的列表页网址进行对比,查找变动那个数值即页码用[page]代替)比如:
http://php168.com/1/list.php?fid=1&p=2
http://php168.com/1/list.php?fid=1&p=3
那右边应该填入
http://php168.com/1/list.php?fid=1&p=[page]
对于带有?号的网址,一般情况第一页不会显示

http://php168.com/1/list.php?fid=1&p=1而是

http://php168.com/1/list.php?fid=1

所以大家最好从第二页开始分析,第一页有时看不出变化规则

又比如:
http://php168.com/1/list_1.htm
http://php168.com/1/list_2.htm
http://php168.com/1/list_3.htm
那右边应该填入
http://php168.com/1/list_[page].htm
注意:如果第一页不是这样

http://php168.com/1/list_1.htm

而是

http://php168.com/1/index[/color].htm

的话,这种情况第一页属于没规则,就需要在第三项的表单输入框,输入这个第一页的网址.这种情况也是比较常见的.

对于第三项表单而言

如果第一页没规则,比如第一页不是这个页,即不能访问

http://php168.com/1/list_[color=#ff0000]1.htm

http://php168.com/1/list.htm

能访问,此时就在右边输入没规则的第一页

一般来说动态页.ASP PHP动态是有规则的.就不需要设置.一般只是静态页HTML页才需要设置.

对于第二项表单而言

你可以设置指定采集第几页到第几页.必须要设置一个开始与结尾的页码,一般开始页是1,结尾页的话,就需要你去查看一下被采集的网站的文章列表共有几页,就输入那个数值.

而梯度,一般填1,即如以下格式
http://php168.com/1/list.php?fid=1&p=1
http://php168.com/1/list.php?fid=1&p=2
http://php168.com/1/list.php?fid=1&p=3
如果填10的话,将如以下格式
http://php168.com/1/list.php?fid=1&p=10
http://php168.com/1/list.php?fid=1&p=20
http://php168.com/1/list.php?fid=1&p=30