火车采集器/POST方式获得网址

来自站长百科
跳转至: 导航、​ 搜索

火车采集器 | 安装 | 主程序 | 子程序 | 应用拓展 | 模块开发 | FAQ

2009版本起,火车采集器加强了post采集网址的功能,可以提交自定义的数据并获得想要的结果。比如使用搜索,查询一个关键字,返回一些结果。再采集返回的这些内容网址,再去采它。

Locoy PostURL1.jpg

以程序自带的51job的网址采集说明一下这个功能的使用.在获取相关职位时,是设定好搜索,然后再提交,就可以获得需要的内容了.现在,在提交时用抓包工具抓取一下程序提交的数据,发布是向这个网页提交了数据.

Locoy PostURL2.jpg

这时,需要设置提交的网址为如图设置,采集深度为1,然后在填写提交的数据.可以发现,第一次提交的数据是这样的.

Locoy PostURL3.jpg

第二页的最后一项是2,这样的话,就只需要在提交时更改最后一个参数就可以获得网址了.填写时指定页数的范围就可以了.

一个功能有时会用到的.看上图那个大图的右下角,有一个随机值的获取.

这个功能是用来处理这样的页面,比如post了一个参数给一个页面,获得一个网址列表页,然后获得第二页时需将第一个列表页上的一些值传过去,这个随机值就是用来获得上一个页面的一些参数的.下边举个例子.看图.

Locoy PostURL4.jpg

测试了几页,看结果.

Locoy PostURL5.jpg


参考来源[ ]

火车采集器使用手册导航

安装

系统安装

主程序

主程序|主菜单|命令行启动|随机文件夹保存数据|正则匹配模式采集数据|采集记录筛选|代理服务器采集数据|POST方式获得网址|拓展插件|分页采集|多页采集|数据导出|多任务多线程|手动链接格式设置|循环匹配采集|网站登陆采集|列表缩略图及标签采集|html标签排除|全局词语替换|首图缩略|FTP文件上传|附件上传|本地数据编辑|下载导出|图片下载|Flash文件下载|任意格式文件下载|采集数据导入数据库|任务定时自动更新|任务运行日志|自动中文分词|自动摘要和拼音|前后截取模式|采集任务新建

子程序

源代码获取与模拟|Web在线发布模块编辑器|Web在线发布配置管理|数据库发布模块编辑器|数据库发布配置管理|工具箱|编程插件管理|翻译测试|中文分词测试|自动运行管理器 任务队列管理器|自动升级程序

应用拓展

数据库发布模块编辑器制作|外部编程插件开发

模块开发

DedeCMS文章模块|PHPWind论坛模块|Discuz论坛模块

FAQ

使用前常见问题|编辑任务中常见问题|发布失败常见问题|使用中常见问题|VIP版本常见问题