火车采集器/编辑任务中常见问题

来自站长百科
跳转至: 导航、​ 搜索

火车采集器 | 安装 | 主程序 | 子程序 | 应用拓展 | 模块开发 | FAQ

  • 标题前面大量空白,应该如何去除

答:程序里有html过滤选项,可以选中过滤这些空白字符Locoy BZRWFaq1.jpg ,如果有些空白字符不在html过虑里,可以在过滤选项里添加那些字符。

  • 同一个页面,很多相同内容,怎么分做为多条记录保存?

答:程序有循环匹配的功能,在选中循环后,再选下边的添加为新记录就可以了。

Locoy BZRWFaq2.jpg
Locoy BZRWFaq3.jpg
  • 如何把采集内容页的网址也采集下来 ?

答:程序默认是将采集页的网址保存在数据库里,在模块或模板里可以使用[采集页地址] 这个标签来将它发布或显示出去。

  • 内容页上有个链接,如何把这个链接页面上的内容采过来?

答:可以使用多页采集,Locoy BZRWFaq4.jpg

  • 采集要登陆的网站怎么办?

答:在采集网址那一块,可以选择是默认获取cookie或者是手动获取登陆信息。获取到正确的cookie后,就可以了.

Locoy BZRWFaq5.jpg
  • 采集时出现乱码,怎么办?

答:程序默认是自动识别网页编码。如果有些网页编码识别出错,请在文件保存及部分高级设置那里手动指定编码。


  • 采集网页源码中需要的内容结尾不固定怎么办?网站有多个风格怎么办?

答:这种情况下,使用正则表达式就可以很好的解决问题。 Locoy BZRWFaq6.jpg这个适于有相关经验的朋友。具体是在编辑规则时,编辑标签那里,选"使用正则匹配内容“。

  • 如何过滤空格或回车等字符?

答:在任务的标签编辑里,在过滤那里,敲个回车进去程序会过滤掉回车符Locoy BZRWFaq7.jpg,敲个空格进去会过滤空格,以此类推。


  • 采集器.是先排除,还是先替换啊?

答:先排除再替换。

  • 为什么不能下载文件或论坛附件?

答:因为这功能在个人版以上才有,免费版只能下载图片和flash.

  • 循环采集时,分页内容合并链接代码不起作用了?

答:这个是程序特意设计的,因为循环时,一定是用间隔符连接的,比如采论坛回复时需要使用循环,一个主题下主题及所有的回复和是应放在一块的。

  • 对于网址深度多于2级的怎么办?

答:火车采集器网址导出导入的功能,Locoy BZRWFaq8.jpg可以用这个实现无限级的网址采集。在测试网址那一块,Locoy BZRWFaq9.jpg选测试网址,然后就可以导出二级或二级网址

  • 采集器里哪里支持正则表达式?

答:一是规则制作那块,使用content来存储获得的内容如(?<content>\d+),这个是获取数字的。二是多页那块网址替换那里,是用$1,$2这样的形式来在下边引用。


参考来源[ ]

火车采集器使用手册导航

安装

系统安装

主程序

主程序|主菜单|命令行启动|随机文件夹保存数据|正则匹配模式采集数据|采集记录筛选|代理服务器采集数据|POST方式获得网址|拓展插件|分页采集|多页采集|数据导出|多任务多线程|手动链接格式设置|循环匹配采集|网站登陆采集|列表缩略图及标签采集|html标签排除|全局词语替换|首图缩略|FTP文件上传|附件上传|本地数据编辑|下载导出|图片下载|Flash文件下载|任意格式文件下载|采集数据导入数据库|任务定时自动更新|任务运行日志|自动中文分词|自动摘要和拼音|前后截取模式|采集任务新建

子程序

源代码获取与模拟|Web在线发布模块编辑器|Web在线发布配置管理|数据库发布模块编辑器|数据库发布配置管理|工具箱|编程插件管理|翻译测试|中文分词测试|自动运行管理器 任务队列管理器|自动升级程序

应用拓展

数据库发布模块编辑器制作|外部编程插件开发

模块开发

DedeCMS文章模块|PHPWind论坛模块|Discuz论坛模块

FAQ

使用前常见问题|编辑任务中常见问题|发布失败常见问题|使用中常见问题|VIP版本常见问题