个人工具
名字空间
变换
操作

火车头

来自站长百科
跳转到: 导航, 搜索
Locoy logo.jpg

火车采集器(LocoySpider)由合肥工业大学毕业生,李进斌开发,是一个功能强大的数据采集软件.使用它,可以很容易的从网页上抓取文字,图片,文件等资源.程序支持远程下载图片文件,支持网站登陆后信息采集,支持探测文件真实地址,支持代理,支持防盗链的采集,支持采集数据直接入库和模仿人手工发布等.同时,软件具有极高的稳定性,可以多线程,多任务的工作,可以用它进行大批量数据的更新.程序还支持多页和分页的采集,再难的数据格式也可以找到解决方案.

目录

系统概况

系统特征

  • 规则自定义

通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。

  • 多任务,多线程

可以同时进行多个信息采集任务,每个任务可以使用多个线程。

  • 所见即所得

任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等都会及时的反映在软件界面中。

  • 数据保存

数据边采集边自动保存到关系数据库中,并且数据结构能够自动适应,软件可以根据采集规则自动创建数据库,以及其中的表和字段,也可以通过导库方式灵活的将数据保存到客户已有的数据库结构中。

  • 断点续采

信息采集任务可以在停止后从断点开始继续采集,从此用不再担心采集任务意外中断了。

  • 网站登录

支持网站Cookie,支持网站可视化登录,即使登录时需要验证码的网站也能采集。

  • 计划任务

通过这个功能可以让的采集任务定时、定量或者一直循环执行。

  • 采集范围限制

可以根据采集的深度和网址的标识来限制采集的范围。

  • 文件下载

可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地磁盘或者采集结果数据库中。

  • 结果替换

可以将采集的结果根据规则替换成你定义的内容。

  • 条件保存

可以根据某个条件来决定那些信息保存,那些信息过滤。

  • 过滤重复内容

软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。

  • 特殊链接识别

运用此功能可以将用JavaScript动态生成的链接或其他更古怪的连接识别出来。

  • 数据发布

可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。

  • 预留编程接口

定义多个编程接口,用户可以在事件中利用PHP,C#语言进行编程,扩充采集功能。


使用手册

安装

主程序

子程序

应用拓展

模块开发

FAQ

相关条目

参考来源

留言