火车头:修订间差异
Spider.flynn(讨论 | 贡献) (→主程序) |
无编辑摘要 |
||
(未显示1个用户的44个中间版本) | |||
第1行: | 第1行: | ||
[[Image:locoy_logo.jpg|right | [[Image:locoy_logo.jpg|right|196px|]] | ||
'''火车采集器'''(LocoySpider)由合肥工业大学毕业生,李进斌开发,是一个功能强大的数据采集[[软件]].使用它,可以很容易的从[[网页]]上抓取文字,图片,文件等资源.[[程序]]支持远程[[下载]]图片文件,支持[[网站]]登陆后信息采集,支持探测文件真实地址,支持[[代理]],支持[[防盗链]]的采集,支持采集数据直接入库和模仿人手工发布等.同时,软件具有极高的稳定性,可以多线程,多任务的工作,可以用它进行大批量数据的更新.程序还支持多页和分页的采集,再难的数据格式也可以找到解决方案. | '''火车采集器'''(LocoySpider)由合肥工业大学毕业生,李进斌开发,是一个功能强大的数据采集[[软件]].使用它,可以很容易的从[[网页]]上抓取文字,图片,文件等资源.[[程序]]支持远程[[下载]]图片文件,支持[[网站]]登陆后信息采集,支持探测文件真实地址,支持[[代理]],支持[[防盗链]]的采集,支持采集数据直接入库和模仿人手工发布等.同时,软件具有极高的稳定性,可以多线程,多任务的工作,可以用它进行大批量数据的更新.程序还支持多页和分页的采集,再难的数据格式也可以找到解决方案. | ||
第60行: | 第60行: | ||
*[[火车采集器/手动链接格式设置|手动链接格式设置]] | *[[火车采集器/手动链接格式设置|手动链接格式设置]] | ||
*[[火车采集器/循环匹配采集|循环匹配采集]] | *[[火车采集器/循环匹配采集|循环匹配采集]] | ||
*[[火车采集器/网站登陆采集|网站登陆采集]] | |||
*[[火车采集器/列表缩略图及标签采集|列表缩略图及标签采集]] | |||
*[[火车采集器/html标签排除|html标签排除]] | |||
*[[火车采集器/全局词语替换|全局词语替换]] | |||
*[[火车采集器/首图缩略|首图缩略]] | |||
*[[火车采集器/FTP文件上传|FTP文件上传]] | |||
*[[火车采集器/附件上传|附件上传]] | |||
*[[火车采集器/本地数据编辑|本地数据编辑]] | |||
*[[火车采集器/下载导出|下载导出]] | |||
*[[火车采集器/图片下载|图片下载]] | |||
*[[火车采集器/Flash文件下载|Flash文件下载]] | |||
*[[火车采集器/任意格式文件下载|任意格式文件下载]] | |||
*[[火车采集器/采集数据导入数据库|采集数据导入数据库]] | |||
*[[火车采集器/任务定时自动更新|任务定时自动更新]] | |||
*[[火车采集器/任务运行日志|任务运行日志]] | |||
*[[火车采集器/自动中文分词|自动中文分词]] | |||
*[[火车采集器/自动摘要和拼音|自动摘要和拼音]] | |||
*[[火车采集器/前后截取模式|前后截取模式]] | |||
*[[火车采集器/采集任务新建|采集任务新建]] | |||
</div> | |||
===[[火车采集器/子程序|子程序]]=== | |||
<div style="-moz-column-count:3;column-count:3;" class="sclist"> | |||
*[[火车采集器/源代码获取与模拟|源代码获取与模拟]] | |||
*[[火车采集器/Web在线发布模块编辑器|Web在线发布模块编辑器]] | |||
*[[火车采集器/Web在线发布配置管理|Web在线发布配置管理]] | |||
*[[火车采集器/数据库发布模块编辑器|数据库发布模块编辑器]] | |||
*[[火车采集器/数据库发布配置管理|数据库发布配置管理]] | |||
*[[火车采集器/工具箱|工具箱]] | |||
*[[火车采集器/编程插件管理|编程插件管理]] | |||
*[[火车采集器/翻译测试|翻译测试]] | |||
*[[火车采集器/中文分词测试|中文分词测试]] | |||
*[[火车采集器/自动运行管理器|自动运行管理器]] | |||
*[[火车采集器/任务队列管理器|任务队列管理器]] | |||
*[[火车采集器/自动升级程序|自动升级程序]] | |||
</div> | |||
===[[火车采集器/应用拓展|应用拓展]]=== | |||
<div style="-moz-column-count:3;column-count:3;" class="sclist"> | |||
*[[火车采集器/数据库发布模块编辑器制作|数据库发布模块编辑器制作]] | |||
*[[火车采集器/外部编程插件开发|外部编程插件开发]] | |||
</div> | |||
===[[火车采集器/模块开发|模块开发]]=== | |||
<div style="-moz-column-count:3;column-count:3;" class="sclist"> | |||
*[[火车采集器/DedeCMS文章模块|DedeCMS文章模块]] | |||
*[[火车采集器/PHPWind论坛模块|PHPWind论坛模块]] | |||
*[[火车采集器/Discuz论坛模块|Discuz论坛模块]] | |||
</div> | |||
===[[火车采集器/FAQ|FAQ]]=== | |||
<div style="-moz-column-count:3;column-count:3;" class="sclist"> | |||
*[[火车采集器/使用前常见问题|使用前常见问题]] | |||
*[[火车采集器/编辑任务中常见问题|编辑任务中常见问题]] | |||
*[[火车采集器/发布失败常见问题|发布失败常见问题]] | |||
*[[火车采集器/使用中常见问题|使用中常见问题]] | |||
*[[火车采集器/VIP版本常见问题|VIP版本常见问题]] | |||
</div> | </div> |
2011年11月29日 (二) 17:28的最新版本
火车采集器(LocoySpider)由合肥工业大学毕业生,李进斌开发,是一个功能强大的数据采集软件.使用它,可以很容易的从网页上抓取文字,图片,文件等资源.程序支持远程下载图片文件,支持网站登陆后信息采集,支持探测文件真实地址,支持代理,支持防盗链的采集,支持采集数据直接入库和模仿人手工发布等.同时,软件具有极高的稳定性,可以多线程,多任务的工作,可以用它进行大批量数据的更新.程序还支持多页和分页的采集,再难的数据格式也可以找到解决方案.
系统概况[ ]
- 官方地址:http://www.locoy.com/
- 软件类型:商业软件
- 开发环境:.Net/Access/MySQL/MSSQL/Oracle
- 下载地址:下载地址1
系统特征[ ]
- 规则自定义
通过采集规则的定义,可以搜索所有网站采集几乎任何类型的信息。
- 多任务,多线程
可以同时进行多个信息采集任务,每个任务可以使用多个线程。
- 所见即所得
任务采集过程所见即所得,过程中遍历的链接信息、采集信息、错误信息等都会及时的反映在软件界面中。
- 数据保存
数据边采集边自动保存到关系数据库中,并且数据结构能够自动适应,软件可以根据采集规则自动创建数据库,以及其中的表和字段,也可以通过导库方式灵活的将数据保存到客户已有的数据库结构中。
- 断点续采
信息采集任务可以在停止后从断点开始继续采集,从此用不再担心采集任务意外中断了。
- 网站登录
支持网站Cookie,支持网站可视化登录,即使登录时需要验证码的网站也能采集。
- 计划任务
通过这个功能可以让的采集任务定时、定量或者一直循环执行。
- 采集范围限制
可以根据采集的深度和网址的标识来限制采集的范围。
- 文件下载
可以将采集到的二进制文件(诸如:图片、音乐、软件、文档等等)下载到本地磁盘或者采集结果数据库中。
- 结果替换
可以将采集的结果根据规则替换成你定义的内容。
- 条件保存
可以根据某个条件来决定那些信息保存,那些信息过滤。
- 过滤重复内容
软件可根据用户设置和实际情况对重复内容和重复网址自动删除重复内容。
- 特殊链接识别
运用此功能可以将用JavaScript动态生成的链接或其他更古怪的连接识别出来。
- 数据发布
可以通过自定义接口,将已采集的结果数据发布到任意的内容管理系统和指定数据库中。现在已支持的目标发布媒体包括:数据库(access, sql server,my sql,oracle) ,静态htm文件。
- 预留编程接口
定义多个编程接口,用户可以在事件中利用PHP,C#语言进行编程,扩充采集功能。