个人工具
名字空间
变换
操作

李进斌

来自站长百科
跳转到: 导航, 搜索
火车头采集器作者:李进斌

李进斌,网名:火车头,80后非程序员出身;合肥工业大学水利系毕业;后对所学主专业工作感到枯燥转投IT,开发了火车头采集器,并成立了合肥乐维信息技术有限公司,专门运营火车头采集器的发展,另外也是火车头采集官方网站(www.locoy.com)的站长;

目录

成长经历

被采访人:李进斌;

记者:你之前是程序员出身吗?

李进斌:不是。我是学水利的,大学毕业后还从事了一年的水利设计工作,辞职后才转行IT发展的。

记者:原来是这样的。那当时是如何想到转行做 IT的呢?

李进斌:两方面吧,对电脑网络浓厚的兴趣,以及对枯燥的工程设计的反感,最终还是放弃了原来的主专业,不过还好。我在大学学了双专业,辞职前收到了phpcms老大加入团队的邀请。

记者:去phpcms那边工作了吗?

李进斌:恩,我在phpcms做了大半年。 参与开发了phpcms2007里面的很多功能。当然。这期间对我的提高很大。

记者:那火车头采集器是什么时候开始开发的,当初开发这样的软件的想法和初衷是什么,开发过程中有没有遇到什么困难?

李进斌:火车采集器最早开发是在2005年的11 月份。当时工作之余,业余维护着自己的一个小网站,有了和多数站长朋友一样在在网站添加内容及需要频繁数据更新的苦恼,在借鉴了当时dede的采集思想后开始开发的这一款采集器。

火车采集器的发展过程中,初期也遇到过一些小的技术困难,这都在短时间内克服了,而最大的问题是在我辞掉原本很稳定的工作后, 采集器要继续发展是否开发收费的版本的问题上犹豫了很长时间。在此要感谢我们的会员的支持,没有他们我们不可能一直坚持而取得今天的成就。

记者:刚才提到辞掉稳定的工作指的就是phpcms那边吗?

李进斌:不是,原来是在安徽水利厅的设计院工作。离开phpcms主要还是我个人生活方面的一点原因,西安太远,然后女朋友习惯在老家这边。

其实在phpcms的时候就已经发布了免费的火车采集器,前期版本。2007年9月份才开始全职做这个软件。

记者:那phpcms的老大给你过建议吗?

李进斌:当然是有的。我们现在一直都在联系,经常一聊就几个钟头,他和我一样都是技术出身,很有共同语言。

记者:呵呵,你们是老朋友了。现在越来越多的站长在使用火车头做网站,我们知道采集很多时候就意味着内容的重复导致信息泛滥,你怎么看待这个问题,您对主要靠采集软件来更新网站的站长们有什么忠告或建议?

李进斌:首先网站需要持续的更新大家都知道,软件可以做为人手工的辅助工具,帮助我们做一些非常机械性的操作,采集器就是这样的一个软件,可以帮助你实现一个前期数据填充,但作为维护网站内容工具,不应该觉得越自动化的越好。

靠采集软件维护更新网站也没有错,我们现在还 有一批熟练“司机”也是靠软件在搜集资料,关键你应该清楚你的网站需要些什么样的内容,你又采集更新了些什么,应该做到心里有数。

记者:火车头现在的开发和推广团队有多少人? 跟大家介绍下你的团队。

李进斌:前天新搬了一个办公地点,公司规 模又稍微扩大了一点。现在开发主要是4个人,客服和推广6个。还有几个长期活跃在论坛服务的版主。

记者:规模慢慢在发展壮大啊!呵呵!

记者:在这里也跟大家谈谈你们团队的优势以及你们的服务好吗?

李进斌:恩,好的。这里面有我的同学也有从网络认识发展到现实的朋友,都很年轻,为了同样的兴趣在一起拼搏。我们虽然没有 很深的工作背景,但学历都还可以几个是211出来的,干劲足,非常有激情。

除了运营采集器外,也兼在做几款其他的自动采集搜索软件,可以为广大站长提供这些方面的技术服务。

李进斌:自动采集搜索软件主要是指:数据 采集、转移、处理及索引优化。可以为广大站长提供这些方面的技术服务。

记者:你们的盈利模式是什么?

李进斌:商业软件的收入。部分技术服务支持,以及其他一些定制软件的开发。不是太高但足以支撑整个团队,公司成立还不足一 年,公司的发展和新的盈利模式还在探索中。

记者:恩,希望你们探索出给有价值的东西,来更好的服务站长朋友们。最后谈一下你们未来的发展方向。

李进斌:稳住采集方面的地位,继续提高竞争力,努力转型实现为更多的企业提供数据服务。

火车头采集器

李进斌谈采集

我们现在在更新这个采集器,在数据采集方面也积累了一些经验,增加更多功能以适应新形式下的采集

  1. 别人经常采的网站不要去采
  1. 太容易采的网站不要去采
  1. 不要一次性采集太多,一定要注意后期处理(后面详续)
  1. 做好关键词tag的采集分析
  1. 自己网站要有自己的定位,不采与自己网站无关的内容
  1. 采集也要有持续性,经常更新,自动采集功能我们也有,但还是建议大家人工也参与一些审核,或定时,乱序发布

后期处理,要想法子做到让搜索引擎那看不出来两片文章的相同,这里面应该有很多SEO高手,那我不献丑了。我说下我们现在实现的功能,大家可以把这些混用,达到改变内容伪原创

  1. 给标题。内容分词
  1. 使用同义词近义词替换,排除敏感词,不同的标签之间数据融合,指如标题内容之间数据的相互替换
  1. 给文章加上摘要
  1. 为文章标题等生成拼音地址
  1. 采集一些其他编码的网站,我们可以做到简繁体转化,可以采集中文网站翻译成英文(虽然比较垃圾,但应该可以算是原创

我们也发现,高难度采集的网站一般内容质量都非常好,采集其实有时也是一件很有乐趣的事情,需要你学习一些采集相关的知识。

下面讲一些主要的防采集方法。可以说是攻防对战吧。打开一个网页实际就是一个Http请求浏览器百度蜘蛛,小到我们的采集器使用的都是一个原理,模拟http请求,所以我们同样能模拟出浏览器。百度蜘蛛出来所以绝对的防采集根本不存在,只是难度的高低。或者你认为搜索引擎的搜录也无所谓了。你可以用一些非常强大的activex,flash,全图片文字的形式,这个我们无能为力。

普通的防采集方法有

  1. 来源判断
  1. 登录信息判断 Cookie
  1. 请求次数判断。如一段时间内请求多少,非常规操作则封IP
  1. 发送方式判断 POST GET 使用JSAjax等请求内容

举例:

  1. 不用说了,论坛,下载站等。。
  1. 一些大网站,需要配置服务器,单纯靠脚本判断资源消耗比较大
  1. 如一些招聘站,asp.net的分页,Web2.0站的ajax请求内容

当然我们后面还发现一些杀手锏,今天第一次在这里给大家公布出来 有优质内容需要防采集的朋友可以考虑试下

  1. 网页默认deflate压缩输出(gzip容易一点,容易解压) 我们普通的浏览器和baidu支持识别gzip,deflate输出内容
  1. 网页内容不定时 \0 内容自动截断,这两点基本可以防主大部分主流软件采集及web采集程序了~

今天主要想要表达的一点,大家在做站时一定要注意技术的提高,比如我们里面有后期外部php.net接口处理采集数据。或者干脆你自己做一个发布时的接口程序自己入库。我们伪原创做得再好,一样有非常多的会员使用,那样又不原创了,采集一样需要技术,只有你通过采集器获得了没有多少人有的数据,你才是唯一了。


相关条目


参考来源

留言