本次采访站长是火车头采集器网站 (http://www.locoy.com/)站长李进斌。
     
      采访人:一滴水

被采访人:李进斌

火车头采集器站长李进斌(门户通网站配图)

     
      站长介绍: 相信大家对火车头采集器非常的熟悉,它的发开者就是李进斌,一个80后年轻小伙子,网名火车头。

一滴水: 你之前是程序员出身吗?
     
      李进斌: 不是。我是学水利的,大学毕业后还从事了一年的水利设计工作,辞职后才转行IT发展的。
     
      一滴水: 原来是这样的。那当时是如何想到转行做 IT的呢?
     
      李进斌: 两方面吧,对电脑及网络浓厚的兴 趣,以及对枯燥的工程设计的反感,最终还是放弃了原来的主专业,不过还好。我在大学学了双专业,辞职前收到了phpcms老大加入团队的邀请。
     
      一滴水: 去phpcms那边工作了吗?
     
      李进斌: 恩,我在phpcms做了大半年。 参 与开发了phpcms2007里面的很多功能。当然。这期间对我的提高很大。
     
      一滴水: 那火车头采集器是什么时候开始开发的,当初开发这样的软件的想法和初衷是什么,开发过程中有没有遇到什么困难?
     
      李进斌: 火车采集器最早开发是在05年的11 月份。当时工作之余,业余维护着自己的一个小网站,有了和多数站长朋友一样在在网站添加内容及需要频繁数据更新的苦恼,在借鉴了当时dede的采集思想后开始开发的这一款采集器。
     
      火车采集器的发展过程中,初期也遇到过一些小的技术困难,这都在短时间内克服了,而最大的问题是在我辞掉原本很稳定的工作后, 采集器要继续发展是否开发收费的版本的问题上犹豫了很长时间。在此要感谢我们的会员的支持,
      没有他们我们不可能一直坚持而取得今天的成就。 
     
      一滴水: 刚才提到辞掉稳定的工作指的就是phpcms那边吗?
     
      李进斌: 不是,原来是在安徽水利厅的设计院工作。离开phpcms主要还是我个人生活方面的一点原因,西安太远,然后女朋友习惯在老家这边。
     
      其实在phpcms的时候就已经发布了免费的火车采集器,前期版本。2007年9月份才开始全职做这个软件。
     
      一滴水: 那phpcms的老大给你过建议吗?
     
      李进斌: 当然是有的。我们现在一直都在联系,经常一聊就几个钟头,他和我一样都是技术出身,很有共同语言。 
     
      一滴水: 呵呵,你们是老朋友了。现在越来越多的站长在使用火车头做网站,我们知道采集很多时候就意味着内容的重复导致信息泛滥,你怎么看待这个问题,您对主要靠采集软件来更新网站的站长们有什么忠告或建议?
     
      李进斌: 首先网站需要持续的更新大家都知道,软件可以做为人手工的辅助工具,帮助我们做一些非常机械性的操作,采集器就是这样的一个软件,可以帮助你实现一个前期数据填充,但作为维护网站内容工具,不应该觉得越自动化的越好。
     
      靠采集软件维护更新网站也没有错,我们现在还 有一批熟练“司机”也是靠软件在搜集资料,关键你应该清楚你的网站需要些什么样的内容,你又采集更新了些什么,应该做到心里有数。 
     
      一滴水: 最近发布的2009正式版有哪些重大的更新 ?
     
      李进斌: 对前期采集和后期数据处理都进行了不少改进,相比2008版本有很大提高,简单列几条:
     
      支持gzip,deflate网页压缩,可大幅度提高网页 下载速度.
      重写下载模块,可以断点下载,大文件下载不再是 问题.
      支持上传附件.可以发布帖子时候上传附件到网站 ,更方便.
      重写本地数据编辑功能,加载更快,处理更方 便.
      支持.net外部编程插件,可以做更为复杂的工作. 例如下载视频.
      支持对多个标签进行分词.准确性更好.
      可以随机发布和随机文件保存目录.
      支持网址部分post随机值.那些aspx类型的网站网 址获取不再难.
      支持列表页标签功能,可以在列表页采集更多的信 息. 
     
      一滴水: 功能是越来越强大了啊!
     
      李进斌: 恩。哈,按会员的建议一步步提升的,强大功能需要大家自己学习慢慢体验。
     
      一滴水: 目前不少网站加了防采集的功能,新版的火车头2009解决这个问题了吗?
       
      李进斌: 关 于防采集这一块。打开一个网页实际就是浏览器发送一个Http请求。还有其他的搜索引擎蜘蛛,同样我们的采集器使用的都是一个原理--模拟http请求, 我们可以根据这个原理模拟出浏览器、蜘蛛出来。所以绝对的防采集根本不存在,只是难度的高低。如果你认为搜索引擎的搜录也无所谓了。你可以用一些非常强大 的activex,flash,全图片文字的形式,这个我们无能为力。
     
      2009新版软件加强了对来源判断,登录信息判断 ,POST方式请求,多页分页识别以及循环内容采集等功能,外加 php和.net外部程序接口等,我们并没有发现多少做得非常好的防采集网站,只是一个难度高低的问题。  
     
      一滴水: 哈哈!看来火车头做的是越来越完美了。
       
      一滴水: 火车采集器还分为免费版本、个人版、标 准版、企业版。那么这些版本是如何分类的, 他们分别适用于哪些人群呢?
     
      李进斌: 主要也是按功能多少来进行划分的,你需要根据自己的需求来选择。高级版本在后期数据处理,大文件下载及上传,自动化操作,分词翻译等方面功能有很大增强。
     
      一滴水: 对于大多数站长来说,免费版本的就足够用了吧!
       
      李进斌: 是的。我们没有限制采集的站点及任务的数量,也没有对在线web发布做任何限制。对普通用户来说,已经足够使用了。
     
      一滴水: 恩。现在可能有一些新的站长还不会使用火车头,你对他们有何建议?
       
      李进斌: 首先应该抱着一个学习的心态,我们不是一个一键就可以采集发布的软件。而是会有很多很多的设置,这些设置都需要你手工和操作配置一遍。
     
      当你对软件的各个功能都有了大致的了解后,你 就会感觉如鱼得水,完全按你的意愿操作,网站数据更新也同样是件很快乐,很有挑战性的事情。
     
      当然在你采集前,有几个建议:
      1.别人经常采的网站不要 去采
      2.太容易采的网站不要去采
      3.不要一次性采集太多,一定要注意后期处理
      4.做好关键词,tag的采集分析
      5.自己网站要有自己的定位,不采与自己网站无 关的内容
      6.采集也要有持续性,经常更新,自动采集功能 我们也有,但还是建议大家人工也参与一些审核,或定时,乱序发布

后期处理方面

1.给标题。内容分词
      2.使用同义词近义词替换,排除敏感词,不同的 标签之间数据融合,指如标题内容之间数据的相互替换
      3.给文章加上摘要
      4.为文章标题等生成拼音地址
      5.采集一些其他编码的网站,我们可以做到简繁 体转化,可以采集中文网站翻译成英文(虽然比较垃圾,但应该可以算是原创)

我们也发现,高难度采集的网站一般内容质量都非常好,采集其实有时也是一件很有乐趣的事情,需要你学习一些采集相关的知识。
     
      一滴水: 非常感谢你分享如此宝贵的经验。谢谢!
     
      一滴水: 火车头现在的开发和推广团队有多少人? 跟大家介绍下你的团队。
     
      李进斌: 前天新搬了一个办公地点,公司规 模又稍微扩大了一点。现在开发主要是4个人,客服和推广6个。还有几个长期活跃在论 坛服务的版主。
       
      一滴水: 规模慢慢在发展壮大啊!呵呵!
     
      一滴水: 在这里也跟大家谈谈你们团队的优势以及你们的服务好吗?
     
      李进斌: 恩,好的。这里面有我的同学也有从网络认识发展到现实的朋友,都很年轻,为了同样的兴趣在一起拼搏。我们虽然没有 很深的工作背景,但学历都还可以几个是211出来的,干劲足,非常有激情。
     
      除了运营采集器外,也兼在做几款其他的自动采集搜索软件,可以为广大站长提供这些方面的技术服务。 
     
      李进斌: 自动采集搜索软件主要是指:数据 采集、转移、处理及索引优化。可以为广大站长提供这些方面的技术服务。 
     
      一滴水: 恩,慢慢拓展出更多更好的技术,站长会越来越喜欢你们。
     
      李进斌 :感谢小苏。
     
      一滴水: 太客气了!你们的盈利模式是什么?
     
      李进斌: 商业软件的收入。部分技术服务支持,以及其他一些定制软件的开发。不是太高但足以支撑整个团队,公司成立还不足一 年,公司的发展和新的盈利模式还在探索中。 
     
      一滴水: 恩,希望你们探索出给更价值的东西,来更好的服务站长朋友们。最后谈一下你们未来的发展方向。
     
      李进斌: 稳住采集方面的地位,继续提高竞争力,努力转型实现为更多的企业提供数据服务。 
     
      一滴水: 小苏在这里代表门户通的所有站长朋友们祝福你们的明天越来越美好!谢谢!
     
      李进斌: 恩。感谢门户通给提供的这次机会 ,谢谢大家。

门户通原创首发      作者:一滴水      转载请注明出处

更多精彩访谈:门户通站长专访专题

门户通专访李进斌:火车头采集器-站长的伴侣相关推荐

  1. 最大化参数 火车头_火车头采集器菜鸟使用手册

    <火车头采集器菜鸟使用手册>由会员分享,可在线阅读,更多相关<火车头采集器菜鸟使用手册(36页珍藏版)>请在人人文库网上搜索. 1.www.okyanli.com OK眼力 精 ...

  2. 火车头如何才能设置发布的时候,如果是有html代码就直接的转换掉,互联网上笑话抽取及排重---火车头采集器的使用和MD5算法的应用...

    10011311341 吕涛.10011311356 李红 目的:通过熟悉使用火车头采集器,在网络上采取3万条笑话并进行排重,以此来熟悉web文本挖掘的一些知识. 过程:本次学习,主要分成两个部分.第 ...

  3. 《火车头采集器采集网页数据》火车头配置规则采集信息文章数据。

    此为火车头采集器的页面 *左边建立分组,建议结构都和所需要采集的数据结构一致,不然数据多了起来,很容易混乱. 1, 创建任务 起始网址是指你需要抓取的网址,例如:http://www.day.gov. ...

  4. 全自动苹果CMS火车头采集器,苹果CMS火车头发布插件

    苹果CMS火车头采集器,苹果CMS影视建站系统有着丰富和强大的可定制性,做为CMS系统使用,更方便的管理和扩展您的网站.很多站长问我如何苹果CMS火车头采集指定网站或者全网文章关键词泛采集.批量伪原创 ...

  5. 火车头采集器 页面图片等信息采集

    火车头采集器 页面图片等信息采集 有些采集的页面中有图片或者其他内容如链接的word文档等等,如果采集下来,并保持链接呢. 火车头采集器中给了较好的操作. 在内容采集中,选择内容下载,如果仅仅是图片, ...

  6. 火车头采集器文章翻译插件(文章标题内容中英双语对照|自动插入相关图片)

    火车头采集器文章翻译插件(文章标题内容中英双语对照|自动插入相关图片) 为了保护接口压力防止被封IP: 请把采集的间隔时间调整为10000~100000 火车头采集器文章翻译插件(文章标题内容中英双语 ...

  7. 使用火车头采集器笔记

    官方手册: http://faq.locoy.com/q-741.html 项目需要,需要采集旅游攻略数据,这里以采集新闻简单记录下,原理一样,火车头采集器确实很牛逼 注意事项 采集工具还有phpQu ...

  8. 966SEO学习网:火车头采集器使用教程(入门+高级)

    火车头采集器技术控使用手册(高级)+火车头采集器使用教程(入门),对应没有基础的童学也是无所谓的,因为有入门学会掌握:学会火车头采集器的使用,实操教您自定义一些格式规则来采集,然后保存到word或者e ...

  9. 火车头采集器 采集https网站 以及网站cookie 避免 蜘蛛 爬虫 程序等

    火车头采集器 采集https网站 并不是想象中的困难,有时https网站只是用了这个加密协议,但是事实上的数据并没有加密,所以仍然可以采集. 如果确实有困难的可以通过,http分析软件来确认地址,如H ...

最新文章

  1. 使用Spring的@Autowired 实现DAO, Service, Controller三层的注入(转)
  2. 低锁单例模式D语言实现
  3. 网络推广运营期间如何提升用户增长水平促进企业稳步推进网络推广
  4. python turtle画熊-基于turtle的Python作画
  5. [蓝桥] 算法提高 队列操作
  6. [深入浅出WP8.1(Runtime)]Socket编程之UDP协议
  7. 黑马Java架构师实战训练学习手册
  8. java代码执行 打包jar_Java程序打包成jar文件包并执行的方法
  9. java 安卓权限_java – Android运行时权限 – 如何实现
  10. 5G信道编码技术取得新突破,极化码同时满足ITU三大应用需求
  11. WindowBuilder的安装
  12. 【diannaoxitong】word打不开或发送错误解决办法
  13. Windows文件资源管理器访问统信(UOS)虚拟机文件夹
  14. 大数字加法运算(超过1000位)
  15. 22. 关于定时任务指定的时间间隔内没有完成任务的处理
  16. Spring源码编译问题--xml-apis:xml-apis引入
  17. 记一次使用android studio分析app闪退原因的过程
  18. Android Animation动画详解(二): 组合动画特效
  19. C#实现屏幕键盘(软键盘 ScreenKeyboard)
  20. 网桥工作原理及题目分析

热门文章

  1. group by后面加rollup、cube、grouping sets分别代表什么含义
  2. 420个生活小窍门,很有用的哦
  3. File类的删除文件夹(有目录,无目录)
  4. 基于Java毕业设计宠物收养管理源码+系统+mysql+lw文档+部署软件
  5. 小网店“双11”尴尬:销售额50万只赚千元
  6. win无法进入计算机管理,Win10系统右键“管理”无法打开的解决方法
  7. ZZULIOJ1018
  8. (转)java 原码反码补码计算 以及 取反运算,原码反码补码运算公式
  9. win7安装python教程视频_二级Python视频教学教程_因材考试网 - Win7之家
  10. C++学习笔记:类模板