原文地址: http://www.infoq.com/cn/articles/nioche-apache-nutch2

开源的Web搜索框架Apache Nutch的2.1版本已于2012年10月5日发布,该版本的新特性包括:支持一些改进属性,用于更好地配置Solr;更新到各个Gora依赖;可以选择构建弹性搜索中的索引。Nutch既可以运行在单台服务器上,也可以用作大规模抓取平台运行在Hadoop集群上。

Nutch框架的2.0版本在经历了两年开发之后,已于今年7月发布,该版本以Apache Gora框架作为其存储抽象而构建。Apache Gora开源框架提供了一种内存数据模型,并支持大数据的持久化。它支持将数据持久化到列存储、键值存储、文档存储和关系数据库中,还可以利用大量Apache Hadoop的MapReduce支持工具来分析数据。在今年早些时候,Gora已成为Apache的顶级项目。

Nutch 2支持大数据存储方案,如分布式键值存储Apache Accumulo、数据序列化系统Apache Avro、列族数据存储Apache Cassandra、分布式大数据存储Apache HBase和Hadoop分布式文件系统(HDFS)。

InfoQ采访了Apache Nutch项目的副总裁Julien Nioche,他也是DigitalPebble Ltd的主管。他将于2012年11月7日在Apache Conference Europe上介绍如何使用Nutch框架进行大规模抓取。

InfoQ:Apache Nutch framework的哪些方面使其适合NoSQL数据库和大数据领域?

Julien:Nutch的确是被打上了“大数据”的标签。一方面,Apache Hadoop就是产生自Nutch项目,而Apache Hadoop现在已经是用于大规模数据处理的事实上的标准框架。Nutch是为大规模Web数据抓取而设计的。有些用户使用由数以百计的服务器组成的集群来运行Nutch并保存了数十亿的页面。

至于它与NoSQL的关系,这正是Nutch 2要解决的问题。Nutch 1.x分支依赖于Hadoop数据结构,这非常适合批处理任务;而Nutch 2则依赖于Apache GORA来提供一个在各种NoSQL数据存储之上的统一前端。

InfoQ:Apache Gora框架也是出自Nutch项目。作为NoSQL数据库的一个ORM框架,你能否谈论一下它对应用程序开发人员有何帮助?

Julien:我喜欢把GORA当作“NoSQL数据库的JDBC”,因为它在存储之上提供了一层抽象,允许开发者编写独立于任何特定API的代码。GORA的部分API也提供了一种在不同后端之上的MapReduce API,此外还有一种基于Apache AVRO的序列化机制。当然,它也支持基本的GET-PUT-DELETE等原子操作。

Apache GORA现在是2.1版本了,支持HBase、Cassandra和Accumulo等数据存储,而且它还有一个SQL模块!这意味着用户可以在MySQL数据库之上运行MapReduce,一些Nutch 2用户正是这么做的。实际上,通过Nutch 2我们也发现,人们喜欢不同的存储方式,因此GORA是非常有用的。

InfoQ:最新的版本也支持HTML解析,这是利用Apache Tika框架来处理的。你能详细描述一下这一特性是如何工作的吗?

Julien:Apache Tika是一个用Java实现的开源库,支持从多种格式中(如HTML、PDF和Word等)抽取文本和元数据,也能用于语言和MIME类型识别。 实际上它就是现有的第三方解析器(如PDFBox)的包装器,只是提供了一个统一的API来使用这些解析器。在Nutch 1.x分支和Nutch解析器遗留系统中,Tika已经有所应用了,因此它并不是Nutch 2.0中的新东西。有趣的是,就像Hadoop和GORA一样,Apache Tika是也是一个脱胎于Nutch的项目。

InfoQ:在即将发布的版本和特性方面,Nutch项目未来的路线图是什么样的?

Julien: Nutch的发布并没有遵循一个严格的时间表。基本上是这样,当我们认为大部分工作已经完成时,就会发布新的版本,而工作的完成又要依赖于有多少贡献者参与和用户最快要多久才能采用新项目等因素。Nutch 1.x和2.x必定会共存一段时间,直到2.x完全成熟为止。尽管如此,它们的发布不太可能完全同步。近来,我们平均每年发布两个版本,但随着2.x版吸引力的增加,我们可能会加快新版本发布的频率。

至于特性,最重要的一个就是升级到SOLR 4,再就是它的云功能。我们可能也会看到更多的功能将委托给第三方项目,比如Crawler Commons,这样其他项目就能复用并改进代码了。我们也考虑过将索引后端变为可插拔的:虽然目前只支持SOLR(2.x版支持ElasticSearch),但是我们希望开发者能够使用插件机制编写新的索引后端,这样就无需捆绑Nutch代码了。把网页排名功能交给Apache Giraph等图库,我们可以少编写很多代码,而且更有效率。我希望将大部分精力放在巩固2.x的代码上。

他也谈到了完成这一项目所用的十年:

Julien:Apache Nutch最近已经10岁了,对软件而言,这已经算很老了。为什么它仍然存在呢?我想原因是,它能够把要做的事情做好,并且没有试图重复发明轮子。有趣的是,现在很多源自Nutch的项目,如Hadoop或Tika等,它们的发展也让Nutch获益匪浅。我希望这一切也会出现在GORA身上。Nutch 2的开发非常激动人心,而且我们看到非常多的新用户选择了它。在开发过程中,不断有新的贡献者和提交者加入进来,而这正是一个项目健康的标志。

7月份,Apache Nutch团队宣布发布了Nutch v1.5.1。这是Nutch 框架1.5.x主干版本的一个维护性发布。具体信息见该版本的修改列表。该搜索框架可以从网络上下载。Nutch的文档和教程等资料请参见项目的wiki页面。

关于被采访人

Julien Nioche是DigitalPebble Ltd的创始人,这是一家位于英国布里斯托尔的咨询公司,专注于为文本工程提供开源解决方案。Julien的专长涉及信息检索、文本分析、信息抽取、自然语言处理和机器学习等领域。他还是Apache Nutch项目的副总裁、Apache Tika和Apache Gora的提交者以及其他一些开源项目的贡献者。

查看英文原文:Julien Nioche on Apache Nutch 2 Features and Product Roadmap

转载于:https://www.cnblogs.com/AloneSword/p/3748981.html

Julien Nioche谈Apache Nutch 2的特性及产品路线图相关推荐

  1. Julien Nioche谈Apache Nutch 2功能和产品路线图

    三周前发布的开源Web搜索框架Apache Nutch 2.1版支持改进的属性以实现更好的Solr配置,升级到各种Gora依赖项以及引入了在弹性搜索中构建索引的选项. Nutch可以在单台机器上运行, ...

  2. Apache Nutch 1.3 学习笔记十一(页面评分机制 OPIC)

    1. Nutch 1.3 的页面评分机制 Nutch1.3目前默认还是使用OPIC作为其网页分数算法,但其之后,已经引入了PageRank-like算法,以弥补OPIC算法的不足,目前OPIC算法还是 ...

  3. Apache Nutch 1.6 发布

    Apache Nutch 1.6 发布,该版本修复了超过 20 个 bug,新功能包括:新的 HostNormalizer,可通过 MIME-type 和 Indexer API 的功能增强来动态设置 ...

  4. Apache Nutch 1.3 学习笔记目录

    目录 Apache Nutch 1.3 学习笔记一 Apache Nutch 1.3 学习笔记二 Apache Nutch 1.3 学习笔记三(Inject) Apache Nutch 1.3 学习笔 ...

  5. Apache Nutch 1.3 学习笔记十(插件机制分析)

    1. 一些对象说明 PluginRepository:这是一个用于存储所有插件描述对象(PluginDescriptor),插件扩展点(ExtensionPoint)和被激活的插件. PluginDe ...

  6. Apache Nutch 1.3 学习笔记十一(页面评分机制 LinkRank 介绍)

    下面是Google翻译的http://wiki.apache.org/nutch/NewScoring内容,是关于Nutch 新的链接分数算法的说明,有点类似于Google的PageRank,这里有其 ...

  7. Web 爬虫 Apache Nutch 1.15 发布,支持 Java 10

    Apache Nutch 1.15 已发布.Nutch是一个成熟的.可用于生产的 Web 爬虫. Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有 ...

  8. Web Crawling and Data Miniing with Apache Nutch(翻译+学习心得)_01

    笨小葱会在这两个月翻译完这本传说中的418元一本的神作.0.0.由于英语很烂,只能说个笨小葱理解的大概意思,很多地方翻译不到位请各位大拿指出,我会及时更正的.请多多包涵0.0 Preface Apac ...

  9. Arun Murthy谈Apache YARN

    Apache Hadoop YARN是一种新的Hadoop资源管理器,前不久被提升为高层次的Hadoop子项目.InfoQ有幸在Hortonworks与YARN的创始人和架构师Arun Murthy进 ...

最新文章

  1. 用window.open时能否通过post方式传输数据?
  2. Linux 火狐浏览器安装Flash插入
  3. 【Android应用开发】RecycleView API 翻译 (文档翻译)
  4. python里pickle模块
  5. 段错误调试神器 - Core Dump详解
  6. mysql语句中%代表什么_常用的Mysql语句你知道多少?
  7. Zabbix监控系统安装与使用
  8. P5325-[模板]Min_25筛
  9. x-lite asterisk 成功实现视频通话
  10. Keras-11 GAN MNIST
  11. python 状态机第三方库_Python 状态机 - osc_8g11urw7的个人空间 - OSCHINA - 中文开源技术交流社区...
  12. VB的doevents,制造多线程的效果
  13. 运行matlab生成多张图片后如何瞬间将图片全部关闭
  14. Tomcat 8默认工具manager管理页面访问配置
  15. 熊出没之奇幻空间里面的机器人图片_武汉欢乐谷奇幻灯光节12月24日盛大开幕...
  16. PyTorch:tensor-张量维度操作(拼接、维度扩展、压缩、转置、重复……)
  17. 计算机简历如何写,简历计算机能力怎么写
  18. 清理xcode模拟器_mac太卡,清除xcode和模拟器缓存
  19. 如何学习计算机网络——学习方法
  20. C语言 一步步教你做一个带有图形界面的冒险小游戏

热门文章

  1. DNS服务器(DNS服务器构建,特殊的解析记录,多域名DNS服务器架构,DNF主从架构,DNS主从数据同步)
  2. 分析塑料卡板箱价格未来趋向
  3. 微信小程序与h5的区别
  4. 小米 2016届实习生招聘笔试
  5. matlab l 汉字字符串,Matlab 字符串处理
  6. Cutterman插件
  7. python符号大全解释运用_python字符串符号相关解释
  8. Mysql数据库高CPU问题定位和优化
  9. 四相开关磁阻电机Maxwell+Simplorer联合仿真性能及其波形
  10. 同步磁阻电机SynRM矢量控制 基于FOC策略,其中转速环和电流环采用PI