CDH ecosystem components

1,Mahout ASF(Apache Software Foundation)开源项目,提供可扩展的`机器学习`--(ML,Machine Learning多领域交叉学科,涉及概率,统计,逼近,凸分析,算法复杂度等多门学科,专门研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能的核心,是计算机具有智能的根本途径,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域)领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序;

2,Snappy 高速压缩解压缩开发包 ,类似LZO,压缩解压缩速度高,压缩率相对其他压缩库-zlib、LZO、LZF、FastLZ和QuickLZ低下,本身它的定位就是PB级大数据量压缩;

3,Apache Whirr 提供了一组 Java 类库用来运行云服务,基于 jclouds 开发

jclouds 是一个开源的Java类库,用来帮你开始云计算应用开发,并可重用已有的Java和Clojure技能。该API提供云计算环境的可移植抽象层以及云规范特性,支持包括 Amazon, VMWare, Azure(Windows Azure作为微软云计算平台,提供开放而灵活的云平台), and Rackspace 等云计算平台
9月13日,Apache 软件基金会(ASF)官方宣布Apache Whirr 升级为Apache 顶级项目(TLP)

4,oozie工作流引擎服务器,在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新 的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务,

什么是Oozie?

Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:

  • 工作流定义
  • 当前运行的工作流实例,包括实例的状态和变量

http://www.infoq.com/cn/articles/introductionOozie

5,ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户

6,HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”

7,hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行

8,Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果

9,提供一个基于WEB的Job Tracker,集群监控和文件浏览

10,Apache HCatalog是基于Apache Hadoop之上的数据表和存储管理服务。

包括:

  • 提供一个共享的模式和数据类型的机制。
  • 抽象出表,使用户不必关心他们的数据怎么存储。
  • 提供可操作的跨数据处理工具,如Pig,MapReduce,Streaming,和Hive。

11,Flume日志收集,是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统

12,sqoop导入关系型数据库中数据;

附件相关性知识库

gossip协议集群节点间状态信息,http://blog.csdn.net/zhangzhaokun/article/details/5859760

http://www.open-open.com/lib/view/open1339233432662.html

http://www.iteye.com/topic/1122901

http://labs.chinamobile.com/mblog/52251_166394

posted on 2014-03-16 21:05 秦瑞It行程实录 阅读(...) 评论(...) 编辑 收藏

转载于:https://www.cnblogs.com/ruiy/p/components.html

CDH ecosystem components相关推荐

  1. Angel Borja博士教你如何撰写科学论文三:Writing the first draft of your science paper — some dos and don’ts

    Writing the first draft of your science paper - some dos and don'ts A seasoned editor gives advice t ...

  2. Angel Borja博士教你如何撰写科学论文一:Six things to do before writing your manuscript

    Six things to do before writing your manuscript In this new series - "How to Prepare a Manuscri ...

  3. Prometheus-普罗米修斯:高扩展性的监控和报警系统

    目录 What is Prometheus? Features What are metrics ? Components Architecture When does it fit? When do ...

  4. Hadoop体系结构– YARN,HDFS和MapReduce

    Before reading this post, please go through my previous post at "Hadoop 1.x: Architecture and H ...

  5. Hadoop 1.x:体系结构,主要组件以及HDFS和MapReduce的工作方式

    Before reading this post, please go through my previous post at "Introduction to Hadoop" t ...

  6. 环境资源与相关词汇中英文对照

    大气 ATMOSPHERE 大气组成 Atmospheric composition 空气质量 Air quality 大气化学 Atmospheric chemistry 大气成分 Atmosphe ...

  7. 全网最全最细 FreeRTOS 手册详解——1-The FreeRTOS Distribution

    FreeRTOS :Real Time Engineers Ltd. <A_Hands-On_Tutorial_Guide> 作者:Richard Barry 本专栏是对 FreeRTOS ...

  8. 离线部署 CDH 5.12.1 及使用 CDH 部署 Hadoop 大数据平台集群服务

    Cloudera Manager Cloudera Manager 分为两个部分:CDH和CM. CDH是Cloudera Distribution Hadoop的简称,顾名思义,就是cloudera ...

  9. 02搭建cdh版本控制

    cdh版本控制 CDH安装包下载地址 http://archive.cloudera.com/cdh5/parcels/5.13.0/ Cloudera Manager下载地址 http://arch ...

最新文章

  1. 无线路由安全功能的保证之DHCP
  2. python回复qq消息_自动给qq好友发消息
  3. 唯一索引允许为空吗_一次 MySQL 索引面试,被面试官怼的体无完肤!
  4. Object-C 入门
  5. pb公共变量怎么找_阿迪达斯的4D怎么就火不起来呢?
  6. python将html存为pdf_使用Python将HTML转成PDF
  7. corefx 源码学习:SqlClient 是如何同步建立 Socket 连接的
  8. 电脑温度检测软件哪个好_重装电脑,用哪个软件重装系统比较好?
  9. 单机装两个mysql_单机环境下安装多个MySQL服务器
  10. 示例化讲解RIP路由更新机制
  11. PAT 乙级1005
  12. WPF 媒体播放器(MediaElement)使用实例(转)
  13. 设计模式之工厂模式(工厂方法模式 和 抽象工厂模式)
  14. json与字面量定义对象的区别,请不要混淆,与字符串转换
  15. qt王者荣耀皮肤抽奖器
  16. 大数据下的供应商评分系统
  17. OCR--PC单机版车牌识别技术
  18. 7段数码管和打印机接口
  19. 从前世看今生,从JavaEE到微服务
  20. 计算机与软件工程-研究生复试-专业面试题型举例

热门文章

  1. greenplum数据导入到mysql,将数据从DB2数据库传输到greenplum数据库
  2. html中使用style设置背景
  3. 解决easyui textarea 值不显示及获取textarea的值
  4. 百度定位安卓6.0权限问题
  5. VB UTF-8 URL编码函数
  6. CentOS安装Etcd
  7. SCPPO(二十六):测算过程中问题的解决总结
  8. 苹果三星业绩比惨:iPhone营收降17%,三星手机运营利润降40%
  9. 最强CNN语音识别算法开源了:词错率5%,训练超快,Facebook出品
  10. 电商数据库设计及架构优化实战(一) - 制定数据库开发规范