CDH ecosystem components
1,Mahout ASF(Apache Software Foundation)开源项目,提供可扩展的`机器学习`--(ML,Machine Learning多领域交叉学科,涉及概率,统计,逼近,凸分析,算法复杂度等多门学科,专门研究计算机怎么模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能的核心,是计算机具有智能的根本途径,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域)领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序;
2,Snappy 高速压缩解压缩开发包 ,类似LZO,压缩解压缩速度高,压缩率相对其他压缩库-zlib、LZO、LZF、FastLZ和QuickLZ低下,本身它的定位就是PB级大数据量压缩;
3,Apache Whirr 提供了一组 Java 类库用来运行云服务,基于 jclouds 开发
jclouds 是一个开源的Java类库,用来帮你开始云计算应用开发,并可重用已有的Java和Clojure技能。该API提供云计算环境的可移植抽象层以及云规范特性,支持包括 Amazon, VMWare, Azure(Windows Azure作为微软云计算平台,提供开放而灵活的云平台), and Rackspace 等云计算平台
9月13日,Apache 软件基金会(ASF)官方宣布Apache Whirr 升级为Apache 顶级项目(TLP)
4,oozie工作流引擎服务器,在Hadoop中执行的任务有时候需要把多个Map/Reduce作业连接到一起,这样才能够达到目的。[1]在Hadoop生态圈中,有一种相对比较新 的组件叫做Oozie[2],它让我们可以把多个Map/Reduce作业组合到一个逻辑工作单元中,从而完成更大型的任务,
什么是Oozie?
Oozie是一种Java Web应用程序,它运行在Java servlet容器——即Tomcat——中,并使用数据库来存储以下内容:
- 工作流定义
- 当前运行的工作流实例,包括实例的状态和变量
http://www.infoq.com/cn/articles/introductionOozie
5,ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户
6,HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”
7,hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行
8,Pig是一种编程语言,它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果
9,提供一个基于WEB的Job Tracker,集群监控和文件浏览
10,Apache HCatalog是基于Apache Hadoop之上的数据表和存储管理服务。
包括:
- 提供一个共享的模式和数据类型的机制。
- 抽象出表,使用户不必关心他们的数据怎么存储。
- 提供可操作的跨数据处理工具,如Pig,MapReduce,Streaming,和Hive。
11,Flume日志收集,是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统
12,sqoop导入关系型数据库中数据;
附件相关性知识库
gossip协议集群节点间状态信息,http://blog.csdn.net/zhangzhaokun/article/details/5859760
http://www.open-open.com/lib/view/open1339233432662.html
http://www.iteye.com/topic/1122901
http://labs.chinamobile.com/mblog/52251_166394
转载于:https://www.cnblogs.com/ruiy/p/components.html
CDH ecosystem components相关推荐
- Angel Borja博士教你如何撰写科学论文三:Writing the first draft of your science paper — some dos and don’ts
Writing the first draft of your science paper - some dos and don'ts A seasoned editor gives advice t ...
- Angel Borja博士教你如何撰写科学论文一:Six things to do before writing your manuscript
Six things to do before writing your manuscript In this new series - "How to Prepare a Manuscri ...
- Prometheus-普罗米修斯:高扩展性的监控和报警系统
目录 What is Prometheus? Features What are metrics ? Components Architecture When does it fit? When do ...
- Hadoop体系结构– YARN,HDFS和MapReduce
Before reading this post, please go through my previous post at "Hadoop 1.x: Architecture and H ...
- Hadoop 1.x:体系结构,主要组件以及HDFS和MapReduce的工作方式
Before reading this post, please go through my previous post at "Introduction to Hadoop" t ...
- 环境资源与相关词汇中英文对照
大气 ATMOSPHERE 大气组成 Atmospheric composition 空气质量 Air quality 大气化学 Atmospheric chemistry 大气成分 Atmosphe ...
- 全网最全最细 FreeRTOS 手册详解——1-The FreeRTOS Distribution
FreeRTOS :Real Time Engineers Ltd. <A_Hands-On_Tutorial_Guide> 作者:Richard Barry 本专栏是对 FreeRTOS ...
- 离线部署 CDH 5.12.1 及使用 CDH 部署 Hadoop 大数据平台集群服务
Cloudera Manager Cloudera Manager 分为两个部分:CDH和CM. CDH是Cloudera Distribution Hadoop的简称,顾名思义,就是cloudera ...
- 02搭建cdh版本控制
cdh版本控制 CDH安装包下载地址 http://archive.cloudera.com/cdh5/parcels/5.13.0/ Cloudera Manager下载地址 http://arch ...
最新文章
- 无线路由安全功能的保证之DHCP
- python回复qq消息_自动给qq好友发消息
- 唯一索引允许为空吗_一次 MySQL 索引面试,被面试官怼的体无完肤!
- Object-C 入门
- pb公共变量怎么找_阿迪达斯的4D怎么就火不起来呢?
- python将html存为pdf_使用Python将HTML转成PDF
- corefx 源码学习:SqlClient 是如何同步建立 Socket 连接的
- 电脑温度检测软件哪个好_重装电脑,用哪个软件重装系统比较好?
- 单机装两个mysql_单机环境下安装多个MySQL服务器
- 示例化讲解RIP路由更新机制
- PAT 乙级1005
- WPF 媒体播放器(MediaElement)使用实例(转)
- 设计模式之工厂模式(工厂方法模式 和 抽象工厂模式)
- json与字面量定义对象的区别,请不要混淆,与字符串转换
- qt王者荣耀皮肤抽奖器
- 大数据下的供应商评分系统
- OCR--PC单机版车牌识别技术
- 7段数码管和打印机接口
- 从前世看今生,从JavaEE到微服务
- 计算机与软件工程-研究生复试-专业面试题型举例
热门文章
- greenplum数据导入到mysql,将数据从DB2数据库传输到greenplum数据库
- html中使用style设置背景
- 解决easyui textarea 值不显示及获取textarea的值
- 百度定位安卓6.0权限问题
- VB UTF-8 URL编码函数
- CentOS安装Etcd
- SCPPO(二十六):测算过程中问题的解决总结
- 苹果三星业绩比惨:iPhone营收降17%,三星手机运营利润降40%
- 最强CNN语音识别算法开源了:词错率5%,训练超快,Facebook出品
- 电商数据库设计及架构优化实战(一) - 制定数据库开发规范