原文链接:

https://medium.com/swlh/hadoop-evolution-decade2-ca46e5514713

作者:Arun C Murthy

Cloudera 现任CPO,

原Hortonworks联合创始人

译者:刘岩

Cloudera 解决方案工程师

理解Cloudera Data Platform的一个核心的关键点,是需要从架构层面上,通过对比Hadoop的上一个十年,来使大家明白我们重铸和演进的产品到底代表了什么。最近这几个月,我一直在致力于向我们的客户演示CDP,同时也收到非常多的,令人兴奋的反馈。通过这些反馈,我们看到有一部分客户初期会很自然的把CDP理解为仅仅是一个“合并发行版”(Cloudera与Hortonworks在2019年完成合并,合并前各自拥有大数据平台产品CDH以及HDP)。

在某种程度上,这样理解没有问题。合并之后我们的确要做出一些选择,例如是只选一个,类似Ranger/Sentry,或者是并存, 例如Hive-LLAP/Impala 以及 Atlas/Navigator。但是,选择某些组件然合并成CDP发行版,并不是我们真正要做的事情。 我们看到有些人,例如:Andrew Brust 看到了我们真正要做的事情,但普遍层面客户对当前和未来的理解不是很充分。

所以我觉得我有必要,通过图表的形式,来更好的展示社区会把生态群带往何处。从哲理的角度上讲,我们先花一点时间回顾一下我之前的一篇相关博客(译者注:Hadoop已死,Hadoop长存)。对我个人而言,Hadoop是一个实现了下述哲理的,现代化的,用于管理和分析数据的架构:

将存储,计算,安全和治理进行了软件层面的解耦。

通过普通商用基础设施构建超大规模的分布式系统。

利用开源来取得开放的标准和社区级的支持。

持续的在每个层面上进行独立的演进和创新。

第零个十年

_

数据中心里的Hadoop

在上一个十年,基于当时的技术可用性和约束的前提下,社区交付了一个拥有以下几个关键特点的数据平台。

00

亲和式的计算和存储设计 – 这是因为高带宽的网络在当时是非常昂贵的,同时用于数据缓冲的内存及SSD产品也都是非常昂贵的。

01

通过资源管理(Yarn)在超过5000个节点的大规模,多租户的集群的共享资源上同时执行数百万个批处理任务,以及为新生的数据服务,例如Hive-LLAP,Impala,HBASE提供多租户的服务。

02

软件是可以被公开下载并使用在共享资源上的。

03

在企业自有的数据中心里,可以使用例如网络边界安全和物理访问控制作为安全层面的核心。在很多案例里,客户发现这些简单的安全配置是足够的,同时也支持更复杂的,更可靠的安全机制。

因此,第一代Hadoop的部署,看起来是下面这样的:

图:第一代Hadoop的部署形态

这个部署形态带来的最大问题是升级的复杂程度。大型的,共享式的集群和简装软件意味着升级是一个很痛苦的事情。例如,每个租户都需要在同一个时间节点升级,这带来的影响是非常广泛的。企业在协调数百个租户和数千个应用下的升级投入是非常的高的,亲和式的架构没有存储和计算独立升级的设计。

第一个十年

_

云中的Hadoop

紧接着是云服务厂商,通过下面的这个架构,来实现了公有云Hadoop第一代标志性架构:

图:第二代Hadoop的在云中的部署形态

利用了云对象存储来与计算进行了解耦。社区通过HCFS API构建了S3接口和WASB接口。

使用VMs来快速部署大量短暂性的Hadoop的计算集群。但是,频繁的启动和关闭VMs(每次通常是10分钟)所带来的额外开销是一个很大成本问题。

在临时性的Hadoop集群应用场景下,并没有很好的管理常驻的元数据和安全策略等这些必要的服务。因此也导致了需要这些服务的集群,不得不采用费用高昂的常驻性集群部署方式。

第二个十年

_

由Hadoop 驱动的数据云

在上一个十年结束的时刻,我们需要从最底层去重新思考Hadoop,并不是仅仅为了满足公有云的场景,还要包括企业自有的数据中心。同时,也需要更加的关注有哪些浮现的技术会推动Hadoop的下一个十年的演进。云的体验基本上界定了用户需要简单易用的,自助服务式的,按需且可弹性付费的软件以及应用程序服务。解耦计算和存储现在当前的技术下在公有云和私有云中都是可行的,这确实提高了工作负载的性能。容器及Kubernetes无疑是一个已经标准化的,更加灵活和敏捷的操作环境。随着实时计算,分析和机器学习的融入,这些横跨数据生命周期的业务能力已经被认为是实现企业数据驱动转型的必要条件。

(点击查看大图)

在上述的背景下,我们重新定位了下一个十年的平台:

图:第三代Hadoop的部署形态

解耦存储,元数据,安全,治理以及计算。并且,通过更多的利用RAM和SSD来Cache数据,即便在存储和计算分离的场景下,依然是可以提供交互级的性能的。软件会以服务的形态存在,而不是一个自包装的形态。通过容器(Container)和编排(Kubernates)技术来实现一个新的多租户方案,每一个租户可以隔离在私有的,独立的服务中(例如,每个租户自己的数据仓库)。在混合云中具有超强的安全机制可以使得企业不在需要在混合云中部署企业防火墙。增强对数据数据隐私和新强制法案的关注,并且将其反映在数据血缘,数据治理,数据迁移和横跨完整数据生命周期的各类应用层面上。

这个全新的架构也引出了很多优点:

**更加易于管理:**解耦后的架构拆分了存储,计算和元数据层。(虽然在企业内部的数据中心对于还停留在上一代的基础设施设备可能亲和式的部署更有效率)。

**更易于使用:**因为更加的突出了服务而不是独立软件,因此更关注在适应不同用户的体验,例如Warehousing,Machine Learning,Streaming等等业务。

**更快的部署:**通过Containers和Kubernetes来极大的加速部署和简化诸如 Warehousing,Machine Learning,Streaming等各类业务的管理。

**更强安全和治理:**通过SDX触及整个数据生命周期进而更好的完成数据驱动决策的制定

由于现有的部分客户已经被要求尽可能地提高可管理能力,提供更健壮的多租户和隔离能力以及更好的安全及治理能力。

因此,这些企业在理解了上述CDP的优点之后非常的兴奋,并不仅仅是因为CDP公有云版本,还包括了今年下半年我们要推出的CDP私有云版本(译者注:CDP公有云/私有云版本 与 CDP数据中心版本完全不同)。CDP的市场空间以及推出时间在我看来都是非常好的。我们的时间掐算的非常准确。

总结

让我们快速回顾一下基于Hadoop的数据架构演进:

(点击查看大图)

当我们进入到第二个十年期时,这里我们提供了一个架构变化的点对点对比,也期望通过这个对比来展示随着基础设施能力的提高,以及容器技术的多样化能力,Hadoop如何在一个混合环境中管理数据和工作负载。

我个人,可以说非常激动的见证了平台如何演变至更贴近下一个十年的实质业务需求的。CDP是面向云的数据架构。它提供了拥有一致的安全及治理能力的数据平台来帮助企业更好的对生命周期内的数据进行控制。并且不要忘了,它依旧是100%基于Hadoop的哲理。我对这一个十年的,由Hadoop驱动的数据云非常有信心,并且希望可以再次超越它。

* I don’t disagree with Bezos on the Day One philosophy, I just can’t help but start the count at 0! ?

*我并不是不同意Bezos的Day One哲学,我只是不能控制我自己从0开始算起!

(译者注:0在计算机领域里标记开始,自然界更多的用1来标记开始,大概的意思是,IT男都习惯用0表示第一章。)

重磅 | Hadoop的第二个十年相关推荐

  1. Hadoop详解(十二):Yarn资源调度策略

    在Yarn中有三种调度器可以选择:FIFO Scheduler ,Capacity Scheduler,Fair Scheduler. FIFO Scheduler FIFO Scheduler把应用 ...

  2. 美学心得(第二百四十二集) 罗国正

    美学心得(第二百四十二集) 罗国正 (2022年10月) 3037.      人与价值.意义的关系 罗国正 (二0二二年十月于广州) 从古至今,都有很多人在问:"人生到底有没有意义?&qu ...

  3. 往者不可谏,来者犹可追,记2020第二个十年年终总结

    2020即将走向终点,2021已悄然临近,年终复盘,未来可期.   21世纪第二个十年,即将离去,这个十年,我经历了初中到工作,荒废了太多的岁月,开过直播,做过自媒体,写过文稿,发过小说,桑海桑田,也 ...

  4. 美学心得(第二百四十五集) 罗国正

    美学心得(第二百四十五集) 罗国正 (2023年2月) 3039.清朝文学家张惠言,是江苏武进人,三十八岁中进士,官至翰林院编修,工词文,他的美学成就居于常州词派的创始地位,他一生得志的时间很短,享年 ...

  5. 美学心得(第二百四十六集) 罗国正

    美学心得(第二百四十六集) 罗国正 (2023年3月) 3046.清朝画家董棨,是浙江秀水(今浙江嘉兴市)人.他的主要美学观点如下: 1.绘画可把"家贫境苦"变得"陶然自 ...

  6. 第二百四十九节,Bootstrap附加导航插件

    第二百四十九节,Bootstrap附加导航插件 学习要点: 1.附加导航插件 本节课我们主要学习一下 Bootstrap 中的附加导航插件 一.附加导航 注意:此插件要使用 bootstrap3.0. ...

  7. 京东商城,“修养生息”2013 迎接第二个十年

    2013年1月1日晚,在京东商城内部年会上,京东商城集团创始人兼CEO刘强东向在场的近2000名京东人发表讲话,阐释公司2013年的"修养生息"战略,同时首次指出了京东商城第二个十 ...

  8. 美学心得(第二百四十四集) 罗国正

    美学心得(第二百四十四集) 罗国正 (2023年1月) 3038. <美学心得>序言 罗国正 (2023年1月于广州天河) 历史长河奔腾不息.势不可挡地滚滚向前.美感象密集的点点火星,不断 ...

  9. Hadoop详解(十):Hadoop 作业调度机制

    Hadoop 作为一个分布式计算平台,从集群计算的角度分析,Hadoop可以将底层的计算资源整合后统一分配到集群中的计算节点,从而达到分布式和并行计算的目的,最终完成任务的高效执行.在调度机制中涉及的 ...

最新文章

  1. iframe元素內嵌页面如何去掉继承的html及body背景色/背景图片
  2. FreeMarker使用记录
  3. 在linux系统中 用于配置和显示,在Linux系统中使用sway设置多个显示器/监视器
  4. ubuntu查看版本及检查是否有系统更新的命令
  5. c++ fstream用法
  6. samba权限跟linux权限,linux之samba与linux权限
  7. python访问k8s的api_python过滤 Kubernetes api数据
  8. 华为HCC2014的变与不变
  9. 在苹果Mac上如何指定发送邮件的时间?
  10. Transparent Tribe行动
  11. HTML前端特效集合
  12. 限时免费抢!正版卡巴斯基安全部队2011激活码1年
  13. 知名清理工具或成恶意软件
  14. WLAN 基础概念(一)
  15. springboot2 druid监控控制台去掉下面的图片广告和powered by
  16. 浅谈扫描二维码登录微信网页版与摇一摇传图的实现原理
  17. 可以免费下载视频素材和模板网站汇总
  18. 实现淘宝广告图片切换(display:block/none)
  19. react根据浏览器的尺寸动态调整布局
  20. 涠洲岛日出日落时间表,2月14日涠洲岛开船时间表/日出日落/天气预报

热门文章

  1. java list 模糊查询_如何在java List中进行模糊查询(示例代码)
  2. 零基础搭建Tomcat集群(超详细)
  3. 夏季繁华系列||妆面照欣赏
  4. 全球400多支团队参加,鹅厂是如何拿下冠军的
  5. 导入的java文件不显示文字_java 引入自定义字体font后出现的硬盘吃光的问题
  6. 64位 Fedora 11 硬盘安装 配置全解
  7. 《系统集成项目管理》第三章 信息系统集成专业技术知识
  8. CentOS安装sun java
  9. ROS系统学习5---OpenCV的使用
  10. 关于华硕主板的图像输出设置