未来十年,企业数据管理模式将如何进化?Cloudera 的答案是 — 企业数据云。

在数据爆炸时代“掘金”

数字正在“吞噬”世界。

过去的十几年里,我们进入了一个数据爆炸、信息过载的时代。

数据规模在以惊人的速度增长。

2006 年,个人用户才刚刚迈入 TB 时代,当年全球共产生了约 180EB(1 EB = 1024 TB)的数据;2012 年,这个数字增长到了 3.7 ZB(1ZB=10 亿 TB)。

据国际权威机构 Statista 统计和预测,2020 年全球数据产生量预计达到 47ZB。而到 2035 年,这一数字将爆炸式增长到 2142 ZB。

数据规模爆炸式增长的趋势下,企业面临着如何高效、安全、稳定的管理数据的挑战。另一个挑战是,如何在数据的“汪洋大海”中,挖掘出数据的真正商业价值并更好地做出决策。

越来越多的企业在向数字化转型,转向数据驱动型组织,并希望从数据“矿山”中挖掘出宝藏。

麦肯锡曾在一份报告中得出结论,“数据驱动型组织获得客户的可能性会提高 23 倍,保留客户的可能性会提高 6 倍,盈利的可能性则会提高 19 倍”。透过这组数据可以看到,企业对数据价值的预期在提高。

企业对数据管理的需求也在变化。

如果以 2020 年作为时间节点,过去十年,用户需求主要在解决高效存储,同时处理大规模数据上。通过分布式的方式将数据分散在不同服务器上,以分而治之的方式来处理并发数据,避免网络传输带来的消耗与延迟等。

十几年前开源大数据套件 Apache Hadoop 就是为了解决海量数据的处理问题而诞生的。Hadoop 擅长海量数据分布式存储和分布式计算。在过去的十多年里,Hadoop 深刻影响了计算机界,一度成为大数据的“代言人”。

Hadoop 的红利也成就了两家公司 — 有“大数据先驱”之称的 Cloudera 和 Hortonworks。它们都是 Hadoop 的发行版提供商,双方各自在 Hadoop 基础上有自己的产品线。

成立于 2008 年的 Cloudera 是第一家 Hadoop 商业化公司,发布 Hadoop 商业版和商用工具,其核心组件 CDH 开源免费。Hortonworks 的产品是 HDP,组件和商业模式都采取全开源的模式。

在很长一段时间里,CDH 和 HDP 是市场上最为流行的两款开源大数据平台。

CDP ,下一代大数据平台

如今,用户对数据管理和分析有了新的需求,人工智能与机器学习技术的发展要求具备更强大的数据处理技术,更快速的大数据分析能力。云计算的快速崛起为大数据注入了新的推进剂。

未来十年,现有的使用架构与解决方案还将面临新的诸多挑战,如庞大集群规模部署时间长,企业实际应用中缺乏高效数据隐私与安全管理,数据灾难恢复能力弱,多云及混合云跨云管理繁琐等。解决这些挑战,要在现有技术架构的基础上进行延展。

Cloudera 意识到,需要开发下一代数据产品来帮助企业应对未来的商业挑战。

2018 年 10 月, Hadoop 生态系统发生了一件轰动性的大事,Cloudera 与 Hortonworks 宣布合并。合并后的公司采用 Cloudera 品牌,定位为企业数据云提供商。

2019 年 6 月,Cloudera 和 Hortonworks 合并后推出了全新一代的数据平台产品 — CDP(Cloudera Data Platform)。

CDP 是世界上第一款企业数据云平台产品。其是 Apache 开源社区的 30 多个开源项目,经过研发、测试、整合后提供的基础的大数据运营环境,易于部署、管理和使用。

CDP 是合并后的 Cloudera 多方权衡后所做的价值最大化的选择。CDP 结合了 Cloudera 原来的产品 CDH 和 Hortonworks 原来的产品 HDP,把 CDH 和 HDP 两条产品线里最优势的部分进行整合,并在技术堆栈中增加了新功能,并对已有技术提供了增强功能。

但,CDH 和 HDP 原来的用户将何去何从?

此前,Cloudera CPO Arun Murthy 曾表示,Cloudera 会在 2022 年前继续支持 CDH 和 HDP 两条产品线,给用户一个过渡期。原有的 CDH 和 HDP 用户均可通过升级至 CDP 获得诸多新功能。也就是说,在 2022 年全部用户都将迁移到 CDP 上来。

Cloudera 数据架构的迭代,透视出了数据管理方式的转变。

Cloudera 在 Hadoop 基础架构下发展出的商业版 CDH,是第一代架构的代表,主要关注在本地部署云上集中同位的存储和计算以及大型共享集群 ;Cloudera 认为的第二代架构,主要关注在公有云上的存储与计算解耦和多集群,例如 Amazon EMR 。

Cloudera 目前提出的平台方案 CDP 被认为是第三代架构,主要关注在多云以及混合云上的存储与计算解耦,多租户以及容器化的 SaaS 体验。

拥抱云计算的浪潮

云与 AI 时代的到来,为当下的数据存储,数据分析带来了一些颠覆性的变革,企业上云已是大势所趋。

审时度势之下,Cloudera 也决定拥抱云计算的浪潮。

Cloudera 在原有产品线的基础上作了大刀阔斧的革新,最关键的是其部署形态发生了根本性的变化,CDP 是基于云的,它可以在任何基础架构上运行,不管是在公有云、私有云,混合云,还是公有云上的任何一种云,都可以来运行 Cloudera 的数据平台。

Cloudera 在多云以及混合云的使用方面提出了很多新的理念和实践,如私有云对象存储标准,数据存储与数据处理的集成,混合云体验等。CDP 可以跨 AWS、Azure、Google 等主要公有云架构进行数据管理。无论数据位于何处,企业都能够跨多个云处理复杂的数据流程、管理数据并实现多功能分析。

企业采用云服务可能会带来数据管理方面的挑战,因为数据可能被存储在孤岛中,从而使企业难以在所有 IT 环境中发现、获取、信任和兼容数据。

此外,还存在被单一供应商锁定的威胁。比起单个云厂商,第三方多云平台更中立。这也正是 Cloudera 在云计算浪潮中的机会。

今年 7 月初,Cloudera 宣布推出了 CDP 私有云产品。CDP 私有云专为混合云构建,以统一的内置安全治理能力将本地部署环境无缝连接至公有云,客户可以在公有云与公有云,公有云和私有云之间无缝切换,消除了被某个云厂商绑定的问题。

7 月 15 日, Cloudera 宣布与阿里云达成合作,CDP 将在大中华区入驻阿里云,成为阿里云中的企业数据云,在该平台上提供广泛的数据分析和人工智能功能,以及安全的用户访问和数据治理功能。这次合作将帮助大中华区的企业更快地迁移到云上,以及在上云过程中,有效运用数据赋能业务。

该联合解决方案的一大亮点在于,用户在阿里云上使用 CDP,获取 CDP 的功能和性能,同时实现最大的选择和灵活性。此外,该联合解决方案具有灵活部署,可扩展的数据管理,按需处理能力,降本增效等优点。

那么,企业具体如何在阿里云上使用 CDP 呢?

在《基于阿里云部署的 CDP 产品详情》白皮书中,详细介绍了在阿里云上运行 Cloudera 并利用不同的阿里云服务(例如 ECS)的最佳实践。

不只是提供 Hadoop 技术本身的支持,CDP 能为企业提供全数据生命周期的支持,还提供在整个数据生命周期所有使用到的工具和平台,包括数据采集、IoT、数据分析、BI、数据仓库、机器学习、数据科学等。

在上云的过程中,企业对数据安全的要求比以往更高了。

在保障企业云上的数据安全治理方面,Cloudera 在整个数据生命周期里提供了全套的数据安全跟数据治理的功能。采用了企业级的安全性和管控机制,CDP 提出了共享的数据体验架构,实现存储层和计算层的解耦,更好的管理源数据,同时实现数据存储分离。对数据的安全、治理、血缘和审计方面,提供了单独的 SDX 工具。

坚持 100% 开源战略

在商业模式上,继承 Cloudera 和 Hortonworks 的开源开放基因,合并后的 Cloudera 的产品路线仍会延续 100% 开源的战略,将开源进行到底。

Cloudera 在后续产品中保证源代码 100% 开源,继续在社区为开源项目做贡献。Cloudera 还会将很多新的开源项目不断纳入 CDP,希望通过开源开放的模式推动基于 Apache 的大数据社区持续发展。

与此同时,Cloudera 将采用新的开源许可模式。据悉,Cloudera 的新的授权许可方式整合了 Hortonworks 和 Cloudera 各自在之前使用的授权许可方式,并在合并 Hortonworks 之后做出了一些新的改变 :

  • 新的开源许可模式

在授权许可方面,Cloudera 所有产品均将采用 OSI 批准的许可证,即 Apache 软件许可证 (ASL) 或 Affero 通用公共许可证 (AGPL)。

在此基础上,Cloudera 贡献代码的由 Apache 软件基金会托管的所有开源项目将继续由 ASF 监管。同时,Cloudera 的代码贡献模式没有改变,第三方项目将继续采用 Upstream First 方式。第三方项目代码库的公开源仅保持在 Upstream。

  • 借鉴红帽的开源模式

Cloudera 将采用市场及全球企业用户已接受的类似红帽的开源模式。自 2019 年 11 月起,产品的二进制文件都将置于付费专区, 并对厂商提供了一定程度的保护,因此需订阅后才能访问。二进制文件包含 Cloudera 特定的知识产权,将许多分散的开源项目整合到企业级的功能系统中。

  • 组建新开源项目

CDP 会对开源组件进行精选与整合,结合新创建的开源项目,提供跨云服务、全数据生命周期支持、数据安全和治理等, 满足企业级用户的需求,为企业提供完整的云数据服务。

毫无疑问,开源开放必将成为未来的主流,而这也将是 CDP 未来发展的原动力。

写在最后

CDP 的一小步,Cloudera 的一大步。

从以 Hadoop 为基础架构的商业版 CDH,到首款企业数据云平台产品 CDP,抓住了大数据时代的风口的 Cloudera 积极转型,能否在在云计算时代占据一席之地?相信时间会给出答案。

时代在变幻,技术在更迭,只有持续革新数据管理的新范式,才能让数据成为企业的超级引擎。

对于企业来说,也要与时俱进。在大数据和云计算的浪潮中,企业如何借助 CDP 这样的数据管理解决方案,发掘出数据的商业价值,推动业务发展?

9 月 8 日,来自 Cloudera 的技术专家将进行一场线上的直播公开课,分享《Cloudera 推出 CDP 后,原来盛行的 CDH/HDP 将何去何从?》。这次直播还为大家准备了丰厚的福利,课后,将筛选有意向使用的参会者,发放阿里云上 CDP 试用版。欢迎感兴趣的开发者参与!

点击阅读原文链接,预约观看直播!

大数据先驱Cloudera拥抱云计算,探索后Hadoop时代的下一代数据平台相关推荐

  1. 后Hadoop时代的大数据技术思考:数据即服务

    1. Hadoop 的神话正在破灭 IBM leads BigInsights for Hadoop out behind barn. Shots heard IBM has announced th ...

  2. Google 后 Hadoop 时代的新 “三驾马车” -- Caffeine(搜索)、Pregel(图计算)、Dremel(查询)

    摘要:Google 在 2003 年到 2004 年公布了关于 GFS.MapReduce 和 BigTable 三篇技术论文(旧三驾马车),这也成为后来云计算发展的重要基石,如今 Google 在后 ...

  3. “后 Hadoop 时代”,大数据从业者如何应对新技术趋势带来的挑战?

    作者 | 蔡芳芳 采访嘉宾 | 刘京娟.贾扬清.王峰 作为开源大数据项目的发端,Hadoop 兴起至今已经超过十五年.在过去这十数年里,开源大数据领域飞速发展,我们见证了多元化技术的兴起和变迁. 为了 ...

  4. 后Hadoop时代的大数据架构

    http://zhuanlan.zhihu.com/donglaoshi/19962491 背景篇 Hadoop: 开源的数据分析平台,解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的 ...

  5. Google后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Dremel

    Mike Olson是Hadoop运动背后的主要推动者,但这还远远不够,目前Google内部使用的大数据软件Dremel使大数据处理起来更加智能. Mike Olson目前任职于世界上最热的软件专业公 ...

  6. Cloudera将被私有化,Hadoop时代或将落幕

    北京时间 6 月 1 日晚,据 TechCrunch 报道 [1],KKR 和 CD&R 将以 53 亿美元收购 Cloudera,Cloudera 将被私有化.截止到本文发稿时(11 点 4 ...

  7. 后ERP时代之协同运营管理平台实践

    在ERP系统的建设上,现在有个概念,叫做"超越ERP",指的是以企业架构和业务流程为重心,带动企业全盘信息化建设,而ERP系统仅仅是信息化企业的一个核心业务功能模块.这一建设方式和 ...

  8. 后疫情时代数字化协同办公平台发展方向

    2020年疫情下移动互联网新趋势盘点 看下这张图,突如其来的疫情让线上办公成为"主流". "近日,权威第三方数据调研机构iResearch艾瑞咨询发布<中国移动互联 ...

  9. Notion:最新估值103亿美元,后office时代的新生产力平台

    内容:penny.Lavida 编辑:海外独角兽团队 排版:Lavida 为什么 Notion 值得关注? 这是一个具有东方哲思和美学,并在全世界受到欢迎的产品. Notion 顺应了时代趋势--随着 ...

最新文章

  1. 科普| 越来越火的图数据库究竟是什么?
  2. Spring Boot 整合 Elasticsearch,实现 function score query 权重分查询
  3. 读论文之《基于EV10AQ190的高速ADC接口设计》
  4. 重叠面积_谁出去?谁不出去?重叠部分面积的探讨
  5. body里写注释 postman_HTTP Status 415 – Unsupported Media Type(使用@RequestBody后postman调接口报错)...
  6. BZOJ4008. [HNOI2015]亚瑟王 期望概率dp
  7. smartforms输出格式设置说明
  8. go build 无文件_Go 质量保证:集成测试(1) 用 Docker 执行测试
  9. Hibernate提供的内置标识符生成器
  10. oracle备份能备份索引吗,ORACLE会使索引失效的条件
  11. sql多行插入insert多行无法分析查询文本_收藏!SQL语法全集合!
  12. linux 中间代码反编译,[原创]反编译原理(2)-中间表示
  13. MFC 视频播放器实现局部放大功能
  14. 5G组网方案和频谱规划
  15. python数学符号表示方法_用Python学数学之Sympy代数符号运算
  16. mysql where 小于_MySQL-过滤数据(WHERE语句)
  17. 免流混淆 一 待完善(更新中)
  18. AutoReleasePool 底层原理
  19. 字符串转成可计算的数学表达式
  20. MATLAB/ArcGIS读取nc数据并进行可视化

热门文章

  1. 产品负责人 VS 产品经理
  2. Elasticsearch设置中文分词
  3. 元宇宙浪潮下,数智人拒绝“标品”
  4. ROS实验笔记之——Intel Realsense l515激光相机的使用
  5. 用Jquey实现双击图片放大和触摸放大的功能。
  6. JavaScript中Unicode编码和中文相互转换
  7. 大数据与SQL周末读书微信群,等你来
  8. 速途研究院联合融云:中国移动社交沟通指数报告
  9. java河南口腔医疗机构线上服务系统计算机毕业设计MyBatis+系统+LW文档+源码+调试部署
  10. GP数据库安装以及使用