近年来,随着数字化进程不断推进,大数据成为企业经营管理的主要手段之一,大数据平台建设的需求与日俱增。但是传统的大数据系统搭建、开放和运维都相对复杂,还存在着弹性不足、资源利用率低等一系列问题,同时海量数据的爆炸式增长激发了企业上云的需求。这时,以 “弹性、敏捷、开放” 著称的云原生闪亮登场,赋予了大数据平台新的定义 - 云原生大数据平台。

6 月 28 日,论道原生直播间,「DaoCloud 道客」架构师-王百川,携手数新网络大数据解决方案总监-若谷,分享了云原生大数据解决方案,以及数据中台和方案,共同展望行业未来,释放数字经济发展的新动能。

01 云原生大数据解决方案

大数据架构的发展历程,可以分为三个阶段。大数据的架构 1.0 – Shared Everything Architecture 经过广泛验证,性能容易估算,硬件适配广泛,并且技术门槛低,也容易实现数据一致性。但是只能通过提升内存硬盘等方式,让算力增加,受限于单机性能;并且资源按照峰值进行规划,使用效率低下;响应时间和吞吐量一般不能兼顾,容错性和高可用性的代价昂贵。

大数据的架构 2.0 – Massively Parallel Processing 的并行处理能力强,性能优异。可以通过横行扩展节点实现计算能力提升,且能通过自身的数据冗余实现整体高可用,能够并行执行读/写,吞吐性能优异,但劣势是系统复杂、维护成本高,数据再均衡造成性能下降和不可用,数据量大时,整体硬件成本很高。

大数据的架构 2.0 – Hadoop 支持对结构化/非结构化的异构数据收集,也可以通过横行扩展节点实现计算能力提升,以及通过内置的数据冗余保障整体高可用,技术生态丰富,场景覆盖完善。它的劣势是涉及大量生态系统,管理复杂性高,且小数据集的查询效率很低,同时数据再均衡会造成性能下降和不可用。

那么有没有更好的方式来管理大数据呢?

云原生大数据的理念应运而生,大数据的架构 3.0 – Cloud Native Data Processing Architecture 中的计算/存储可以灵活按需弹性扩展,每一层都可以有内置的容错策略,类似 MPP 的高吞吐率性能,按照场景需求按需供给计算资源。这也带来了新的挑战:存储网络访问性能要求更高、潜在引入两层调度造成资源利用率低、原有大数据系统的迁移成本高,但是瑕不掩瑜,并且随着技术的进步,相信这些问题都是可以不断解决的。

所以云原生到底是如何跟大数据结合的呢?

MPP 体系的原生化 – 以 Greeplum (GP) 为例。容器化封装 GP 实现平台移植性和依赖管理,并由 Kubernetes 管理 GP 容器实现高可用性和弹性,同时 Kubernetes Operator 实现运维管理自动化。因此,通过 Kubernetes 来运行 GP,可以实现分钟级别按需部署,跨平台一致的可复现体验;资源共享、知识复用、高效运维实现总体成本的降低;预制不可篡改的软件镜像、内置安全加固等最佳配置;资源隔离、健康检查与自恢复能力保障平台稳定性;计算存储分离,实现基于云平台的高度自动弹性扩展等优势特性。

Hadoop 体系的原生化 – 以 Spark 为例。Google 在 2016 年发起了 「apache-spark-on-k8s」项目,推动 Spark 与 Kubernetes 的融合,并于 2018 年正式合并到主版本,而后在 Spark 2.3 发布。使用 Kubernetes 来运行 Spark,可以通过统一平台进行高效的标准化管理,因为数据分析的全流程中大部分都已经容器化。同时,Spark 应用的资源与其他应用的资源共享,实现了集中式资源调度。而且利用 Kubernetes 的技术能力可以快速实现多租户隔离、资源配额管理、RBAC 等高级集群管理能力,并能充分利用活跃的 Kubernetes 生态,比如监控、日志等,还能通过 Kubernetes 在不同云提供商之间实现跨云迁移。

云原生大数据的技术价值毋庸置疑,但是如何才能真正走向企业客户,实现业务价值呢?

作为云原生领域的创新领导者,「DaoCloud 道客」基于社区深厚的技术积累,推出了云原生大数据中台解决方案,打造一站式云原生大数据智能平台,提供覆盖分布式基础设施、数据集成、数据开发、数据运营、数据智能等多功能模块的数据开发及服务能力。方案以云原生技术为底座,实现存算分离、弹性调度、更好的资源隔离等能力,也支持混合云等多种异构环境部署,保障业务的灵活性,帮助企业快速实现业务目标。提供可插拔的数据引擎服务,可根据业务需求在数据处理时编排引擎处理模式及定制化开发。实现了自助化数据开发、自动化数据发布、智能化数据安全,提升大数据平台服务的易用性和便捷性。同时,采用湖仓一体,批流一体等先进大数据架构,满足客户在新的业务挑战下对各类型数据存储、实时处理的需求。并且,「DaoCloud 道客」还提供数据治理咨询服务,帮助客户构建数据中台,同时配合方案体系中顶层的应用与专家服务,真正意义上帮助客户实现数据战略。

总的来说,这套解决方案既可以帮助客户构建一个完善的数据平台,也可以进阶成为数据中台。最大的特点就是,全部产品模块与计算引擎,都是容器化、云原生化、模块化的。很多企业或多或少都已经在使用一些大数据产品,而这种松耦合的模块设计,可以灵活地嵌入与优化其原有的平台体系,尽可能地减少升级替换所带来的成本和影响

02 数据中台与技术方案

大数据是:无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,具有容量大、速度快、价值低、多样性的特点

大数据萌芽于 20 世纪末,21 世纪初迎来迅猛的发展,短短十年时间,日增数据量达 TB(百亿),甚至 PB(1024TB) 。2010 年后,整个信息化 (Information Technology) 时代逐步迈入了数字 (Data technology) 时代,各国都在从政策层面积极布局大数据战略,从事大数据的社会资源逐年增加,并已有不俗的成果。

因此,如何管理并利用爆炸式增长的数据,既是机遇也是挑战。

在数据和业务中横亘着三座大山,数据找不到、不敢用、不会用。《哈佛商业评论》之前的一篇文章指出,人们将 80% 的时间用于数据准备,而分析数据所用的时间仅占 20%。大数据就像一个还未被完全开发的矿山,想要真正实现数据赋能业务,需要从四个方面破局

1. 用户如何快速、准确地发现和使用最合适的数据?

2. 在资源受限时,如何识别出重要的数据,重点保障业务使用、提升数据服务质量?

3. 升级公司数据文化,如何让各部门都有参与感,部门各自价值怎么体现?

4. 从全局来看,公司是否有管理的抓手?数据资产是否可运营?是否有全局一盘棋的视野。

数据中台正是帮助企业挖宝的手段,是一套可持续 “让企业的数据用起来” 的机制,一种战略选择和组织形式,依据企业特有的业务模式和组织架构,通过有形的产品和实施方法论支撑,构建一套持续不断把数据变成资产并服务于业务的机制;简单来说就是提取各个业务的数据,统一标准和口径,通过数据计算和加工为用户提供数据服务。从下图可以看到,数据中台的整个产品体系,覆盖了从数据集成、存储、治理、计算、服务的过程。

从数据中台的具体应用来看,主要包含以下几个方面:首先,通过数据集成的工具,将业务侧多路异构数据统一汇聚到中台里面,这个过程可能会涉及数据的离线开发,实时开发、算法开发,还有智能调度等等。接着,在数据中台内,按照数据仓库的方法论构建相应的主题库,如信用、用户、产品等。然后是数据的资产管理模块,包括原数据标准、数据质量,数据生命周期等,用于数据资产治理。在数据中台最上端,由数据服务体系向上层的各个生产系统去提供一些应用,如向管理层提供一些数据的决策类支持,由数据大屏、驾驶舱来组成这些内容。另外也可以对上层业务的一些创新应用,提供一些更好的数据支撑。数据安全管理肯定是必不可少,此外整个中台还可以构建一个运营管理的体系,负责产品运营的用户,可以在中台之上去做一些数据运营、产品运营相关的工作。

更多方案的技术和内容详情,可观看回放了解,已为大家提供直播回放和演讲 PPT,以及点我技术交流。

在此感谢大家的积极参与,我们将继续为大家带来更多更好的内容。

本次活动的纪念品将陆续寄出,希望大家每期都能有所收获,我们下期再会。

直播回顾 | 论道原生:云原生大数据建设实践相关推荐

  1. 37手游云平台基于Flink+Hologres大数据建设实践

    本文整理自37手游大数据平台资深开发工程师史飞翔在实时数仓Workshop · 广州站的演讲.主要内容包括: 37云平台大数据建设背景 37云平台大数据建设方案 应用实践 未来规划 作者:史飞翔 37 ...

  2. 传统银行业务的数字化转型-中原银行大数据建设实践

    在以"场景赋能·驱动有数"为主题的神策 2018 数据驱动大会现场,中原银行刘远东发表了名为<传统银行业务的数字化转型-中原银行大数据建设实践>的主题演讲,以下内容根据 ...

  3. 欢迎高校选修云创大数据免费在线直播课!

    当下,我国大数据产业正在从起步阶段步入黄金期,我国已成为数据资源大国.据媒体报道,大数据人才空缺,为十大高薪职业之一,供求比超过1:14.随着来自政策.技术以及市场等各方面的力量推进,大数据产业的发展 ...

  4. 欢迎高校使用云创大数据的高质量大数据和人工智能免费直播授课!

    当下,我国大数据.人工智能产业正在从起步阶段步入黄金期,我国已成为数据资源大国.据媒体报道,我国大数据人才空缺,为十大高薪职业之一,供求比超过1:14.同时,我国人工智能人才的供求比例仅为1:10,人 ...

  5. 【推荐】2020,2021网易数字+大会(云原生微服务+大数据数据库+网易AI实践集合+其他) - (共187份)

    [推荐]2020,2021网易数字+大会(云原生&微服务+大数据&数据库+网易AI实践集合+其他) - (共187份) 下载地址:https://download.csdn.net/d ...

  6. Hadoop势微,云原生上位——传统大数据平台的云原生化改造

    以Hadoop为中心的大数据生态系统从2006年开源以来,一直是大部分公司构建大数据平台的选择,但这种传统选择随着人们深入地使用,出现越来越多的问题,比如:数据开发迭代速度不够快,集群资源利用效率过低 ...

  7. 已有123所大学将云创大数据人工智能免费直播课引入课堂!

    4月28日,云创大数据正式发文公布了云创大学可以为高校提供高质量免费直播授课的通知.消息一经发出,受到各高校的积极反馈.截止到目前,已有123所大学将云创的大数据人工智能免费直播课引入课堂. 从5月2 ...

  8. 2 月 25 日,论道京城 | 云原生开源项目应用实践报名开启

    在数字化转型的浪潮中,云原生已经逐渐成为人们关注的焦点.开源社区作为云原生技术创新的根据地,为云原生的产业发展打造了丰富的技术生态圈,也在广泛的实践中源源不断地创造着新的机遇. 想知道云原生存储技术实 ...

  9. 【回顾】云创大数据地震事业部成立

    2016年12月5日,云创大数据地震事业部宣布正式成立.此后,地震事业部将依托地震数据管理与服务平台,基于地震的现存数据.历史数据.实时增量数据,进行地震监测与预警:平台不仅提供有效存储和管理的基础技 ...

最新文章

  1. cad能整体比例缩小吗_手机玻璃背板直接整体变色你能想象吗?有厂商已经做到了...
  2. MyBatis 相同事物查询缓存问题
  3. PyCharm安装及使用
  4. wxWidgets:将 PNG 图像文件包含到可执行文件中
  5. windows和linux互传文件,用户配置文件和密码配置文件,用户和组管理
  6. gvim e303 无法打开 “[未命名]“的交换文件,恢复将不可能
  7. 万元奖金 , 百万流量 , 助你成为CSDN超级红人 !
  8. ValueAnimator 使用注意事项
  9. WPF与输入法冲突研究之三:韩文输入法在不同平台,WinForm/WPF下的区别
  10. css flex 之 flex-grow | flex-direction
  11. 判断一个整数是否为2的方幂
  12. Backpropogation反向传播公式推导【李宏毅深度学习版】
  13. XShell安装配置教程
  14. 求一元二次方程的解法c语言,有什么方法求一元二次方程求解決一元二次方程的解法要详细...
  15. 解决连接远程服务器MySQL“ACCESS DENIED FOR USER‘ROOT‘@‘IP地址‘“问题
  16. note 8 字符串
  17. 使用powershell Client进行有效dy
  18. MICHAEL KORS推出全新标志性智能腕表:Runway系列智能腕表
  19. 干货来了 | SQL 进阶技巧
  20. MinIO客户端mc使用

热门文章

  1. mib browser无法接收snmp trap消息解决
  2. Delphi如何使用最新版本的OpenSSL
  3. cadence 原理图orcad使用总结篇二:FPGA/CPLD换PIN方法
  4. c语言中5l是数值或字符常量,C语言中什么叫做正确的数值或字符常量?
  5. matlab x(n)16点DFT,[基于MATLAB的数字信号处理实例分析.doc
  6. SQL SERVER 2012安装
  7. 2016太原网络营销师郭文军【运城】讲解事件营销掌握的重点?
  8. 11 个简单的 Java 性能调优技巧
  9. Source Insight4.0 仿真sublime text主题配色
  10. android百度地图定位到非洲,解决办法