允中 发自 凹非寺
量子位 编辑 | 公众号 QbitAI

10月23日数据湖高峰论坛上,阿里巴巴集团副总裁、阿里云智能数据库产品事业部负责人、达摩院数据库与存储实验室负责人李飞飞表示:“云原生作为云计算领域的关键技术与基础创新,正在加速数据分析全面进入数据库大数据一体化时代”。

 阿里巴巴集团副总裁、阿里云智能数据库产品事业部负责人李飞飞

他表示,随着数字化转型进程深入推进,企业的数据存储、处理、增长速度发生了巨大的变化,传统数据分析系统在成本、规模、数据多样性等方面面临很大的挑战。云计算的发展正在加速推进数据分析系统进入“数据库大数据一体化”时代,以更好得帮助企业加速迈入数字原生时代加速业务数智化。

传统数据分析系统和技术面临巨大挑战

近年来,企业数据需求呈现出海量、数据类型多样化、处理实时化、智能化等新特点,对数据分析系统提出了弹性扩展、结构化/半结构化/非结构化海量数据存储计算、一份存储多种计算及低成本等核心诉求。

而传统商业化数据仓库及大数据技术,因存在扩展性、建设维护成本、系统复杂读等一系列挑战,无法很好得满足业务诉求。例如,大量企业需要对数据进行离线ETL计算、机器学习及多维度查询分析等多种计算时,使用大数据技术或传统数据仓库,企业需要组合使用多种技术产品,通过复杂的数据集成、数据冗余来满足多样的计算诉求,整个技术架构复杂且数据冗余成本高。

云原生重构数据处理架构,加速向“数据库大数据一体化”演进

针对企业面临的分析困境,是否有一种新型数据分析技术和架构能够高效解决海量数据深度计算分析的业务诉求?答案是肯定的,李飞飞表示,下一代数据分析演进方向是“以云原生为基础,在离线一体化技术融合,实现数据库大数据一体化”。

随着云计算的发展,计算存储解耦、资源池化、Serverless、流批一体等核心基础技术正在加速数据分析系统向“数据库大数据一体化”演进。“数据库大数据一体化”的云原生数据分析系统能够很好得提供弹性扩展、海量存储、多种计算及低成本等能力,有效解决海量数据深度计算分析的业务分析和创新诉求。

其实,“数据库大数据一体化”也是业界近年的发展趋势,Gartner及业界多个产品都在朝这个趋势演进:

  • Microsoft SQL Server 在2018年9月发布的SQL Server 2019预览版中宣布通过深度集成Spark与Hadoop提供端到端的数据处理解决方案。

  • AWS Redshift及Snowflake均提供离线ETL处理、多维度交互式分析、实时增删改查的一体化的产品能力。

同时,2019年6月,全球知名咨询公司Gartner发布了一篇名为“There is only one DBMS Market“的报告,报告指出过去,因为性能需求不同,根据业务场景按照分析型和交易型需求,需要独立发展OPDBMS和DMSA,而未来分析型和交易型数据操作对技术架构依赖性会更小,将不再需要独立区分OPDBMS和DMSA,未来通过一体化的数据处理技术即可满足绝大部分诉求。

从技术架构演进过程来看,数据处理发展经历了四个重要阶段:

  • 60年代,关系数据库之父E.F.Codd博士提出了关系模型,促进了联机事务处理(OLTP)的发展,诞生了如Oracle、DB2等数据库帮助核心业务如银行实现在线交易的普及。

  • 1993年,关系数据库之父E.F.Codd博士提出多维数据库、多维分析的概念以及十二条准则,认为OLTP已不能满足终端用户对数据库查询分析的性能需求,SQL对大型数据库进行的简单查询也不能满足终端用户分析的多样性要求,促进了在线分析处理(OLAP)的发展,出现了MOLAP(Multidimensional OLAP)、ROLAP(Relational OLAP)、HOLAP(Hybrid OLAP)计算模型和引擎,诞生了如IBM Cognos、Oracle Essbase、Greenplum等数据仓库帮助业务实现海量数据存储、建模、业务分析探索的普及。

  • 2003~2006年,Google发表《The Google File System》、《MapReduce:Simplified Data Processing on Large Clusters》、《Bigtable:A Distributed Storage System for Structured Data》三篇海量数据存储、处理重要论文,促进了大数据技术的飞速发展,诞生了如Hadoop HDFS、Hadoop MapReduce、Tez、HBase、Spark、Flink等为代表的分布式文件系统、分布式计算框架、分布式宽表存储系统,加速了大数据应用向5V(Velocity、Volume、Variety、Value、Veracity)方向发展和普及。

  • 2012年至今,随着云计算的发展,云计算的资源池化、存储与计算弹性扩展等基础设施升级以及计算存储分离、在离线一体化等技术创新,促进了数据处理开始朝一份数据开放计算、存储计算分离的云原生方向演进,诞生了如Snowflake、AWS Redshift、AWS Aurora、AWS Athena为代表的新一代云原生数据库、数据仓库、数据湖,加速了数据处理向在线化、在离线一体化、结构化与非结构容和处理演进,加速业务走向数字化、数智化创新的新形态。

李飞飞表示,“数据库大数据一体化”的数据分析系统应该具备如下特征:

1、云原生,数据分析系统需要支持强大的弹性扩展能力,根据业务负载动态扩展计算资源,提供大规模数据处理能力,有效满足数据分析性能诉求的同时,降低分析成本。

2、一份存储多种计算,数据分析系统必须支持在一份存储数据上兼容多种计算,包括实时增删改查、多维度交互式分析、离线ETL及机器学习。通过一份存储支持多种计算的特性,避免了数据计算过程中的数据搬迁,简化了数据分析过程,降低分析成本。

3、海量存储,支持结构化、半结构化及非结构化数据库的存储及计算。随着IOT/移动网络的发展,半结构化/非结构化数据占比越来越高,数据分析系统需要支持这些数据的低成本存储及计算,助力企业充分挖掘并发挥数据价值。

4、全面兼容数据库生态,数据分析系统需要提供并兼容数据库接口协议,且支持数据库上下游生态,降低数据分析门槛,让开发人员会数据库就会大数据。

基于“数据库大数据一体化”的演进趋势,阿里云推出了以云原生数据仓库AnalyticDB及云原生数据湖分析DLA为核心的云原生数据分析系统。深度融合数据库及大数据技术,为企业提供一体化的数据接入、数据存储、数据计算及数据分析解决方案,让会数据库的用户就会大数据。

云原生数据仓库AnalyticDB让开发人员“会数据库就会大数据”

为满足企业计算分析多元化的诉求,阿里云于2013年开始研发并推出云原生数据仓库AnalyticDB。基于云构建,秉承“数据库大数据一体化”的理念,AnalyticDB为用户提供了新一代的数据分析系统,有效解决当前企业数据分析痛点。AnalyticDB具备如下优势:

  1. 离在线一体化,AnalyticDB提供离线ETL及多维度交互式分析的多样化计算能力。通过存储服务化、MPP+DAG混合计算引擎及混合负载调度等技术,实现一份数据多种计算的能力。且基于智能索引、智能优化器及行列混存等技术,复杂SQL的查询速度相较于传统的数据分析系统快10倍以上。

  2. 云原生,AnalyticDB通过存储计算分离及存储服务化等技术,实现了计算与存储的独立自由弹性。AnalyticDB可以根据业务负载变化动态扩缩计算资源,满足企业数据分析性能诉求的同时,有效控制分析成本。同时,存储服务化后,按存储量付费。

  3. 海量存储,AnalyticDB通过分布式存储、存储服务化及向量计算等多种技术,可以支持结构化、半结构化及非结构化海量数据的存储。同时,AnalyticDB支持冷热数据分层存储。企业可以根据业务的使用情况,做表/分区级别的冷热分离存储,通过对低频访问的冷数据提供低价存储,对于频繁访问的热点数据,采用ESSD存储满足高性能访问,进而保障访问性能的同时,优化整体数据存储成本。

  4. 兼容数据库生态,不同于复杂、高门槛的大数据体系,AnalyticDB高度兼容MySQL、PostgreSQL及Oracle。兼容数据库的客户端及上下游生态,降低数据分析门槛,让开发人员会数据库就会大数据。

  5. 一键建仓,AnalyticDB提供一键建仓功能,企业可以通过一键建仓功能轻松得将数据库及日志数据实时集成至AnalyticDB。

与传统数据分析系统最大的不同是,AnalyticDB基于“数据库大数据一体化”的技术架构,为用户提供一体化的数据分析系统,满足多样化的数据分析诉求,让开发人员会数据库就会大数据。

云原生数据湖分析DLA让数据湖分析进入Serverless时代

近几年数据湖的概念很火,数据湖允许以任意规模存储所有结构化、非结构化及半结构化数据,其中的数据主要用于报告、可视化、增强分析及机器学习等场景。为了实现数据湖的数据可分析,需要解决数据湖构建、元数据构建管理及数据计算引擎对接等问题。为此,阿里云2018年开始布局并推出端到端的数据湖解决方案:云原生数据湖分析Data Lake Analytics(简称:DLA),帮助企业快速构建并高效挖掘数据。

云原生数据湖分析DLA,具备四大优势:

  1. 数据湖管理,DLA提供一站式数据湖管理能力,包括元数据发现、管理及变更,全量及增量数据一键入湖。元数据管理功能可以支持OSS/RDS/Hbase/MongoDB等数据源的元数据自动发现、管理及变更。同时,内置Apache hudi, DLA支持增量数据分钟级入湖,助力企业构建准实时数据湖。

  2. 一份存储多种计算,DLA提供了Presto、Spark两种计算引擎,满足多维度交互式分 析、离线ETL、机器学习等多种计算能力。针对Presto,DLA在资源隔离、高可用及元数据库权限隔离等方面做了极大增强,保障服务稳定性及可靠性。同时,对于Spark计算引擎,DLA实现了数据缓存、元数据访问优化及文件上传优化等,保障计算性能,据测试,在Spark典型ETL Benchmark Terasort,1TB输入数据量的场景下,相较于自建spark,DLA性能提升163%。

  3. Serverless计算分析,DLA基于容器及多租户隔离等技术,提供完全Serverless的计算能力。DLA可以根据Spark Job或Presto SQL动态扩缩计算资源,一分钟可拉起300个计算节点。用户只需按实际运行作业付费,计费精确至秒级,相较于自建系统,性价比提升300%,大大提升数据分析性价比。

  4. 数据库生态兼容性,DLA 完全兼容MySQL的JDBC,兼容MySQL的客户端及上下游生态,降低数据分析门槛,让开发人员会MySQL就会大数据。

到企业中去

阿里云AnalyticDB与DLA自上线以来,已覆盖游戏、广告、文旅、零售、金融、数字政府、运营商等众多行业的企业客户,且覆盖阿里巴巴集团的所有核心业务。据介绍,Yeahmobi利用DLA进行广告业务数据的深度挖掘分析,实现时间、成本、安全、计算效率等方面的优化,综合成本降低大约50%。某大型物流企业,通过AnalyticDB构建企业数据仓库,实现离在线一体化分析架构,支持 2PB数据的存储计算,分析性能大幅提升10倍,实现分析实时化。

未来数据分析系统将全面进入“数据库大数据一体化”时代,阿里云AnalyticDB及DLA将秉承“数据库大数据一体化”理念,持续打造云原生、一体化的数据分析能力,助力企业加速迈入数字原生时代。

每天5分钟,抓住行业发展机遇

如何关注、学习、用好人工智能?

每个工作日,量子位AI内参精选全球科技和研究最新动态,汇总新技术、新产品和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。

同时,AI内参群为大家提供了交流和分享的平台,更好地满足大家获取AI资讯、学习AI技术的需求。扫码即可订阅:

加入AI社群,与优秀的人交流

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

鱼和熊掌可以兼得,云原生开启“数据库大数据一体化”新时代相关推荐

  1. 【推荐】2020,2021网易数字+大会(云原生微服务+大数据数据库+网易AI实践集合+其他) - (共187份)

    [推荐]2020,2021网易数字+大会(云原生&微服务+大数据&数据库+网易AI实践集合+其他) - (共187份) 下载地址:https://download.csdn.net/d ...

  2. Hadoop势微,云原生上位——传统大数据平台的云原生化改造

    以Hadoop为中心的大数据生态系统从2006年开源以来,一直是大部分公司构建大数据平台的选择,但这种传统选择随着人们深入地使用,出现越来越多的问题,比如:数据开发迭代速度不够快,集群资源利用效率过低 ...

  3. 李飞飞:云原生分布式数据库面临哪些机遇与挑战?

    简介:12月3日,由阿里云CIO学院主办的[2020中国企业数字创新峰会]在杭州举行.400位企业CEO.CTO.CIO齐聚一堂,共同探讨企业数字化转型经验.阿里巴巴集团副总裁.达摩院数据库首席科学家 ...

  4. 小米造车未有定论,鱼和熊掌可否兼得?

    [CSDN 编者按]造车,造车,全世界都在造车!百度造车大热之后,雷布斯也有加入的趋势.小米模棱两可的回应让人遐想联翩.给我的感觉是,造车行列小米肯定是要加入的,关键是啥时候正式立项,从哪些方面着手- ...

  5. 鱼和熊掌可兼得,高定制+低成本的知识管理系统

    编者按:本文从企业选择知识管理系统的困境出发,介绍了企业的两种需求,并提出了天翎KMS可以同时满足企业的这些需求,具有高定制和低成本的特点. 概要: (1)"鱼"和"熊掌 ...

  6. 华为1288v2服务器做系统6,鱼和熊掌可兼得—华为RH1288 V2服务器

    [IT168 资讯]华为Tecal RH1288 V2 (简称RH1288 V2)是华为新一代1U双路机架服务器,支持2个Intel® Xeon® E5-2600系列处理器,最大可配置768GB内存和 ...

  7. 解《鱼和熊掌不可兼得》

    鱼和熊掌不可兼得 以下言论是本人扮演角色的个人言论,与本人无关 想必各位肯定知道"鱼和熊掌不可兼得"这件事,当年上学的时候学了而已,看了看译文,如果说有人问你:鱼和熊掌为什么不可兼 ...

  8. 鱼和熊掌可以兼得——矛盾在管理艺术下的和谐

    内容: 在企业经营管理中,我们不可避免地会遇到速度与质量,先进与稳定,质量与数量等诸多两难问题.面对矛盾冲突,我们又往往不加思索地认为:鱼和熊掌是不可兼得的.比如为了速度只有"暂时" ...

  9. OpenCL/DirectX与CUDA,鱼和熊掌可以兼得?

    OpenCL/DirectX 与 CUDA ,鱼和熊掌可以兼得? 什么是 OpenCL ? OpenCL ( Open Computing Language )是一个为异构平台( CPU . GPU ...

最新文章

  1. 红米 Note3 (kenzo)刷入 Lineage OS
  2. [Python从零到壹] 三十七.图像处理基础篇之图像融合处理和ROI区域绘制
  3. 微信应用号(小程序)资源汇总(1010更新)
  4. Mysql安装和常用命令及问题汇总
  5. Rolling cURL: PHP并发最佳实践
  6. 各数据类型的取值范围及占用字节数。。
  7. linux 文件查找
  8. 关于token和refresh token
  9. php解析bt,php读取BT文件信息lightbenc.php库使用说明
  10. 狂神说SpringCloud学习笔记
  11. linux下安装weblogic出现的两个错误解决办法
  12. possible formatting directive
  13. 游戏一直被攻击掉线卡顿是什么原因?服务器被攻击怎么办?
  14. 8.论文学习Liver Tumor Segmentation and Classification: A Systematic Review
  15. (一)Ubuntu安装详细教程(从镜像制作到NVIDIA驱动安装全流程)——超详细的图文教程
  16. MySQL数据库基本语法,数据库设计,事务,多表查询及练习题
  17. UTF8中文编码范围
  18. 【无标题】在 VirtualBox 上安装 macOS Big Sur 和 Catalina
  19. java计算身体质量指数
  20. 最新版谷歌浏览器每次都要设置允许网站使用flash的解决方法

热门文章

  1. 当用户将鼠标悬停在列表项上时,使光标成为手
  2. 微信小程序制作-随笔2
  3. Racktables(一)的资产管理软件安装配置
  4. myeclipse文件目录自动定位(右编辑界面点击 左边Package Explorer导航自动定位)...
  5. 使用 NLTK 对文本进行清洗,索引工具
  6. php分享表单提交到本页的实例
  7. PYTHON高级全栈开发工程师-老男孩教育
  8. 12.3、Libgdx的图像之截屏
  9. MyBatis框架学习 DAY_02:使用XML配置文件/多参数问题 / FOREACH /IF / #{}和${} / 创建SSM框架流程
  10. 微信多开txt_微信仅需3步操作,就能多开登录?手把手包教包会