作者:阿里云计算平台事业部产品解决方案总经理 陈立(本文为作者在 StarRocks Summit Asia 2022 上的分享

天下武功唯快不破。互联网公共云、金融和企业的各类型客户目前在风控、营销、推荐等行业对于数据分析的时效性提出了更多的要求。实现高时效数据查询分析对技术的管理运维成本,尤其给开发团队的技能提出了更高的挑战。

在数字经济时代,客户的业务发展也更依赖于数据分析和数据决策。高度的数据决策提升业务正向增长的概率是普遍的客户诉求。从战略蓝图规划,到月度/季度的管理决策,再到实时根据业务的进展和阶段性结果做出快速的反馈和调整,是数字企业重要的标志和价值。

不同类型的客户有他们自己的业务优先级和重点,客户正利用数字化转型和 IT 建设将每一个传统的项目以产品化的方式去推动。阿里云的数据湖演进也是基于市场和客户的普遍诉求来一步步进阶的。

#01

阿里云数据湖演进之路

2019 年以前,是阿里云数据湖 1.0 时代。

存储上:存算分离,冷热数据分层,以 Apache Hadoop 的生态为主;

管理上:无官方管理服务,需要用户自行处理扩缩容和磁盘运维等管理工作;

计算上:初步实现计算云原生化,缺乏计算弹性及多样性。

2019 年到 2021 年,是阿里云数据湖 2.0 时代。

存储上:以对象存储为中心,统一存储承载生产业务,大规模、高性能;

管理上:提供面向 OSS/EMR 等垂直湖管理系统,缺乏产品之间的联动;

计算上:计算弹性化,根据客户的业务负载进行计算的快速伸缩。

2021 年开始,已经到了阿里云数据湖的 3.0 时代。

存储上:以对象存储为中心,构建企业级数据、全兼容、多协议统一元数据管理;

管理上:面向湖存储+计算的一站式湖构建和管理,做到智能“建湖”和“治湖”;

计算上:实现云原生、弹性化,同时实现实时化、AI 化和生态化。StarRocks 是阿里云在数据湖 3.0 云原生化、弹性化、实时化的重要产品之一。

#02

阿里云&StarRocks:共建数据湖 3.0

2021 年 9 月,阿里云EMR 和 StarRocks 开始正式合作。2022 年 3 月,阿里云EMR StarRocks 正式发布。2022 年 5 月,伴随着 StarRocks 2.2.0 版本的发布,阿里云EMR StarRocks 2.2.0 也同步发布,支持数据湖分析功能。在 2022 年 7 月,阿里云EMR StarRocks 2.3.0 和 StarRocks 2.3.0 同时发布,支持实时计算入湖的能力。2022 年 8 月,阿里云北京数据湖 Workshop 和 StarRocks 进行了联合分享。

阿里云作为中国第一家云托管 StarRocks 的服务厂商,拥有国内当前最成熟的云上 StarRocks 解决方案,已为数以百计的阿里云用户提供了服务。从技术合作共建的角度来看,阿里云深度参与了 StarRocks 社区共建,从 Committer 到 Champion 到 Contributor,已贡献代码数万行。

同时阿里云开源大数据团队深度参与社区共建的产出有以下几个:第一个是降低了客户使用门槛,提升了产品易用性及产品体验感觉,第二个是实现了集群的高效管理。在开放的 Lakehouse 和湖仓一体上,我们也以技术合作的方式贡献了自己的能力,与 StarRocks 一起去完善了部分功能。我们在实时数据导入及分析、多表物化视图、ETL Load 和 Transformation 等方面都做了相关技术工作。

#03

阿里云EMR StarRocks:多场景的高效数据分析 

阿里云EMR StarRocks 有以下几个特点:

1. 与阿里已有的存算分离产品进行了高度的技术融合,例如数据湖构建 DLF、Jindo FS、Jindo Data 和 OSS 等。实现智能化的运维管理平台,完备集群管理功能,利用智能化的运维工具及时诊断数据湖和 StarRocks 的一些运维和使用问题。

2. 实现云上生态对接,包括 DataWorks 数据治理平台,全托管 Flink 实时计算做到了无缝集成。

3. 支持云原生弹性扩缩容,削峰填谷,帮助客户更好的节约计算成本。

4. 支持多种数据的导入方式,支持 OLAP 查询热数据等场景。

阿里云的云原生数据湖整体架构今年主要有“四个一体化”:大数据和 AI 一体化、湖仓一体化、实时离线一体化和流批一体化。“四个一体化”的引擎之上,是大数据开发建模治理平台 DataWorks。在 4+1 的产品形态之下,我们与 StarRocks 在统一的存储与服务、高效的存算分离数据分析能力和多种多样的数据格式等三个方面进行了深度的融合与合作。

1、高效的数据分析能力 

在高效的数据分析能力层面,我们在 Lakehouse 分析场景下,通过 StarRocks 全面的向量化执行引擎优势,更智能的优化器来显著提升 TPC-H 100G 的性能。和业界开源的 Trino 相比,StarRocks 2.1 的 Hive external 查询速度都有 1.7-2.2 倍的提升。

在 SSB 的性能测试方面,我们也构建了三个阿里云EMR 集群来做性能对比,测试结果如下:

1. 在标准测试数据集查询上,ClickHouse 的整体查询时间是 StarRocks 的 1.7 倍,Apache Druid 的整体查询时间是 StarRocks 的 2.2 倍;

2. 在 StarRocks 启用 bitmap index 和 cache 的情况下,性能更胜一筹,尤其在 Q2.2、Q2.3 和 Q3.3 上有显著提升,整体性能是 ClickHouse 的 2.2 倍、Apache Druid 的 2.9 倍。

2、重点客户实践案例

针对在线教育客户,每天可能存在几十亿条数据量,涉及订单变更、特征人权筛选和机器学习训练等各个方面的业务需求。实时数据湖架构做到了以下功能:

1. 支持 Upsert 场景;

2. 热数据导入 StarRocks,订单实时分析,实时大屏;

3. StarRocks 物化视图提供 BI 系统实时查询能力;

4. StarRocks 直接查询外表湖数据,保持技术栈统一的同时提升了效率。

针对社交领域的客户,其每天可能存在 5TB 的数据规模,还有数据画像大宽表、业务系统点查、业务人员随机查询等需求。我们的实时数据分析方案通过 StarRocks 做到了统一架构,方便运维,自动平衡数据。在用户画像场景,大宽表可以局部更新,避免多流 Join,提高效率和性能。

针对电商领域的客户,我们利用 StarRocks 统一 OLAP 引擎,满足其 GMV 订单、物流、客户分析、推荐系统、用户画像等各个业务场景需求。我们支持数据离线导入,实时导入。同时运维简单,MySQL 协议对接各类 BI 工具,实现了技术上的进一步创新和业务洞察。

阿里云今年主要是 Back to Basic,做好基础技术工作,提升客户体验感。对于阿里云和 StarRocks 在大数据领域的合作,我们希望做到 High scale-Low touch,主要有以下几个方面:第一个是云原生存算分离,增强云原生集成能力;第二个是增量物化视图,增强湖仓分析实时性;第三个是通过 Serverless 实现更轻量级的云原生方案。

#04

总结与展望

阿里云是云计算的基础设施。我们的大数据和人工智能团队、计算平台事业部,作为在大数据和人工智能领域的产品承载方,希望和更多的开源社区一起吸引更多的用户,同时希望能够与更高性能、更高弹性和更低运维投入的客户一起实现合作共赢,从而为行业和企业客户提供更好的支持。

关于 StarRocks 

面世两年多来,StarRocks 一直专注打造世界顶级的新一代极速全场景 MPP 数据库,帮助企业建立“极速统一”的数据分析新范式,助力企业全面数字化经营。

当前已经帮助腾讯、携程、顺丰、Airbnb 、滴滴、京东、众安保险等超过 170 家大型用户构建了全新的数据分析能力,生产环境中稳定运行的 StarRocks 服务器数目达数千台。

2021 年 9 月,StarRocks 源代码开放,在 GitHub 上的星数已超过 3400 个。StarRocks 的全球社区飞速成长,至今已有超百位贡献者,社群用户突破 7000 人,吸引几十家国内外行业头部企业参与共建。

峰会回顾 | 阿里云与StarRocks合作、开放、共赢相关推荐

  1. 【图文】云栖大会深圳峰会:阿里云ET医疗大脑与工业大脑,机器学习平台PAI2.0...

    阿里云新征程:通往智能之路!正式发布ET工业大脑,ET医疗大脑和机器学习平台PAI2.0,阿里云的目标是成为万物智能化的基础设施和智能引擎! 2017年3月27日至29日,云栖大会于深圳举行.29日为 ...

  2. 一文回顾阿里云弹性计算云栖大会精彩看点

    简介:10月22日,2021年的云栖大会圆满落幕,阿里云弹性计算团队在大会上星光熠熠:第四代神龙架构重磅亮相.无影云电脑全新升级.视觉计算解决方案发布--本文为您总结了阿里云弹性计算产品线在本次云栖大 ...

  3. 技术内幕 | 阿里云EMR StarRocks 极速数据湖分析

    作者:阿里云智能技术专家 周康,StarRocks Active Contributor 郑志铨(本文为作者在 StarRocks Summit Asia 2022 上的分享) 为了能够满足更多用户对 ...

  4. SAP与阿里云的深度合作 为企业提供领先的SaaS 服务

    云栖号案例库:[点击查看更多上云案例] 不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策! 什么是企业IT治理? 企业IT治理是对企业中IT资源的合理规划和分配,以期 ...

  5. 精诚合作 共创未来——阿里云数据智能合作策略介绍

    摘要:本文的整理自2017云栖大会-成都峰会上阿里云高级专家邹冕的分享讲义,讲义主要讨论了三个方面,首先概述阿里云大数据生态概览,然后阐明阿里云合作,最后就如何成为阿里云大数据合作伙伴进行讲解. 在2 ...

  6. 联手三年,获取数千名客户,阿里云如何重构 Elastic 开放免费的技术?

    作为一个发展迅速的搜索和数据分析软件公司,Elastic 的核心产品 Elasticsearch 全球下载量已达数亿次,其中有大量下载是在中国.如此体量的产品也体现出其不容小觑的商业价值.2014 年 ...

  7. 联手三年,获取数千名客户,阿里云如何重构Elastic开放免费的技术?

    作者 | 王金许 出品 | CSDN(ID:CSDNnews) 作为一个发展迅速的搜索和数据分析软件公司,Elastic 的核心产品 Elasticsearch 全球下载量已达数亿次,其中有大量下载是 ...

  8. “开放,合作,共赢”鸿翼云生态大会 携手华为、深信服、派拉、天空卫士发布多款生态解决方案

    鸿翼云生态大会于上周正式落下帷幕,这场以"开放,合作,共赢,构建内容管理全价值链--助力政企数字化转型"为主题的盛会,不仅得到了政府.学界.各路专家的支持,更有鸿翼携手众多合作伙伴 ...

  9. 水滴筹基于阿里云 EMR StarRocks 实战分享

    摘要:水滴筹大数据部门的数据开发工程师韩园园老师为大家分享水滴筹基于阿里云EMR StarRocks的实战经验. 本篇内容将会围绕以下五个方面展开: 公司介绍 StarRocks 概览 场景实战 最佳 ...

最新文章

  1. 怎么做网络营销在网站优化中能快速提升搜索引擎信任的方法!
  2. (转载)linux下输入输出重定向和管道符
  3. Directory lookup for the file xxx.mdf failed with the operating system error 2
  4. 搭建通用性多用户后台-思路
  5. 【JavaScript高级程序设计】读书笔记之一 —— 理解函数
  6. Hyperledger Fabric 核心模块(5)peerer共识
  7. Android类库介绍
  8. python 编程刷题_一起刷题吧 | 100+Python编程题带你快速上手(附答案)
  9. Converter使用及其原理
  10. 自定义控件设置宽度_自定义View开篇,必须跨过的一道坎儿
  11. 判断多边形是凹多边形还是凸多边形,以及求凹点
  12. c语言实现文件名随时间变化,WizTree 最好用的磁盘文件分析工具
  13. m725扫描仪无法找到计算机,惠普m725扫描设置指定的网络文件夹路径不存在?
  14. python docx 图片_详解用 python-docx 创建浮动图片
  15. 无人机航测技术的优势有哪些?
  16. 暴雪不管的国服 链游要插手
  17. 媒体对华为不公,国人应该清醒 [转]枯荷雨声
  18. A leaf Variable that requires grad is being used in an in-place operation
  19. mac m1 prometheus安装与启动
  20. java网上书店系统_基于JAVA/JSP的网上书店系统

热门文章

  1. opencv实战——机器视觉检测和计数
  2. 林轩田机器学习基石Lecture 6: Theory of Generalization
  3. 计算机为什么无法访问公司共享文件夹,win10系统共享文件夹无法访问的详细方案...
  4. MySQL统计排序,同分数同排名
  5. 升级mac最新系统macOS Catalina 10.15
  6. ABP实战--集成Ladp/AD认证
  7. 程序员面试之九阴真经
  8. 隐马尔科夫模型(HMM)等文章记录
  9. 计算机英语构词法,计算机专业英语的构词方法论文
  10. 《东周列国志》第七十四回 囊瓦惧谤诛无极 要离贪名刺庆忌