导读:计算和存储分离是近几年大数据架构领域颇受关注的一个技术风向。在对刚刚过去的 2019 天猫双 11 技术进行总结时,阿里巴巴 CTO 行癫也特别提到了阿里在计算存储分离上的进展。大数据最初兴起之时,主流网络带宽只有 100Mb,通过网络远程访问数据实在太慢了。为了解决数据快速访问的问题,Google 创造性地提出了计算和存储耦合的架构,而 Hadoop 延续了这个架构,风光一时无两。但十年过去之后,如今的网络带宽相比当时已经增长了一百倍,达到了 10G 以上,IO 不再是大数据的瓶颈,计算才是。

近日,在InfoQ 对阿里巴巴计算平台资深技术专家胡月军(花名一浪)的采访中,聊了聊阿里搜索与广告引擎的技术演进脉络、阿里新一代交互式分析引擎以及大数据领域近几年的技术趋势和变化。在采访中,胡月军表示:“计算存储分离使存储和计算资源可以各自根据需求进行伸缩,较好地节约了成本,但也给高效引擎的设计与实现带来了不少挑战。”

InfoQ:您曾经负责阿里巴巴多个不同业务线的搜索与广告引擎,能否请您给我们整体梳理一下这几年阿里不同搜索与广告引擎的技术演进脉络?比如可以分成哪些阶段?不同阶段技术上的侧重点有何不同?

胡月军: 近年来,伴随着电商平台商品量的大量丰富,基于实时推荐的智能化运营兴起以及对提升购物体验和促成交持续优化的业务背景下,搜索和推荐的引擎技术也大致经历了三个阶段。第一阶段主要关注点在引擎检索性能的提升,当时我们做了很多关于索引构建、查询流程以及算分等组件的优化来提升引擎的 QPS;随着业务实时化需求越来越迫切,第二阶段我们引擎在在线和离线都做了不少工作,在线引擎实现了内存索引以及辅表关联,离线基于 Flink 孵化了 Blink 的流计算引擎和 Porsche 在线机器学习平台,大大缩短了端到端的处理延迟,大幅提升了搜索和推荐的实时性购物体验;第三阶段引擎的进步主要来自于支持算法的高效迭代和持续提升搜索和推荐的精准性,我们将引擎的召回和算分进行了分离,抽象出了 RankingService 服务,从而支持各种搜索和推荐召回场景的统一打分,同时支持在线深度学习计算,较好地提升了购物体验和成交引导。

InfoQ:阿里云新一代交互式分析产品诞生的背景是什么样的?为什么你们要在阿里的 MaxCompute 大数据计算平台、EMR 开源大数据计算平台、实时计算平台之外再打造一个新的交互式分析引擎?是为了解决哪些问题?

胡月军: 阿里云计算平台交互式分析引擎的高效存储在 16 年就开始研发了。一开始开发交互式分析引擎的目标是为了解决 HBase 的稳定性和性能问题,基于存储计算分离和纯异步的 runtime 我们实现了高性能的存储引擎,上线以后性能是原 HBase 的 3~10 倍。后来基于业务需求,演进成了兼容 PG 生态的大数据实时数仓系统。
它和阿里的其他大数据平台有着不一样的定位:MaxCompute 平台是阿里自研的高效离线数仓系统,主要 focus 在高吞吐的批处理;EMR 平台主要是为了方便公有云上的客户快速搭建自己的开源大数据解决方案;实时计算平台主要关注流处理这块的业务;至于交互式分析,我们主要是为解决实时数据存储和 OLAP 分析的高效即席查询问题,同时实现对 MaxCompute 的离线数仓进行直接查询加速。
这些不同的平台通常会合在一起给客户提供一个完整的大数据解决方案。一个典型的场景是:数据通过 Flink/Blink 进行实时 ETL 处理后写入交互式分析的存储系统,然后用户在交互式分析引擎中进行各种 Ad Hoc 的查询;如果用户需要执行批处理任务,再把数据导入到 MaxCompute 中进行处理;此外,对于已经在 MaxCompute 中的数据,可以使用交互式分析进行直接加速查询。

InfoQ:阿里云的交互式分析产品是否有对标的商业化产品或开源产品?如果有的话,它跟这些对标产品相比,有哪些技术上的差异和亮点?

胡月军: 在业界和阿里云交互式分析对标的一些产品有 Redshift、Snowflake、GaussDB 和 Hermes。阿里云交互式分析的主要技术亮点有:基于存储计算分离的高效行列混合存储,基于 Orca 和支持联邦查询的优化器,纯异步高性能的查询引擎,以及 PG11 生态兼容等特性。

infoQ:近 3 年来,您主要从事存储与计算引擎的设计与研发工作,如果从大数据存储层和计算引擎这两个层面来看,您认为最近这三年有哪些值得一提的新技术或项目?技术趋势上有哪些变化?

胡月军:个人认为近 3 年大数据存储和计算领域比较有意义的新技术就是存储和计算分离的兴起,比如 Snowflake 等,它使存储和计算资源可以各自根据需求进行伸缩,较好地节约了成本,当然这也给高效引擎的设计与实现带来了不少挑战。比如怎么设计专门的存储机型和高效 I/O 实现?怎么优化网络连接?怎么在计算节点 I/O 延迟可能会增大的情况下保证 query 处理的低延迟?
技术趋势上,个人看到的一个趋势就是大家对存储层的重视,比如 Databricks 开源了 Delta Lake,对于阿里云的交互式分析引擎来说底层存储引擎也是一个非常重要的竞争力,事实上只有做好了存储引擎和数据的统一管理才能使得上层的计算更高效和统一。

InfoQ:有观点认为“17-18 年是计算引擎火热的一年,现在这块已经是红海了”,您是否认同这一观点?您认为当前大数据计算引擎处于什么样的发展阶段?市场是否已经饱和?接下来计算引擎这块还有什么值得关注的技术方向?

胡月军: 这两年各种开源的计算引擎确实发展得很快,比如 Flink SQL 的流批统一处理,Spark Structured Streaming 的完善以及 MPP 引擎 Greenplum 的 6.0 的发布。但红海可能还不至于,据我们调查了解,目前很多公司的大数据解决方案还是基于 Hadoop/Hive,新引擎的市场普及度还处于早期阶段。
对于计算引擎本身,个人认为图计算和图像、视频处理的高效支持可能会是值得关注的技术方向。随着当下推荐、信用和安全等需求的兴起,对于关系的存储和处理越来越重要,目前各家引擎对图计算的支持还处在各显神通的阶段,后面的发展值得关注;图形和视频处理带来向量计算应用目前也原来越来广泛,目前已经有几家陆续将自己的技术开源。

InfoQ:计算引擎之外,大数据存储层今年出现了不少热门话题,比如数据湖、实时数仓。您怎么看今年实时数仓和数据湖的火热?

胡月军: 实时数仓的火热本质上还是来自于业务的驱动。当下,智能推荐和精准运营等业务都依赖于对实时数据的快速挖掘。小时级别,或者天级别的数据分析对于很多业务来说再也回不去了。
再说数据湖,当前的数据仓库一般存储的是经过 ETL 清洗过的数据,原始的数据信息会有一定的缺失,所以现在有人提倡也存储各种原始的数据,从而进行各种灵活的分析。数据湖就是这样一个解决方案,提供统一的数据同步、存储和管理机制,以及计算任务的提交和调度,它强调对数据更全面和系统化的管理和应用。按我个人的理解,数据湖就是一个概念,像数据仓库一样,只不过其提倡保存更多的原始数据以及加强对数据管理的控制。底层的相关技术应该还是基于当下的存储和计算技术,没有太大的革命性变化。

InfoQ:2019 年 6 月,谷歌以 26 亿美元收购数据分析公司 Looker。同月,Salesforce 宣布以 157 亿美元收购 BI 企业 Tableau。2019 年 9 月,Cloudera 宣布收购商业智能实时分析厂商 Arcadia Data。这几场收购对于大数据领域来说意味着什么?统一数据分析平台会是大数据领域下一个技术爆发点吗?

胡月军: 个人理解这些收购反映的是大数据公司对上层数据分析业务系统的渗透和把控,这样的整合应该会给用户带来更好的分析系统使用体验,比如数据分析服务的云化,从而使得公司能更好地占领 PaaS 和 SaaS 市场。
一体化的数据分析平台会实现数据的统一存储和管理,以及各种分析任务的调度和执行,在避免数据搬迁开销的同时给用户提供统一的使用体验,个人认为这将会是一个水到渠成的结果。

以上采访摘自:《阿里资深技术专家胡月军:大数据十年,我看到的技术变化和趋势》作者:蔡芳芳


最后,就我所知晓的一些知识,浅谈一些看法。

还记得之前和一用友的领导交谈(嗯,你没想错,我就是在面试),他提到大数据的技术近几年已经趋于成熟,他个人比较鼓励我先走一走java,多学习整体的业务,架构。他也表示自己就是这样过来的。

当然不能说前辈说的不对,是有他的道理,我呢?是一个比较较劲的人。偏不信。

我个人是比较想走数据岗的,虽然现在在后台开发。(以后再絮叨这个事情。)

回到正题,我们从上述采访中看到,一浪大哥说到这样一句话:据我们调查了解,目前很多公司的大数据解决方案还是基于 Hadoop/Hive,新引擎的市场普及度还处于早期阶段。

嗯,不知道算不算爆料,京东内部的一些业务的实时使用的是storm,相比sparkstreaming和新生宠儿flink,确实显得老久旧了点。

当然在公司,技术的选择不代表新的就是最好的,最适合的才是最好的,就像谈恋爱一样。

所以大数据的前景并没有这么悲观。我觉得还是很友善的。

以及提到的实时数仓和数据湖,表述的那叫一个浅显易懂,没细看的自行上翻!!!

当然,采访中提到了不仅仅这些,甚至有些内容,因为才疏学浅,并不晓得。

但是整篇报道,很值得细细品味!

未来大家都没办法预测,就像今年你能想到口罩战胜了猪肉吗?
所以,我们要做的就是把握现在,撸起袖子加油干!

最后感谢蔡芳芳大大的采访文章,非常喜欢。
然后,武汉加油(今天增加了15000,要吓死我),中国加油,不能上班,理个发也行呀!!!

阿里巴巴计算平台资深技术专家“一浪”对大数据领域近几年的技术趋势和变化的看法【强烈推荐数据岗细细品!】相关推荐

  1. Flink从入门到精通100篇(五)-flink变种Alink,对阿里巴巴算法平台Alink简介

    前言 近日,阿里云计算部门已在 GitHub 上发布了其 Alink 平台的"核心代码",并上传了一系列算法库,它们支持批处理和流处理,这对支持机器学习任务至关重要. Alink ...

  2. 阿里巴巴集团副总裁贾扬清:开源大数据生态前瞻

    2019阿里云峰会·上海开发者大会于7月24日盛大开幕,本次峰会与未来世界的开发者们分享开源大数据.IT基础设施云化.数据库.云原生.物联网等领域的技术干货,共同探讨前沿科技趋势.本文整理自开源大数据 ...

  3. 全球边缘计算大会:阿里云资深技术专家李克畅谈边缘计算的技术趋势与挑战

    2020年11月7日,以"5G·边缘计算"为主题的全球边缘计算大会在北京新世界大酒店成功召开,作为业内首个专门为边缘计算人打造的行业盛会,此次活动现场共有超过600+来自政.产.学 ...

  4. 阿里巴巴资深技术专家无相:我们能从 InteliJ IDEA 中学到什么?

    本文来源于阿里巴巴资深技术专家无相在内网的分享,阿里巴巴中间件受权发布. 最近因为工作的关系,要将 Eclipse 的插件升级为 IDEA 插件.升级过程中,对 IDEA 插件做了些学习和研究,希望通 ...

  5. 雷卷 java,阿里巴巴资深技术专家雷卷:值得开发者关注的 Java 8 后时代的语言特性...

    阿里巴巴资深技术专家雷卷:值得开发者关注的 Java 8 后时代的语言特性 发布时间:2020-07-04 08:25:36 来源:51CTO 阅读:315 作者:阿里系统软件技术 栏目:云计算 作者 ...

  6. 阿里巴巴资深技术专家雷卷:值得开发者关注的 Java 8 后时代的语言特性

    作者 | 阿里巴巴资深技术专家  雷卷,GitHub ID @linux-china 导读:在 Python.JavaScript 等一众编程语言崛起风靡之际,一代霸主 Java 风采虽不及当年,但仍 ...

  7. 前沿分享|阿里云数据库事业部资深技术专家、生态工具产品部负责人 陈长城:一站式在线数据管理平台DMS技术解读

    简介:本篇内容为2021云栖大会-企业级云原生数据库最佳实践论坛中,阿里云数据库事业部资深技术专家.生态工具产品部负责人 陈长城关于"一站式在线数据管理平台DMS技术解读"的分享. ...

  8. 阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略(持续更新20171127)

    概况介绍 大数据计算服务(MaxCompute,原名ODPS,产品地址:https://www.aliyun.com/product/odps)是一种快速.完全托管的TB/PB级数据仓库解决方案.Ma ...

  9. 前沿分享|阿里云资深技术专家 魏闯先:AnalyticDB PostgreSQL年度新版本发布

    简介: 本篇内容为2021云栖大会-云原生数据仓库AnalyticDB技术与实践峰会分论坛中,阿里云资深技术专家 魏闯先关于"AnalyticDB PostgreSQL年度新版本发布&quo ...

最新文章

  1. 66 Airflow安装与部署
  2. 数学知识复习:二阶导复合函数的链式法则
  3. spring boot整合mail
  4. docker 在esx上的网络配置
  5. Boost:boost::source_location的用法测试程序
  6. SpringBoot_web开发-引入thymeleaf
  7. sql怎么修改服务器角色,创建、删除或修改角色 (Management Studio)
  8. python实现路由功能_python 实现重启路由器
  9. MongoDB官方C#驱动中查询条件Query用法
  10. 高考进行时,AI 监考老师已就位!
  11. 1007. 素数对猜想 (20)
  12. android+接入易宝支付,iOS客户端连接易宝支付接口
  13. 更新glibc版本-GLIBC升级有风险,操作前最好请预先写好离职申请书
  14. Matlab 2010b再次打开安装问题
  15. 基于QT实现的图形软件图片编辑器
  16. 3D中的OBJ文件格式详解
  17. Linux线程ID与内核LWP的关系
  18. Qt 动态实时显示波形图
  19. java好听的名字_(男孩起名)李白诗中最唯美的三字名字推荐,李白诗中最唯美的三字名字取名方法 - Java伴我余生 - 宝宝起名网...
  20. 共好:为管理者提供指南(肯·布兰佳)

热门文章

  1. CodeForces - 609E Minimum spanning tree for each edge(最小生成树+树链剖分+线段树/树上倍增)
  2. POJ - 3565 Ants(二分图最小权匹配+KM+思维)
  3. linux命令老是忘记,Linux可能会忘记的命令整理
  4. TensorFlow2-卷积神经网络
  5. react滑动切换tab动画效果_[React Native]react-native-scrollable-tab-view(入门篇)
  6. POJ2019(二维RMQ问题 ST)
  7. 33.文件与 IO.rs
  8. UTC时间戳-时间字符串之间互相转化
  9. 【Boost】boost库中智能指针——intrusive_ptr
  10. 网狐棋牌(一) ServerKernel中的IQueueService接口分析