导读:6 月 1 ~ 2 日,GIAC 全球互联网架构大会将于深圳举行。GIAC 是一个面向架构师、技术负责人及高端技术从业人员的技术架构大会。今年的 GIAC 已经有腾讯、阿里巴巴、百度、今日头条、科大讯飞、新浪微博、小米、美图、Oracle、链家、唯品会、京东、饿了么、美团点评、罗辑思维、ofo 等公司专家出席。

在大会前夕,高可用架构采访了本届 GIAC大数据分论坛 出品人马如悦,就目大家广泛关注的大数据方面的问题进行了访谈。

马如悦,百度大数据主任架构师,当前是百度大数据技术总负责人,百度云数据分析产品技术总负责人,负责百度内外部大数据处理相关产品的规划和研发。同时也是Palo项目的技术负责人。在领导分析数据库方向以前,一直是百度分布式计算方向的技术负责人,是百度Hadoop团队的创始人。其领导的Palo项目,已经上线百度近50个产品线。

高可用架构:马老师,您好,很高兴能访谈到您。您在百度有十多年了吧?从刚开始的高级工程师,到现在的主任架构师,您工作和生活中最大的改变是什么?能否结合您的亲身体会谈一谈技术人的技术路线和管理路线的有何不同以及如何抉择?

马如悦:百度内部是分技术路线和管理路线的。在技术类的公司,我自己这么多年的感受是,在级别低的时候,管理和技术实际上更偏重技术多一些,就是即使是做管理,也是需要深入了解一线技术的。但是随着职级的提升,管理和技术也都会转为偏向管理一些,只是侧重点不同。

原来你只是一个模块或者一个小方向的技术负责人的话,很多时候,更多依赖的是你个人的能力和决策;但是当你成为多个方向的技术负责人,负责的技术团队到上百人的话,这个时候,你的精力和能力是无法做到像小团队那样,这个时候,作为技术负责的同学,就需要培养技术梯队,协同好各个子技术方向的负责人,定宏观和长远战略,充分发挥团队自己的能动性。这也就是我说的,随着职级的提升,会更偏向管理多一些。

我觉得作为一个喜欢技术的新人,应该还是从做技术开始,等到职级到了一定程度,再转向管理。一个方面是较低的管理职级实际上发挥不了太大管理作用,所以在很多其他互联网公司,在低级别,技术和管理是一体的,只是到上面才会逐渐分开。

高可用架构:大家都知道您在OLAP和OLTP领域耕耘很多年了,是什么样的契机让您开始这两个方向研究的?它们究竟有怎样的魅力吸引您愿意花长时间去钻研?

马如悦:我研究生是在清华做ChinaGrid的,07年毕业有幸进入百度去开辟分布式计算方向。那个时候,Hadoop开始火起来,所有的互联网公司都在做。做了5、6年的离线计算平台,当时百度已经比较成熟了。那个时候,遇到了很多新的业务问题,发现是Hadoop这种离线框架不好做的,需要类似大规模在线数据库这种,所以自己就主动要求转岗了,从一个几十人的大团队接手了一个几个人的在线数据库小团队,开始走上了在线数据库领域。在新的方向上,我们通过5年的时间,建立了百度新式数据库团队,传统数据库团队还是有DBA团队在负责,百度新的数据库技术基本都在我们这个团队。我们先后做了面向结构化的在线数仓,面向文本非结构化的搜索分析数据库,以及面向事务的NewSQL数据库。

我个人是一个偏向喜欢做前沿技术的人,所以只要有比较好的前沿技术,只要这些技术可能对业务带来前所未有的改进,就对我有无穷的吸引力。我并不崇尚那些极度高级和复杂的技术,我更崇尚那些可以带来更大落地效果的技术。比如,随着人工智能技术的进步,我们现在也在转向怎么利用机器学习来进行更加智能数据分析的技术,比如AutoML技术,Augmented Analytics等技术。

高可用架构:现在开源的比较知名的OLAP都有哪些?根据存储数据的方式不同,OLAP可以分为ROLAP、MOLAP、HOLAP等等,您主导研发的OLAP系统属于哪种类型?选择这种类型是怎么考虑的?当初是什么原因决定要自研的?

马如悦:我们研发的Palo实际上是ROLAP的。但是我个人不喜欢将任何产品非得划分为ROLAP、MOLAP或者HOLAP,这种被人总结成标准的条条框框,理解好了,可以指导你的工作方向,理解不好了,可能会限制你的思路。所以在Palo里,从来不会去说这个东西是MOLAP的,我们做得是ROLAP的,这个不合适,所以不去做。

百度的Palo都是根据自己的业务需求,和参照同行,比如Google的一些做法,去开发的,不是根据教科书去做得。Palo的分布式存储引擎是自研的,查询引擎是基于Impala做优化的。Palo除了满足业务性能要求外,主要追求的是简单,就是开发、使用、理解都简单。很多类似解决方案都复杂无比,比如依赖zookeeper,依赖hbase,依赖hdfs,依赖hive,依赖MapReduce等。而这些依赖都大大增加了使用和运维的负担,在在线系统中,这种依赖造成的各种问题实在是太多了。所以Palo当时追求的目标就是简单有效。

高可用架构:OLAP和OLTP场景有怎样的不同?两者的融合是否是未来的趋势?您认为融合的难点在哪?融合之后,将会对大数据领域产生怎样的变化?

马如悦:OLAP是面向分析的,OLTP是面向事务的,一般面向的业务需求不一样。这一两年,很多产品都大谈HTAP的概念,所以现在又多出了一个HTAP的系统。

HTAP系统我个人认为一定是未来的趋势,分久必合,合久必分。但是这个需要多未来,就不好说了。很多产品大谈HTAP,搞得好像这个时代就马上到来一样。实际上很多产品,一开始奔着是做NewSQL, 就是新一代OLTP领域去的,但是等做得差不多,出去谈客户,发现客户对新的OLTP的需求不大,尤其是对新的不成熟的OLTP产品,在重要的业务上使用,没有啥兴趣。但是,发现在新的OLAP需求却很大,那怎么办?就谈HTAP呗。所以现在业界大多谈HTAP的都是做NewSQL出身的。是不是商业的噱头咱先放一边。从长远来看,随着硬件技术,业务需求的转变都可能对HTAP技术需求越来越大。所以我认为HTAP是个趋势。

但是,我十分不认同,在解决实际问题的时候,大家为了追求趋势而去采用HTAP技术。实际上很多当前的业务和系统,OLTP和OLAP分离去解决,是最自然的,也是最高效和稳定的,那为啥非得耦合到一起,并且可能容忍在某一个特性上的短板。HTAP技术我觉得可以作为NewSQL未来延展的一个方向去研究,但是遇到实际问题还是要综合考虑,是OLAP/OLTP分离好,还是混合好。

高可用架构:大数据发展超过10年了,大数据生态中各种组件层出不穷,比如ELK、Impala、Spark、Flink、Storm等等,您觉得出现这种情况说明了什么呢?这些组件有没有您特别推荐大家使用的以及推荐的理由是什么?

马如悦:出现大量的组件,说明这个领域还远未成熟,当某个领域非常成熟后,就基本上会收敛成几个稳定的技术产品。也就是因为有很多组件,所以做集成方案是有前途的一个方向。

我个人现在比较倾向的是:离线使用Spark/H2O/Tensorflow组合,在线分析使用Palo/ELK,NewSQL大家可以关注一下Apple开源的FoundationDB。

高可用架构:说到大数据就不得不说Hadoop。有人说Hadoop正在沦为日志处理工具,对此,您是如何理解的?有什么样的看法?

马如悦:我认为Hadoop没有不被Spark取代的任何理由。Hadoop能做到的,Spark都能做到,或者即将都可以做到。所以如果你是这个领域的新人,建议可以直接从Spark学起。很多公司都在使用Hadoop,并不一定说明Hadoop好于Spark,大部分情况是遗留系统,迁移成本巨大造成的。如果你能挑出一个Spark做得不如Hadoop好得点,不要转向Hadoop,而是努力为Spark解决掉这个问题。

高可用架构:最近几年TiDB、Kylin等开源项目在大数据领域的应用也逐渐流行起来,在您看来,他们都有什么样的优劣?解决了用户怎样的痛点?

马如悦:TiDB和Kylin都是中国做得非常好的开源软件,也让硅谷的人了解中国人也是可以搞出世界级的开源项目的。TiDB的刘奇和东旭,以及Kylin的韩卿,我们都有交流,从他们那里学到了很多东西。

TiDB我更倾向于认为是个NewSQL产品,主要是一个New OLTP的产品,可能是NewSQL叫得太多了,并且在TiDB的前期客户中,更多人可能拿他用来做分析用,所以他们现在更多得是把自己定位为HTAP,毕竟叫HTAP的产品现在远少于NewSQL,哈哈。TiDB同学对技术的那种追求是令我羡慕的,所以致力于HTAP方向的同学建议可以投入他们社区研发,帮他们做到更好。

Kylin是一个New OLAP的产品,周围也有很多公司在用,大家也可以试用一下。但是这里给Kylin提一个建议,就是Kylin还是依赖了太多Hadoop组件,而这些依赖让Kylin的易用性会大大折扣。所以Kylin下一步可以不断收敛内聚一些,但是Kylin还是一个不错的产品,大家都可以尝试一下。

高可用架构:容器引领了微服务潮流,在大数据领域的基础设施、资源混合使用以及运维自动化等方面应用广泛吗?目前的现状和可能的原因是什么?

马如悦:AWS认为容器和Serverless是这一两年最火爆的技术。尤其是容器技术,在私有化部署产品时,更是上乘之选,直接解决了兼容性问题。AWS在容器技术方面,也在这1-2年先后推出了3款产品,可见其重要性。

百度也基本上从今年起,将所有的大数据计算和人工智能等计算全部迁移到容器平台上进行统一调度。

所以,容器当前可能也有一些不好的地方,比如使用起来还是比较费劲,对底层存储挂载也都少许不好用,但是从长远来看,容器的大规模在IDC的使用基本没有悬念了。

高可用架构:您目前最关注的新技术有哪些?最有可能给大数据领域带来变革的是什么?

马如悦:我现在主要关注的就是机器学习、人工智能在数据分析的应用,比如类似AutoML的技术。我们正在努力打造一款新时代的类SAS的数据分析产品。

高可用架构:您此次参加GIAC,给大家带来了什么样的干货?方便透露一下吗?

马如悦:此次主要还是想和大家分享一下百度云是怎么思考大数据平台架构的。

本期 GIAC 大会上,大数据和人工智能部分的精彩议题如下:

大数据现状和未来展望--百度大数据主任架构师马如悦访谈相关推荐

  1. 大数据现状和未来展望——百度大数据主任架构师马如悦访谈

    在大会前夕,高可用架构采访了本届 GIAC大数据分论坛 出品人马如悦,就目大家广泛关注的大数据方面的问题进行了访谈. 马如悦,百度大数据主任架构师,当前是百度大数据技术总负责人,百度云数据分析产品技术 ...

  2. 大数据应用及未来展望

    大数据应用及未来展望,紧跟互联网+,便捷未来人们的生活,方便用户.畅想未来人与人之间的联系,从社交网络.社区文化,到"六度空间";展望教育对于国家的希望,大数据和教育整合.合理的早 ...

  3. 全球及中国生物识别车辆访问技术行业十四五应用现状及未来展望规划报告2022-2027年

    全球及中国生物识别车辆访问技术行业十四五应用现状及未来展望规划报告2022-2027年 [搜索鸿晟信合查看官网更多内容!]  生物识别车辆访问技术位于起步阶段,指纹识别.虹膜扫描.面部识别等技术可以取 ...

  4. 前百度主任架构师创业,两年融资千万美元,他说AI新药研发将迎来黄金十年...

    「AI技术生态论」 人物访谈栏目是CSDN发起的百万人学AI倡议下的重要组成部分.通过对AI生态专家.创业者.行业KOL的访谈,反映其对于行业的思考.未来趋势的判断.技术的实践,以及成长的经历. 20 ...

  5. 前百度主任架构师创业,两年融资千万美元,他说 AI 新药研发将迎来黄金十年...

    「AI技术生态论」 人物访谈栏目是CSDN发起的百万人学AI倡议下的重要组成部分.通过对AI生态专家.创业者.行业KOL的访谈,反映其对于行业的思考.未来趋势的判断.技术的实践,以及成长的经历. 20 ...

  6. 百度开放云首席架构师徐串:架构师对架构的理解

    百度开放云首席架构师徐串:架构师必须理解程序员的痛 时间 2016-05-18 13:19:49  CSDN 原文  http://geek.csdn.net/news/detail/74783 主题 ...

  7. ArchSummit讲师专访:百度主任架构师廖若雪谈搜索新时代

    编者按:由InfoQ中文站主办的首届International ArchSummit架构师峰会即将召开.我们也对一些专题的讲师进行了采访,谈谈他们要讲的议题. \ 廖若雪,百度主任架构师,现在主要负责 ...

  8. 百度基础体系首席架构师林仕鼎分享系统架构领域论文精要

    所谓"理论联系实际"."万变不离其宗".学术界的论文常常是指导工业界的圭臬,特别是在计算机相关科学领域:快速的发展,常常有赖于学术界几篇论文的突破. \u002 ...

  9. QCon北京2013:NASA云计算专家Khawaja,百度基础体系首席架构师林仕鼎

    距离QCon北京2013(4月25-27)还有一个月,现在大会讲师邀约工作已几近完成.具体日程安排.演讲信息请见大会日程页面. \ 需要注意的是,3月31日是大会8折购票的截止日,4月开始大会门票将进 ...

最新文章

  1. 南京工业大学python考试期末题库_大学慕课2020用Python玩转数据期末考试大全答案...
  2. Meteor创建示例项目 Simple-todos
  3. 要求做一个从网页上导入excel
  4. c语言二分法查找一个数_算法竞赛小专题系列(1):二分法、三分法
  5. 中国四丁基尿素(TBU)市场趋势报告、技术动态创新及市场预测
  6. C语言中 二维数组在内存中的存放顺序是,在计算机中二维数组的元素是按行顺序存放的,即在内存中,先顺序存放二维数组第一行的元素,再顺序存放二维数组第二行的元素,以此类推 答案:对...
  7. DeepMind智能体自学跑酷:略显智障,结果尚好
  8. ISO7816协议中APDU指令解析
  9. 自考本科计算机要学什么,计算机自考本科需要考哪些科目
  10. 图片和视频的相互转换
  11. 数据分析之 AB测试(AB Test)
  12. operator int()用法
  13. echarts tooltips 自定义 formatter 显示图例颜色
  14. win11鼠标文本选择光标变白色
  15. Python爬虫批量下载文献
  16. Matlab的parfor的使用条件
  17. 飞控手机地面站调试_PX4飞控连接地面站注意事项
  18. sed在某一行行首添加字符_sed在行首或者行尾添加内容
  19. 显示器系列1--常见参数详解
  20. 计算机毕设之基于JAVA的食堂信息管理系统

热门文章

  1. SD-WAN《夽易联》,开启企业组网新时代
  2. 应届毕业生,对五险一金,薪酬待遇的理解
  3. 京东科技成立保险事业部,能否成为“赶超”蚂蚁集团突破口?
  4. 英语复习-10.22
  5. mpg文件切片之后,不能播放问题分析
  6. 机房服务器远程关机怎么操作,机房远程控制空调开关机如何实现?看看专业人员怎么说...
  7. 45.计算机方面的证书
  8. 前端 css 通用css_编写CSS简易方法简易前端
  9. 天嵌TQ_E9卡片电脑移植飞思卡尔yocto L4.1.15_1.0.0_ga 第一篇 yocto项目建立
  10. Consistency Regularization