AI·OS技术栈

2018年9月底,搜索事业部举办了一场十年技术峰会。在这场峰会上,我们正式将搜索的在线服务由iSearch5升级到AI·OS大数据深度学习在线服务体系。这次名称的变化,体现的是搜索技术十年量变到质变的积累,体现的是搜索人十年的坚持。

搜索近十年的发展可以分为四个主要的阶段。一是2008至2009年,iSearch 4.0版本,是搜索技术独立起航的第一个版本,它脱胎于iSearch 3.0,强调的是分布式、大规模、高可用,有很好的扩展能力,当时在B2B和淘宝同时上线,使搜索技术赶上了业务的发展。二是2009年至2011年,引擎出现了Kingso和HA3两个分支,Kingso以高性能闻名于世,HA3则是完全重构的版本,具有良好架构。这个阶段主题是系统化和高性能,我们开始将引擎视为一个完整、闭环的系统,而不是一系列进程和脚本的拼接。三是2011年至2013的搜索技术峰会,我们将集团搜索引擎统一,提出了iSearch 5.0引擎平台。这个阶段的关键是平台化,我们认为应当打造一个引擎平台支持全集团的搜索业务,而不是为每个搜索业务定制引擎,只有这样才能走得更快。当年在平台化与效率的问题上,搜索内部有一波不小的争论,事实上,这种争论在集团很多平台上仍在重演。只要有平台与业务之分,就会产生这种争论,平台如何抽象才能支持好业务的迭代、保证业务不被阻塞,业务又如何积累产生平台性的创新、保证平台的统一性,究竟应该统一版本还是分支发展。我个人是平台化坚定的支持者,但平台化不意味着不允许分支,平台化也不意味着不允许业务快速迭代创新,平台化更不意味着只能有一个团队开发平台功能。恰恰相反,平台团队仅仅是代码主线的维护者,是武林盟主而不是皇帝。一切以技术正确、而不是政治正确来衡量,只要坚持这一点,万流归宗,所有的分支自然会回归主线,这是中台应有的自信,充分开放才能成就中台。

2013年到现在的五年,是搜索发展的第四个阶段,搜索技术面对了很多新的挑战,其中最大两个,一是推荐的崛起,二是深度学习的广泛应用。这也是AI·OS产生的原因,我们面对的不再是搜索一个单一引擎,而是多样化的推荐引擎和深度学习引擎,这就需要更高层的服务框架抽象和更高效的执行引擎。

接下来,我来介绍一下引擎平台在最近一年的发展和创新。

Suez Turing在线服务框架

推荐业务与深度学习的发展都对在线服务框架提出了很大的挑战。

从推荐业务来看,与搜索类似,也是query处理、召回、排序、后处理几个阶段,但每个阶段都有自己的特点。比如推荐的召回广泛使用多路召回混排的模式,细节每个场景还会略有不同。如此之多的种类和组合,很难用一个固定的引擎支持,而简单把这些逻辑丢给算法同学,又会回到TPP上一坨复杂低效java代码的老路。我们需要一个高性能、易定制、高抽象的在线服务框架。

从深度学习的应用来看,模型已经无孔不入,不仅仅是排序时才需要运行深度模型。在query处理、召回甚至是取摘要时都可能有模型。从性能优化的角度考虑,我们还有可能在离线Build阶段运行模型。所以,深度模型的计算,不是一个割裂的、另类的需求。是必须内置到执行引擎,与正常的召回、过滤、排序、统计对等的功能。

基于这些考虑,今年我们升级了Suez服务框架,提出了Suez Turing全图化在线服务框架。今年,Suez Turing引擎在架构上实现了HA3、BE、RTP的整合,并在双11成功应用到了主搜、店铺内、猜你喜欢BE、海神、菜鸟等业务线。主搜上实现了HA3和RTP合图并支持了粗排深度模型;猜你喜欢BE上实现了算子并行使得latency降低一半;codegen技术使菜鸟包裹引擎统计性能提升一倍。经历双11,Suez Turing框架的稳定性和性能均得到了验证。

RTP深度学习预测服务

今年双11,各种业务场景上深度学习应用仍然处于井喷状态。搜索与推荐各种业务场景纷纷上线大模型,特别是AOP一站式算法平台推出后,大幅降低了算法同学实验和上线模型的难度。RTP上的模型复杂度大幅增加。

在CPU计算上,我们主要的两个优化手段是online2offline和fg codegen技术,将CPU端性能提升一倍以上。在异构计算加速上,今年我们大规模应用了GPU和FPGA异构计算技术,使用FPGA的数量超过了GPU。特别是我们与AIS合作FPGA加速方案,是FPGA在阿里集团内首个深度学习大规模生产应用的场景。在去年双11灰度验证的基础上,今年FPGA成为支撑搜索双11的主力,在中小batch场景下,FPGA带来的提升明显。FPGA全链路软硬件都可掌控、可优化,未来潜力巨大。

另一方面,RTP平台上业务大幅增长,而且业务都是用户自助创建的。如何自动为用户选择最合适的集群,如何保证这么多的业务安全稳定的升级和更新。我们在集群治理方面也做了不少工作,大大减轻了RTP平台的维护代价。

搜索混部

今年双11,搜索混部仍然保持持续工作,在包括11日凌晨最高峰的时段都保持不降级。混部上10日晚间至11日凌晨计算的算法模型,在11日当天上线,为提升用户体验发挥了巨大的作用。在双11的30小时内,搜索事业部国内所有机房的平均负载做到了40%,峰值做到50%。最大的一个混部机房做到平均负载57%,峰值70%。

今年我们与计算平台事业部合作,推出了AliYarn,将搜索在线多年积累的在线调度和隔离能力输出到Yarn中。通过这个版本,我们在去年混部深度学习训练任务的基础上,做到了与Flink实时计算任务的混部。双11后,AliYarn将会在搜索在线上线,成为Sigma上同时支持离线任务、流式任务、在线服务的调度器。

在线服务计算存储分离

不论是搜索还是推荐,还是深度学习,都离不开数据,计算和存储是在线服务要解决的两个永恒的问题。搜索调度系统统一后,可以发现上层业务非常多样,有极端重计算轻索引的应用,也有极少流量索引巨大的应用。不论是那种在线服务,对latency的要求都是一样的。对大数据量的应用,普遍存在着搬移慢,故障恢复慢的问题。而为了支持这些大数据量的应用,即使他们只运行在少数机器上,为了成本,我们的机型也要做普遍的适配,实际上是加大了整体成本。再加上索引切换之类的额外预留,实际有效存储使用不到一半。

今年阿里集团普遍推广使用计算存储分离技术,搜索也不例外,但搜索的场景非常特殊。一是,搜索分离的数据量并不大,因为我们是在线服务,最大也不过是PB级,这与大数据离线计算相比,数据量不值一提。二是,搜索的服务质量要求极高,我们要求4个9稳定的读latency,而且是在一个并不小的写背景下,这与追求吞吐的离线计算和作为普通log存储的场景完全不同。三是,搜索对服务的可用性要求极高,要做到在线服务级别的可用性。

今年双11我们在两个业务场景实验了在线服务计算存储分离。一是一个推荐场景,存储分离节省了45T内存,结合Suez Turing全图化框架,大幅缩列提升性能,以73%的服务器支撑了262%的流量。另一个是摘要服务场景,这在搜索与推荐链路都是至关重要的服务,存储分离集群稳定承担了20%的流量。集群延迟和性能表现稳定。双11后,我们将在搜索全面推广计算存储分离技术。

展望

接下来,AI·OS引擎平台会继续推进在线服务框架的迭代演进,推进Suez Turing上层引擎的统一,做更大范围的合图。最终我们希望能让用户很方便地定制后台引擎,同时保持高性能和高可用。

集群调度和管理方面,我们会推广计算存储分离技术,将大量大索引有状态的服务无状态化,加速调度决策执行速度和故障恢复的速度。同时,我们还会进一步统一搜索的在离线调度,做更大范围的统一调度。

在异构计算加速方面,我们要积极尝试新的密度更高的异构硬件型号,在FPGA软硬件协同和GPU的新型号引入方面也要投入更大的精力。

追求极致的AI·OS——AI·OS引擎平台相关推荐

  1. 鸿蒙os智慧屏体验,华为智慧屏首发体验!搭载鸿蒙OS+AI芯片,还有AI教你健身

    智东西9月19日消息,在今天的华为德国慕尼黑发布会上,华为除了发布年度旗舰手机Mate 30系列外,还正式推出了其65英寸版华为智慧屏. 这是继荣耀智慧屏后,华为集团推出的第二款智慧屏产品,同样搭载华 ...

  2. 本周大新闻|苹果首款MR没有主打卖点;Meta认为AI是AR OS的基础

    ​本周XR大新闻,AR方面,苹果首款MR或没有主打卖点,反而尽可能支持更多App和服务:扎克伯格表示基于AI的AR眼镜操作系统是下一代计算平台的基础:微软芯片工程VP Jean Boufarhat加入 ...

  3. 快手于冰:跟最优秀的人一起追求极致

    晚上八点多,采访结束.和于老师寒暄了几句,他说下周要去WWDC,还要去访问圣地亚哥实验室.我们相互道别后,他转身回去工作了.我大快朵颐着快手的免费晚餐--寿司和赛百味面包.来到楼下,看到几幢四面透明的 ...

  4. 追求极致,饮水思源——记旷视与计算机竞赛的故事

    CCPC 2019总决赛于11月15到17日在北京举行.经过激烈的角逐,清华大学的"三个顶俩"团队从来自全国的入围高校队伍中脱颖而出,站在了最高领奖台上.旷视继2018年之后第二次 ...

  5. 2799元的魅族旗舰PRO5,虽“不完美”但已尽量追求极致---ESM

    经过很长时间的猜测和传言,在9月23日,魅族科技(MEIZU)正式发布其高端旗舰手机PRO5.魅族EP-31耳机和魅族路由器mini.魅族 PRO5 标准版拥有32G存储与3G运行内存,售价2799元 ...

  6. 技术大佬的肺腑之言:“不要为了 AI 而 AI”! | 刷新 CTO

    扫描上方二维码直达精彩回顾 整理 | 伍杏玲 出品 | CSDN(ID:CSDNnews) 据 CSDN 最新数据统计显示,在 CSDN 3000+万的注册开发者中,689 万开发者有阅读.撰写与研究 ...

  7. 赵加雨:追求极致的习惯让我受益匪浅

    从WebEx带领Jabber团队,到回国带领网易云信团队把音视频使用时长增加3倍以上,赵加雨在音视频技术领域一干就是十多年.回忆起在WebEx的日子,与团队加班解决Jabber的bug,认识到追求极致 ...

  8. AI(5)---AI知多少

    AI知多少 细说AI技术AI算法AI芯片 AI芯片面临两个现实问题,第一我们没有一个覆盖所有算法的架构,需要在芯片当中实现一个具备深度学习的引擎,适应算法的引进,第二就是架构的可变性,要有高效的架构变 ...

  9. 蒋涛:重新回归的我,将带领 CSDN 全方位升级,为 AI 转型者打造一站式平台

    点击上方"CSDN",选择"置顶公众号" 关键时刻,第一时间送达! CSDN 创始人&董事长蒋涛 2018 年 1 月 16 日,全球最大中文 IT 社 ...

最新文章

  1. KVM Vhost-net 和 Virtio-net代码详解(十八)
  2. wp8.1 Study7: ListView 和GridView应用
  3. qt creator无法删除文件怎么办?(需要在cmakelists文件里配置)
  4. php 钩子,php钩子原理是什么
  5. C#获取Windows下光标位置(转)
  6. PowerDesigner使用教程 —— 概念数据模型 (转)
  7. python库有什么用_Python程序员必知什么 常用的Python库有哪些
  8. Eigen官网教程(6) Map类
  9. java使用freemaker自定义路径导出Word关键点讲解版
  10. 论文阅读(9) 鱼类洄游粒子图像测速技术综述 (2016)
  11. 怎么选择触摸液晶广告机?
  12. 灰度量化、图像分辨率、人工神经网络、BP网络——神经网络和计算机视觉基础总结
  13. 来自“飞人”乔丹的启示!奥尼尔开启的另一个“赛场”
  14. windows7 和linux双系统,win7与linux双系统_win7 linux双系统
  15. 纯c语言编译器pelloc,大规模并行粒子模拟系统代码级优化研究和实现.pdf
  16. 新年伊始,25岁“天才少年”曹原再发一篇Nature!9个月的第三篇Nature!
  17. 如何搭建“网络课堂”
  18. 电脑维修常见软件工具
  19. 计算机开机加载后进入不了xp,电脑开机启动后到xp画面后不断自动重启解决方法...
  20. 最新8月份编程语言排行榜详情

热门文章

  1. Gradle学习系列之十——自定义Plugin(本系列完)
  2. 数据库分库分表详细拆解
  3. SparkSQL介绍
  4. Scala单例对象(伴生对象)
  5. Windows性能计数器监控实践
  6. 荣发护肤护甲增强配方 Hair, Skin and Nails Plus 100 tablets
  7. CAS集成oauth2协议的支持
  8. python学习笔记之socket(第七天)
  9. MyBatis框架的文件配置
  10. 关于struts2的开始学习