出品|InfoQ&阿里巴巴新零售淘系技术部

嘉宾简介:汤兴(花名:平畴),现任阿里巴巴副总裁,领导包括淘宝技术、天猫技术、农村淘宝技术、闲鱼、躺平 等多个团队组成的新零售技术事业群淘系技术部,致力于打造消费者和商家一体化的新零售智能商业平台,开创场景化新赛道。汤兴博士拥有超过十年全球 TOP IT 公司研发及管理方面的工作经验,曾任谷歌上海研发中心技术总监,负责了 Google 视频搜索业务及参与 YouTube 视频搜索服务的研发,后加入爱奇艺担任 CTO,全面推动了视频行业产品技术用户体验的创新和发展。

前言


2019 年 11 月 11 日,这是阿里巴巴所有技术人经历的第 11 次技术大考。这一年,阿里巴巴实现了核心交易系统 100% 上云,总销售额达 2684 亿元。在 QCon 全球软件开发大会(北京站)2020 即将召开之际,阿里巴巴副总裁、2019 年双 11 集团技术总指挥汤兴(花名:平畴)受 InfoQ 采访邀约,为大家分享了这场意义非凡的变革以及阿里新零售的技术方向。

从爱奇艺 CTO 到淘系技术掌门人


2019 年,汤兴正式加入阿里巴巴集团,任职阿里巴巴集团副总裁,花名平畴。整体负责包括淘宝技术、天猫技术、农村淘宝技术、闲鱼、躺平 等多个团队组成的新零售技术事业群淘系技术部。

翻开平畴的履历,他拥有超过十年全球 TOP IT 公司研发及管理方面的工作经验。加入阿里之前,平畴最近的一份工作经历是任职爱奇艺 CTO,他带领爱奇艺技术团队建立起全球首个基于视频数据理解人类行为的视频大脑——爱奇艺大脑,让机器能够理解视频内容,并领导在视频社交领域推出爱奇艺泡泡,开创了视频社交先河。

双 11 现场的平畴

双 11 之前,阿里宣布由平畴担任本届双 11 集团技术总指挥,从视频领域到新零售领域,角色转变的同时,还要带领技术团队面对双 11 流量高峰的挑战,压力可想而知,但平畴很快就适应了这种变化。

看懂两者之间的内在联系与差异,就很容易在两个领域切换和适应。

采访中,平畴表示,视频是内容行业,本质上是内容虚拟商品的供给与需求匹配。阿里是电商行业,主要是实物商品的供给与需求匹配,两者既有相同之处也有不同之处,比如一个没有库存,一个有库存;一个通过线下物流履约,一个通过线上数字媒体传送;一个侧重营销交易活动运营,一个侧重主题运营活动等。无论是虚拟数字经济还是实物经济,都脱离不了零售的本质,供给与需求的有效匹配,而技术体系的框架也基本类似。

第 11 个“双 11”:一场堪比无线化的变革


2019 年,双 11 直播已成为淘宝内容生态里程碑式的节点,其意义可对标当年的无线化变革。

回忆起 2019 年的 11 月 11 日,平畴表示,淘宝经历了一场意义完全不亚于无线化的变革,那就是直播。

如今,不知还有多少人对淘宝当年的那场无线化变革印象深刻。

2013 年,移动化的浪潮来了,所有人都感受到了移动化即将带来的巨变。阿里集团一声令下,正式宣布“ALL IN 无线”战略,很多人被从原有部门放到战场最前线,有人不适应走掉了,后续的再补上,就这样不断调整和优化。

2016 年,现任阿里巴巴 CEO 张勇正式向外宣布淘宝网与无线淘宝合并,淘宝成功从 PC 时代转型为移动时代。事后证明,如果不是这场变革,我们很难见到如今的淘宝。

▐  业务形态在变,技术必须跟上

“在云原生的大潮下,新一代的技术变更可能才刚刚开始,核心交易系统百分百上云可以说是整个基础设施最大的变化以及技术突破。但是,在基础设施的变化之外,整个业务形态也发生了巨大改变。”

平畴在采访中表示,这种业务形态的改变指的就是直播。淘宝从 2015 年就开始做直播,短短四年打造了一个年成交千亿的行业。

2019 年,双 11 直播已成为淘宝内容生态里程碑式的节点,其意义可对标 2015 年的淘宝无线化。当天,淘宝直播成交近 200 亿(2019 年双 11 总交易额为 2684 亿元),超过 50% 的品牌商家通过直播获得增长。

如今,直播已经成为天猫双 11 商家的标配,直播的内容形式与图文截然不同,更强调实时互动和流畅的观看体验,而这些特点对消息通道、网络和 CDN 等软硬件资源提出了苛刻的要求。

既要保证用户体验,又要追求技术上的最低成本,包括最小带宽消耗、最大机型覆盖等。平畴带领的技术团队遇到了很大挑战。

为了解决直播中可能遇到的问题,淘宝直播技术团队自研音视频实时通信引擎,采用去中心化的设计方式,支持横向级联,实现大规模低延时直播,时延从原先的 5 到 7 秒降低至 1 秒内,并在弱网下有更好的表现。

虽然做足了准备,但平畴回想起当下,坦言还是有些担心:“很怕发生预期外的问题,尤其是新场景、新用户动线和新架构。”

实践证明,历年双 11 期间产生的相对严重问题,往往都不是我们预先最担心的问题,甚至绝大多数可能不在预期内。

道理很简单,无论项目的挑战或风险有多大,只要在双 11 前能预想到,技术侧就一定会做好预案应对最差情况,并且做好演练工作。对于预期外的问题,往往是没有准备预案或者预案有效性没有经过验证,遇到这种情况就非常挑战整个技术团队应急解决问题的能力了。不过,这也是双 11 的魅力所在:

我们永远没有办法对所有问题做好预案,永远有未知的挑战在前方等待,而我们唯有通过技术升级去不断地逼近那个能够做到的最好的极限。

所以,对技术人来说,双 11 永远没有做的最好,只有做的更好。

提前一年,决定上云


今年双 11,我们把“最要命”的系统全都放在云上。

这是当时阿里巴巴集团 CTO、阿里云智能总裁行癫在双 11 当晚说的一句话。如开篇所言,2019 年双 11,阿里实现了核心交易系统 100% 上云,而这个决定早在一年前就做出了。

“每年双 11 结束,全集团都会进行一次全面的技术复盘,除了复盘在整个双 11 过程中的得与失,更重要的是,确定下一年双 11 技术的整体方向。2018 年双 11 复盘时,集团就整体确定了将核心电商搬到云上的大策略。”

2019 年 1 月份,上云项目正式启动,这个项目在阿里内部被称为“云创未来”。电商核心链路全面上云意味着没有云下的资源做切换与互备,平畴表示,这涉及到阿里电商数百个核心应用,上万台物理机台,总核数过百万核。可想而知,这其中的挑战有多大。

▐  分步迁移:Q3 季度进入大规模应用开发

为了实现这个目标,从机房到软件部署、网络拓扑、中间件等一系列基础设施都要先行准备并且在更早一些的大促,比如 618 大促中验证有效性。平畴透露,除基础设施外,每年上半年是业务上各类技术平台与框架升级迭代的黄金期,等到 7、8 月份,再结合双 11 业务的具体玩法逐步进入业务应用的大规模开发期间。

按阶段来看,平畴表示,双 11 上云在技术层面可以分为如下三个部分:

1、平稳迁移上云;

2、稳定使用云服务;

3、结合云技术探索新的高效研发方式。

第一阶段:应用迁移上云。

平畴表示,在这个过程中,最大的风险来源于云上基础设施和中间件等产品的变化,应用需要配合这些变化进行改造和升级。

梳理清楚这些变化后,技术团队才有依据判断需要进行哪些相关的应用改造与升级工作,来规避重大风险。在这个过程中,淘系技术推动了中间件二方库升级、版本检测、日志异步化改造、缓存集群迁移等工作,建立了一套应用升级检测的自动化机制和升级流程管理,确保所有应用升级到位,并在云上布署最小业务集群,能够通过自动化业务功能回归来验证迁移后的业务功能一致性。

其次,迁移过程必须有很强的可控性,具备快速容灾能力。平畴表示,淘系技术会通过线上流量的复制进行压测,全量回归云上的应用确保不出现性能退化。压测的同时,技术团队准备好快速切流逃逸的方案,在原有的异地多活的容灾基础上把中心机房建立成 4 个逻辑机房, 实现一键在同城 4 个逻辑机房之间的容灾逃逸能力,并经过多次验证。在具体迁移的过程中,小步骤切流,同时加强云上监控,避免突发性大面积问题出现。

第二个阶段,建立上云保障小组。

淘系内部将云和电商相关的研发一起拉通,明确响应机制和负责人,打通两边的变更系统和告警系统,细化云告警信息中明确关于电商应用相关的信息。通过不定时的模拟攻击云环境,推动两边对故障处理的应急能力提升。

新零售线专门成立了上云、用云项目组,阿里云也有专门的项目成员进行对接。同时,我们有专业的 PMO 来保障跨团队的项目合作,保障日常的周 / 月例会进行信息同步以及项目推进,针对演练中不同的线上问题有专门的应急机制,双 11 项目的横向拉通保障工作也随着多年的技术升级而不断沉淀经验。

为了保障云上的容载能力,双 11 技术项目组组织了多次云上突袭演练,演练云上单元机房不可用情况下的应急手段。通过持续迭代逐步将核心业务搬到云上,过程中持续进行云上回归测试以及切流演练,在双 11 前的几次大促中也验证了线上的用云稳定性。

第三个阶段,结合云技术探索新的研发方式。

上云的过程中,云技术在向云原生发展。除了神龙服务器(阿里云弹性裸金属服务器)之外,新的 ASI 容器也大规模使用。为了探索 Serverless 的价值,淘系技术结合云技术构建了自己的函数平台 FaaS,覆盖淘宝互动、闲鱼、导购、躺平等多个业务场景。这个平台一方面大幅提升了研发效率,另一方面提供了云端一体的轻量级研发方式。

淘系自研云端一体函数平台 Gaia 架构图

在上云的过程中,我们看到基础设施变厚了,研发变得轻了,推动业务研发从 Procode 走向 Lowcode,进而聚焦业务研发,可以更大地释放研发生产力。

端侧 AI 决策 140 亿次


上云、做 AI,这是近两年所有重视技术研发的科技公司的大主题。在上云之前,阿里淘系就开始研发端侧的智能应用,这也符合当下国人的消费习惯,大部分消费者习惯通过移动端进行交易。

2019 年,手淘大规模使用端上 AI 技术,在客户端实现对用户行为的实时感知,应用深度神经网络进行用户意图识别,并根据识别结果进行智能决策,做到推荐内容的实时更新,大幅提升个性化推荐效果和用户体验。

2019 年双 11 当天,端侧 AI 决策一共运行了 140 亿次,对于信息流的个性化推荐、消息的智能投递、直播的商品智能检测,效果上都有非常大幅度的提升。平畴表示,淘系技术部的轻量级深度学习端侧推理引擎 MNN 已经开源,这种有效利用云与端的各自数据和计算优势的方式一定是未来的发展趋势。

除了端侧的 AI 技术研发,阿里淘系也正在将深度学习、机器视觉和 3D 技术结合在一起,形成 3D AI 的方向,并将之应用于躺平家装和家居领域。

最近五到十年,人工智能技术有了突飞猛进的进展,集中表现在深度学习,以及深度学习和人工智能问题的结合上,但是越来越多人对于人工智能技术是否可以再取得突破有所疑虑。平畴坦言,过去两三年,业界对人工智能的作用有过度夸大。人工智能提升甚至创造新的场景需要和业务、产品、工程的深度结合,这需要较长的时间摸索。理想和现实的差距让人们转而认为人工智能达到了瓶颈,这是缺少对技术到产品转化规律的耐心和尊重的表现。

新的人工智能应用场景的出现不仅需要人工智能技术发展这单一的条件,更是依赖数据、业务和产品的发展。因此,开发人工智能新场景不仅仅是人工智能技术团队的工作,也不是简单的理论结合实际,而是需要打造基础设施、新产品、新的数据的积累。有了这些条件,人工智能的新场景才会源源不断的孕育出来。

人工智能是战术,核心还是具体场景的需求满足,如何准确定义场景和相应的衡量体系才是人工智能发挥所长的前提。

未来规划


2019 年的双 11 过后,阿里内部同样召开了一场复盘会。平畴透露,2019 年的双 11 是技术历史上消费者最顺滑的一次,交易核心链路全面上云,淘宝直播的同时在线人数也创了历史新高。

未来,阿里会持续不断提升购物车、下单等核心链路的消费体验,同时通过技术升级的手段大幅优化整体资源使用效率,降低大促过程中的技术资源使用成本。

接下来,阿里淘系的研发重点会聚焦在 5G 可能带来的技术创新。平畴补充道,随着 5G 的发展,网络速度越来越快,视频和直播的普及度越来越高。对于淘宝和阿里来说,传统的电商是基于图文和用户进行交互,5G 会带来新的购物方式。目前来看,直播是一种新的变化,5G 的部署可能会让直播上出现 AR 互动,底层的低延时直播相关技术(编解码、低延时通信)应该也会给消费者带来新的消费体验。

此外,AI、端计算、基于物理的 3D 渲染等技术在业务上的实施和应用也是十分值得关注的技术,将 AI 技术应用到智能家居、家装领域,智能化、自动化地为用户提供专业设计师水准的软硬装设计方案,并且基于物理的 3D 渲染技术将设计师的设计方案渲染出照片级的逼真效果。同时,以全链路数字化改造为基础,以用户定制化、场景化为消费者提供服务,形成端到端的解决方案,这些技术的高度结合才能创造极致的用户体验。

闲鱼技术团队不仅是阿里巴巴集团旗下闲置交易社区的创造者,更是移动与高并发大数据应用新技术的引导者与创新者。我们与Google Flutter/Dart小组密切合作,为社区贡献了多个高star的项目和大量PR。我们正在积极探索深度学习和视觉技术在互动、交易、社区场景的创新应用。闲鱼技术与集台中间件团队共同打造的FaaS平台每天支持数以千万级用户的高并发访问场景。

就是现在!客户端/服务端java/架构/前端/质量工程师面向社会+校园招聘,base杭州阿里巴巴西溪园区,一起做有创想空间的社区产品、做深度顶级的开源项目,一起拓展技术边界成就极致!

*投喂简历给小闲鱼→guicai.gxy@alibaba-inc.com

开源项目、峰会直击、关键洞察、深度解读

请认准闲鱼技术

阿里双11集团技术总指挥——汤兴:一场不亚于移动化的变革已经发生相关推荐

  1. 第12年双11|技术总指挥汤兴:淘宝确实变了

    总交易额达4982亿元. 订单创建峰值58.3万笔/秒. 这是今年双11我们创下的新纪录. 对于背后支撑的淘系技术体系来说,也是新的技术峰值. 在应对并发流量和系统稳定性上,淘系一直在和自己赛跑. 每 ...

  2. 双11技术总指挥汤兴:今年双11是技术和商业的完美共振

    " 今年的双11是全球极大内容电商场的超级爆发,消费者.技术.内容与商业生态之间每一秒都在产生激烈共振,实时性.复杂性和持续峰值的叠加令其成为全球技术顶峰.我们的使命就是让技术成为双11坚如 ...

  3. 直播 | 2017阿里双11在线技术峰会

    技术成就辉煌,今年的双11毫无悬念地再次刷新了全球记录--11秒交易额破亿,28秒破10亿,3分01秒破百亿,40分12秒破500亿,9小时破1000亿--最终的交易额稳稳定格在了1682亿,不仅创造 ...

  4. 看懂“天猫双11”支付技术的前世今生,就看懂新商业的变革基础

    今年的"天猫双11支付技术沟通会"近日在杭州召开,蚂蚁金服副总裁胡喜等出席了沟通会,并对天猫双11支付技术进行了展示和解说. 过去两年,围绕天猫双11,蚂蚁金服对外强调较多的是支付 ...

  5. 直击阿里双11神秘技术:PB级大规模文件分发系统“蜻蜓”

    阿里妹导读:2017天猫双11, 交易峰值32.5万/秒,支付峰值25.6万/秒,数据库处理峰值4200万次/秒,再次刷新了记录.阿里集团基础设施蜻蜓,在双11期间,对上万台服务器同时下发5GB的数据 ...

  6. 如丝般顺滑的2017阿里双11黑科技曝光

    点击有惊喜 2017双11全球狂欢节,阿里再创奇迹,成交金额1682亿,交易峰值32.5万/秒,支付峰值25.6万/秒,数据库处理峰值4200万次/秒. 双11前夕,阿里巴巴集团CTO行癫就给阿里两万 ...

  7. 阿里巴巴CTO行癫:阿里双11是世界互联网技术的超级工程

    11月11日晚上10点,阿里巴巴集团CTO张建锋(花名:行癫)连线上海双11媒体中心,为700多位中外媒体记者介绍了阿里技术在双11中取得的突破与成绩,表示"阿里双11是名副其实的世界互联网 ...

  8. 阿里用技术帮用户剁手——《尽在双11——阿里巴巴技术演进与超越》

    每个互联网从业者都希望用户在自家平台上剁手,但很少有人知道让平台支持用户剁手.拉斯维加斯的快手富翁是低水平的帮用户剁手的方式,剁过两次之后用户就无手可剁了:而阿里的双11购物狂欢节则是高水平的帮用户剁 ...

  9. 【阿里聚安全·安全周刊】阿里双11技术十二讲直播预约|AWS S3配置错误曝光NSA陆军机密文件

    原文链接:点击打开链接 摘要: 关键词:阿里双11技术十二讲直播丨雪人计划丨亚马逊AWS S3配置错误丨2018威胁预测丨MacOS漏洞丨智能风控平台MTEE3丨黑客窃取<权利的游戏>剧本 ...

最新文章

  1. 影响视频会议效果的因素及案例分析
  2. 【Web安全】先进技术WebSocket下安全测试
  3. C#实现对指定文件夹中文件按修改时间排序
  4. SAP CRM里Lead通过工作流自动创建Opportunity的原理讲解
  5. 猪肉价格屡创新高 也许AI养猪是时候提上日程了
  6. PHP、Python 上榜最慢的现代编程语言
  7. 【推荐算法】协同过滤算法——基于用户 Java实现
  8. windows和wsl设置代理
  9. while循环 字符串格式化 运算符 编码初识
  10. [物理学与PDEs]书中的错误指出
  11. Servlet(2) 三个域对象
  12. 外军网络空间作战简报
  13. markdown中打勾,对号和打叉,表格内换行
  14. 浅谈摄某网绕过图片水印查看下载无水印图片
  15. js pug 代码_Pug 代码 Code
  16. 微信小程序动态加载组件
  17. 显卡检测神器 GPU-Z v2.30.0 简体中文汉化版
  18. 快速搭建淘宝优惠券网站
  19. [量子计算]量子计算常用高频词汇集(佛系月更)
  20. 2.1.7设置字体大小

热门文章

  1. 拯救全网的Chatgpt解封攻略
  2. 爬取斗鱼直播平台的所有房间信息
  3. JSP基于web网上作业提交系统
  4. win10或者win11如何将中文用户名更改成英文用户名文件几乎无损(适合终端显示的中文名)亲测可用(操作有风险运行需谨慎)
  5. 苏东坡有一句“八风吹不动,独坐紫金台“ 人生智慧
  6. 银行与银行之间的现金是如何流转的:央行支付清算系统
  7. 植物识别库java_基于百度api的植物图片识别,人脸检测,人脸对比。
  8. SpringBoot + FreeMarker + FlyingSaucer 实现PDF在线预览、打印、下载
  9. 配音软件永久免费的有哪些?这几款免费的配音软件绝对适合你
  10. 检测笔记本电脑的主板,cpu,硬盘的温度