凌云时刻

近日,SIGCOMM 2021论文录取结果公布,阿里云网络以三篇论文命中的骄人战绩向世人展示着来自东方的创新风暴,也续写了阿里云基础设施网络团队从2019年开始与SIGCOMM 不间断的“缘分”!

SIGCOMM,全称Special Interest Group on Data Communication,是目前国际通信网络领域的顶尖会议,也是全球最顶尖科研机构、高校和互联网公司展示自身最先进技术和经验,带领网络技术各个领域向前发展的年度盛会。2019年,阿里云基础设施网络团队在SIGCOMM上实现了主会论文的首次历史性突破,2020年,4篇论文入选震动了网络界,今年又再中三元。连续三年入选国际顶会,也彰显了阿里云基础设施网络团队的技术沉淀和强大的研发实力。

与一般学术论文不同的是,此次入选的三篇论文不但有创新性想法,更重要的是将理论落地,运用在阿里的具体产品中,为用户带来技术普惠。下面我们将近距离看一下,这三颗阿里网络技术的“明珠”到底凭什么秘诀得到SIGCOMM评委的青睐。

Aquila:阿里云可编程异构计算验证器

可编程交换芯片(programmable switching ASIC)自 2015年问世以来,就受到了全球几乎所有云网络公司及科研学术界的极大关注与欢迎。它可以看做是一种异构计算硬件,其本质是通过对交换机芯片的编程,将原本依赖CPU计算的软件版网络应用“卸载”到交换芯片硬件上,从而获得高达T级的网络数据包处理能力,极大提升网络应用的带宽且降低延迟;同时,由于可编程芯片的灵活可编程性,开发人员可以像软件开发一样灵活地的定制交换芯片的处理逻辑。当前的主流芯片厂商已纷纷推出了各自的可编程芯片,利用可编程芯片来加速基础设施的处理能力已被认为是未来一条重要的技术方向。

然而,在过去几年,虽然学术界同仁发表了大量利用可编程芯片实现各种应用的论文,却从未看到任何云网络公司大规模部署可编程芯片的实例。究其原因,主要由于该技术尚属于较为前沿阶段,虽然其价值被广泛认可,但其部署效率、稳定性等都存在诸多技术挑战和开放性难题,因此令很多科技公司望而却步。

阿里云基础设施网络团队作为可编程网络领域的早期发起者和推动者,多年以来一直致力于在整个可编程网络的应用和生态平台上做出突破性的工作,带动整个产业向前发展。在阿里云诸多工作中,“太玄OS”可编程网络开发、验证、测试和发布平台成为了一个在学术和产业落地双丰收的明星项目(如图1所示)。在SIGCOMM20,太玄OS发表了自己的跨平台编程语言和编译器Lyra(“Lyra: A Cross-Platform Language and Compiler for Data Plane Programming on Heterogeneous ASICs”),阐明了可编程网络领域在编程抽象层面的巨大挑战和揭示了阿里云的解决方案。

阿里云基础设施网络团队自主研发的“太玄OS”可编程网络异构计算平台

今年,阿里云基础设施网络团队又发表了Lyra的姊妹篇Aquila (“Aquila: A Practically Usable Verification System for Production-Scale Programmable Data Planes ”)来介绍阿里对可编程网络程序正确性保障方面的独树一帜的创新和大规模的落地经验。Aquila的目标是利用形式化验证的方法来发现异构环境下底层程序的bug,以避免系统上线后的稳定性风险。它通过实际的运行和部署经验指出了目前学术界在这个方面的工作的不足,并且通过自主研发的系统解决了如:表达性、可扩展性、可追溯性和验证器自证清白能力等在业界悬而未决的问题。Aquila已经在阿里云ENS/CDN的边缘计算场景中大量使用,为阿里边缘云的稳定性保驾护航。

XGW:阿里云可编程硬件网关

阿里云在可编程网络领域的另一个重要举措就是打造自主可控的以SNA (Smart Networking Appliance) 硬件和AliNOS (Alibaba Network Operating System)软件为基础的软硬件一体化的可编程计算平台和在这个平台上的应用。图2展示了整个阿里自研SNA可编程计算平台的概览。SNA平台的软件层运行阿里自研的网络操作系统AliNOS,硬件层包含了可编程芯片、FPGA、x86以及灵活插口等。SNA作为底层设备,上面由平台能力如:监控、交付/变更、太玄编译/验证,以及测试等保证SNA的运营效率与稳定性。目前,SNA计算平台已在阿里云各个场景规模部署,例如网络可视化、边缘云超融合网关、安全、高性能、以及云网关等。在SIGCOMM20中,阿里云基础设施网络团队发表的“NetSeer:Flow Event Telemetry on Programmable Data Plane”就已经率先揭开了阿里云在可编程网络应用上的冰山一角。

阿里云基础设施网络团队自主研发的可编程网关软硬件体系

今年阿里云基础设施网络团队和网络产品团队(洛神云网络)共同合作的“Sailfish: Accelerating Cloud-Scale Multi-Tenant Multi-Service Gateways with Programmable Switches”被SIGCOMM21录取,继续着阿里在可编程网络应用方面的领军地位。这个内部代号为XGW (eXtendable GateWay) 的云网关系统是利用SNA这样的平台来替代CPU,提高转发性能的同时减小部署成本的典范。在阿里云网络技术和产品同学的共同努力下,XGW已经实现了超大规模部署,为亿万阿里云用户提供了高性能,高质量的云网络服务。

XLINK:阿里巴巴主导的多路径QUIC方案

除了云网络领域,今年阿里巴巴也在移动网络传输领域发出了“时代最强音”。阿里巴巴在IETF QUIC工作组提出自己的多路径草案并且广受关注之后,由达摩院XG实验室、手淘淘系技术、阿里云基础设施网络团队共同合作研发的XLINK(“XLINK: QoE-Driven Multi-Path QUIC Transport in Large-scale Video Services”)也被SIGCOMM21正式接收。

XLINK的整体系统架构

QUIC技术是由Google提出, 并于2017年在SIGCOMM会议上发表了QUIC相关论文, 引起了业界的巨大反响, 今年IETF QUIC 1.0标准工作正式完成, 下一代HTTP协议HTTP3正是基于QUIC来实现的。可以说, QUIC是目前移动互联网中最核心和关键的技术, 现如今, 超过50%的Chrome浏览器流量和75%的Facebook流量都在使用QUIC进行传输。  经过过去几年的不懈努力,  阿里巴巴从QUIC技术的追随者快速成长为QUIC技术的创新者, 并在多路径QUIC技术上取得了突破,  XLINK相关论文已经被顶级学术会议SIGCOMM 2021正式接收, 这也是SIGCOMM会议历史上第一篇关于多路径QUIC的文章。

XLINK已经集成在手淘完成了大规模测试, 测试结果表明, XLINK在弱网下使用可以实现短视频下载时间降低50%, 首帧加载时间降低32%, 视频卡顿率降低66%, 额外的流量成本降低85%。此外, 在高铁上, XLINK的用户可以同时连接高铁WiFi与手机LTE, 在高速移动的情况下仍然保持流畅的视频观看体验。另外,阿里巴巴也即将开源XLINK的整体架构和协议,将着力与整个业界一同打造多路径QUIC协议,为消费者提供更好的体验。

俗话说“十全十美”,2021年对于阿里网络技术人来说也是一个圆满的一年。从2019开始,截止目前,阿里网络技术已经有10篇SIGCOMM论文被录取。网络领域众多国际专家纷纷被阿里论文“圈粉”,因为不但有创新大胆超前的思维,更重要的是阿里坚持技术创新,把技术与实际应用场景相结合,让技术“走出”实验室,实现“技术普惠”。

除了SIGCOMM,今年阿里云基础设施网也在系统领域顶级会议USENIX ATC发表了论文“Hashing Linearity Enables Relative Path Control in Data Centers”来介绍已经在阿里网络自研交换机部署的交换芯片hash算法特性分析,以及DCMR多路径故障恢复的方法,这也同样是阿里网络技术创新和落地相融合的代言。

来源|阿里云基础设施

END

长按扫描二维码关注凌云时刻

每日收获前沿技术与科技洞见

投稿及合作请联系邮箱:lingyunshike@163.com

再续前缘 阿里云基础设施网络团队ACM SIGCOMM 2021续创佳绩相关推荐

  1. 阿里云基础设施曹政:AI 和科研如何在云端汇合?

    <达摩院 2022 十大科技趋势>报告中,"AI for Science"被列为年度十大趋势之一,达摩院认为,"人工智能与科研深度结合,将成为科学家继计算机之 ...

  2. 技术解密|阿里云多媒体 AI 团队是凭借什么拿下 CVPR2021 5冠1亚的?

    简介:5 冠 1 亚!阿里云多媒体 AI 团队 CVPR2021 再创佳绩! 6 月 19-25 日,备受全球瞩目的国际顶级视觉会议 CVPR2021(Computer Vision and Patt ...

  3. 全景剖析阿里云容器网络数据链路(五):Terway ENI-Trunking

    近几年,企业基础设施云原生化的趋势越来越强烈,从最开始的IaaS化到现在的微服务化,客户的颗粒度精细化和可观测性的需求更加强烈.容器网络为了满足客户更高性能和更高的密度,也一直在高速的发展和演进中,这 ...

  4. 双十一丝般顺滑体验背后:阿里云洛神网络虚拟化系统揭秘

    摘要: 摘要:2017年12月20日在北京云栖大会上,阿里云高级技术专家梵叶在计算与网络分论坛上做了主题分享<双十一丝般顺滑体验背后:阿里云洛神网络虚拟化系统揭秘>.为大家介绍了洛神系统的 ...

  5. 阿里云经典网络与Rancher VXLAN兼容性问题

    近期国内很多用户曝出在阿里云的环境中无法使用Rancher的VXLAN网络,现象是跨主机的容器无法正常通信,healthcheck服务一直无法更新正常状态.经过一系列走访排查,最终定位此现象只发生在阿 ...

  6. 阿里云基础设施事业部Java岗、腾讯TEG后台开发岗面经(4.22更新,拿到AT双Offer)

    阿里云基础设施事业部Java岗.腾讯TEG后台开发岗面经

  7. 阿里云域名解析网络和服务架构设计(三) 之阿里云CLB负载均衡

    一.回顾 阿里云域名解析网络和服务架构设计总概览(一)_飞鸽FlyGo的博客-CSDN博客云解析DNS.负载均衡SLB.阿里云ECS服务器.阿里云ECS服务器Nginx代理https://flygo. ...

  8. 阿里云服务器网络收发包PPS性能25万/80万/100万PPS详解

    阿里云服务器ECS网络收发包PPS是什么?云服务器PPS多少合适?网络收发包PPS是指云服务器每秒可以处理的网络数据包数量,单位是PPS即packets per second每秒发包数量.阿里云百科来 ...

  9. 阿里云域名解析网络和服务架构设计(二) 之云解析DNS-全局流量管理

    一.回顾 阿里云域名解析网络和服务架构设计总概览(一)_飞鸽FlyGo的博客-CSDN博客https://flygo.blog.csdn.net/article/details/123604615 二 ...

  10. 阿里云服务器网络收发包PPS多少合适?

    什么是网络收发包PPS?云服务器网络收发包PPS多少合适?网络收发包PPS是指云服务器每秒可以处理的网络数据包数量,单位是PPS即packets per second每秒发包数量.云服务器吧来详细说下 ...

最新文章

  1. 【干货】人工智能工程师的三个层次
  2. Android 移植到 C#
  3. Python之打造专属Python开发者的完美终端工具Rich
  4. 优优加速cdn带宽_为什么使用CDN你的网速还是那么慢?
  5. EMF的一些总结(2)——关于EMF的序列化
  6. H264基本概念之 宏块、片和片组
  7. SEO之网站内链优化策略
  8. sklearn中的降维算法(PCA)(原理相关)-1
  9. ZK在ZUL页面使用HTML
  10. 易班显示不能连接到服务器检查网络,网络思政教育 “易班网”不一般
  11. 2012年秋季,斯皮维大厅音乐会的亮点
  12. 春天的致富梦ZZNU
  13. [Mysql] ROUND函数
  14. 春晚宫女唐奕霖被爆背景深厚 可携助手出入央视排练场享有特权
  15. [附源码]Java计算机毕业设计SSM房屋租赁系统
  16. 蜘蛛和露珠的故事(得不到的和失去的)
  17. 【毕业设计】智能火灾报警系统 - 单片机 嵌入式 物联网
  18. ArcMap 制图出图
  19. Lattice Diamond与modelsim联合仿真环境设置
  20. SecureCRT8.1破解版下载及修改显示行数

热门文章

  1. Android Application.java以及它的作用
  2. 易宝典文章——玩转Office 365中的Exchange Online服务 之十一 怎样在Exchange Online中配置邮件传递限制...
  3. MVC中关于JSON的处理
  4. 你认识什么是前端吗?你是合格的前端吗?
  5. 图片的alt(替换文本)属性描述
  6. 讲解SQL Injection一篇不错的文章,地址贴一下
  7. SQL server中关于年月日周的添加
  8. Hbuilder Webview调试+逍遥安卓模拟器
  9. HttpClient 该知道一些概念
  10. wamp下安装php的xdebug调试的方法