【真的很先进】阿里云在2018-KVM Forum上分享的动态迁移实践
信息来源:https://segmentfault.com/a/1190000017103830
【如文中所说:如何解决实际生产环境中遇见的现实问题,正受到业界越来越多的重视。
确实啊,一线云计算大厂形成的技术壁垒,为其未来的寡头局面奠定了基础。】
《Cloudatlas: Ways to Make Live Migration Easy and Expectable》
如何平衡热迁移资源占用与性能开销,同时最小化热迁移对客户的业务影响,是所有公有云厂商都面临的挑战。
阿里云创新性地利用机器学习的方法来预测热迁移的代价以及虚拟机的负载,从而确定一个合理的热迁移的时机和策略,最终提升迁移成功率以及降低热迁移对用户的影响。
阿里云虚拟化团队设计了一个完备的系统来执行热迁移任务的执行。
在演讲中,提到了机器学习算法部分,阿里云使用FFT来判断是否是周期性负载VM,并对周期性负载VM算出周期然后进行预测,对于没有明显周期性负载的VM,团队采用ARIMA和LSTM两个时间序列模型来做回归预测,通过以上三种算法的结合可以快速并准确地预测出95%以上VM在未来24小时的负载趋势,从而找到一个最优的迁移时间。
本次演讲涉及了大量的算法研究,现场听众对使用案例、方案原理、预测效果等非常细节的实现问题进行了进一步的提问。有一位行业专家现场说:这是真正在解决公有云厂商关心的问题。
【ppt下载】
《A Perfect Solution for Live Migration with Pass-through Devices》
演讲者:阿里云技术专家 徐权
该演讲直击了现有直通设备热迁移的问题:即如何传输设备DMA的内存和如何保存和恢复设备的状态。
演讲深入分析了现有的一些方法和存在的问题。比如Intel在82599网卡上,在虚拟机内部设备驱动引入self emulation layer,模拟设备DMA写操作,和恢复保存设备状态。
但由于特定的设备驱动才能工作,而且设备本身设计的缺陷(寄存器只读,在恢复中无法100%恢复),并不能很好地解决问题。而如果从新的硬件和设备驱动的角度切入,在成本投入上是巨大的,而且增加了软件的维护成本。
解决方案:
阿里云扩展了virtio硬件的功能,如感知虚拟机热迁移,提供设备bitmap记录设备DMA访问内存,以及设备所有的寄存器能够动态地保存和恢复,同时修改现有的热迁移和VFIO软件框架。
这样能最大限度地利用现有设备驱动,很好地支持Windows和Linux虚拟机,并不需要单独维护各个版本的设备驱动,大大降低了成本。
【ppt下载】
【在youtube上看了下演讲视频,讲解的比较模糊,重点工作在于DMA的bitmap和VFIO】
《Live Migration Support for GPU with SRIOV: Challenges and Solution》
阿里云与AMD联合演讲,阿里云演讲者:阿里云高级技术专家 郑晓
GPU的热迁移支持是业界的难点。首先,GPU硬件的调度与上下文切换是以millisecond 为单位的,是CPU的好几个数量级,由此会引发GPU任务的抢占问题。再者,GPU在云计算领域的拓展是最近几年出现的热点,而GPU硬件本身对于虚拟化热迁移的支持尚未完善,比如GPU对local memory的dirty track,对non local memory的dirty track的硬件支持等。这些都为GPU的热迁移带来很多挑战。
演讲中提到了GPU 任务在迁移途中的时效性,抢占问题,比如GPU硬件本身在尚未支持framebuffer dirty track的时候,如何通过hypervisor的措施,通过系统软件的方法来弥补,以及GPU本身上下文的切换需要处理的细节等等。
所有上面提到的问题在阿里云与AMD联合开发的第一天就开始考虑与设计。其中有众多独有的创新点。例如,在某些型号GPU硬件不支持dirty track的时候,通过软件的方式来跟踪GPU的Framebuffer dirty page;在Service downtime等关键性能指标不符合预期的时候,如何把数据从6秒优化到了0.35秒左右;功能方面,从单机迁移完善到多机多卡迁移;在稳定性方面,从一开始的做一次就宕机,到后续连续上千次的压力测试……
此外,演讲还加入了现场的Live Demo,从使用体验上面来说,已经可以做到GPU渲染任务的流畅迁移。
【ppt下载】
转载于:https://www.cnblogs.com/qxxnxxFight/p/11046992.html
【真的很先进】阿里云在2018-KVM Forum上分享的动态迁移实践相关推荐
- 阿里云天池 - 2018之江杯全球人工智能大赛 之零样本图像目标识别 参赛总结
9月份报名做了 2018之江杯全球人工智能大赛 之零样本图像目标识别 的这道题 - 题目链接-https://tianchi.aliyun.com/competition/entrance/2 ...
- 阿里云生态峰会实录(上)
主题:阿里云生态峰会 时间:2017年10月12日 地点:杭州云栖小镇 主持人:尊敬的各位领导,各位来宾,女士们,先生们,大家下午好! 谢谢各位,欢迎各位来到2017云栖大会阿里云生态峰会的现场.我是 ...
- 【全网首发】听阿里云产品架构师罗小飞解读CDN产品最佳实践
简介:近期,阿里云<极速奔跑吧 2021>首场直播在线开播.此次直播围绕CDN行业最佳实践展开分享,不仅对全网首发的阿里云CDN产品最佳实践图进行了详细解读,还对CDN产品和客户场景如何更 ...
- python程序发布到阿里云云服务器_Python实现阿里云服务器里的文件上传与下载
Python实现阿里云服务器里的文件上传与下载 018.4.15 背景: 老实说,因为现实的各种原因造成电脑换来换去是可能出现的事情,但是电脑能换,电脑里的环境却不能换.我就曾在三个电脑里各自安装了虚 ...
- 在阿里云HPC和容器服务上,像梵高一样作画
本系列将利用Docker技术在阿里云HPC和容器服务上,帮助您上手TensorFlow的机器学习方案 第一篇:打造TensorFlow的实验环境 第二篇:轻松搭建TensorFlow Serving集 ...
- 阿里云 IP 地理位置库(淘宝IP库)实践(前篇)
阿里云 IP 地理位置库(淘宝IP库)实践(前篇) 最近的几个项目对于 IP 查询需求愈发强烈,使用免费数据库和在线接口已经不能够满足我们的需求.于是我们使用了阿里云(IP地理位置库) (淘宝IP地址 ...
- 阿里云 IP 地理位置库(淘宝IP库)实践(后篇)
阿里云 IP 地理位置库(淘宝IP库)实践(后篇) 上篇文章提到如何在容器环境中使用阿里云离线IP地理位置库,前文中测试性能看起来满足日常离线小样本.低频率私密调用性能没有大的问题,但是针对大量数据的 ...
- 阿里云存储OSS中设置上传文件content type
阿里云存储OSS中设置上传文件ContentType 如果你使用浏览器上传文件,则浏览器会自动在header中设置正确地content type,然后对文件的访问会得到正确地回应. 如果采用编程的方式 ...
- 阿里云cenos 6.5 模板上安装 docker
本章将介绍在阿里云的 Centos6.5 模板上安装 Docker 以及在 Ubuntu 14.04 模板上安装 Docker 的过程 Centos 6.5 模板上使用Docker 首先,通过 ssh ...
最新文章
- linue 查询端口号 netstat
- Zabbix 4.2 发布:支持Prometheus数据收集,可扩展性大大提升
- 算法----计算机程序设计之魂
- HDU 1088 Write a simple HTML Browser
- Java进阶:AtomicReference详解
- 基于JavaFX的Linux进程树
- Uinttest +excel结合使用--详细讲解
- EasyUI的-表格设置
- MSRA-TD500数据集(MSRA Text Detection 500 Database)
- 登录后主机名变成-bash-4.2解决
- 压缩下载到浏览器的工具类
- 添加mysql.h头文件
- N!阶层末尾有多少0
- java 使用POI导入复杂excel表格
- ssm南工二手书交易平台毕业设计源码172334
- 【R1CS to QAP】
- CocosCreator之Spine系列(一):spine动画回调
- vue视频,vue视频下载
- Python爬取豆瓣短评
- 计算机英语教程哪个好,目前国内大学计算机英语教程教学情况分析
热门文章
- 农业智慧物联卡火爆发展中存在的问题
- 机器学习初级入门(二)KNN
- 华为否认鸿蒙为噱头网易,华为否认鸿蒙系统为噱头 必要可用于手机
- linux+yum安装终端php,centos下yum搭建安装linux+apache+mysql+php环境教程
- goldendb mysql_golden数据库
- 电脑脱机状态怎么解除_win7系统如何解除脱机工作 win7系统解除脱机工作步骤【介绍】...
- input眼睛显示 vue_2019前端面试题汇总(主要为Vue)
- opencv︱图像的色彩空間cvtColor(HSV、HSL、HSB )及相关色彩学
- 新手福音︱正则表达式小工具RegExr
- Java并发——Synchronized关键字和锁升级,详细分析偏向锁和轻量级锁的升级