文丨木久,阿里云弹性计算产品解决方案架构师

 

摘要:游戏一直以来是互联网领域的一大热门行业,随着移动互联网的兴起,手机和Pad的普及,游戏从早期PC时代的页游、端游,逐渐发展到手游占据主要趋势。近几年,游戏厂商在不断探索云游戏,希望为玩家带来更顺滑的体验,而上云已经成为游戏行业的不二选择。

如何让游戏在云上运行得更稳定、流畅、高效和经济?作为国内最大的云厂商,阿里云为游戏厂商提供最佳上云解决方案。本篇通过S级新游案例介绍弹性计算上云的过程。

一、 背景介绍

1.  游戏体验和品质要求提升,对云计算提出更高要求

在现今的游戏市场中,游戏的种类可谓丰富多样,有RPG类(如仙剑奇缘)、电竞类(如CSGO、DOTA2),MMORPG类(例如原神、幻塔)等,这类游戏也有另一种叫法是轻科幻题材开放世界类游戏。除此之外,还有很多例如卡牌类、SLG类等游戏。

为吸引更多玩家,游戏厂商在提升游戏体验和品质方面费尽脑汁,底层资源需求随之越来越大,且针对性更强,游戏行业上云在业内早已达成共识。

云计算可以很大程度帮助游戏厂商完成底层资源的技术提升和降本增效,其中弹性计算尤为重要。

2.  游戏服务对弹性计算的需求

一款新游上线,需要提供多种类型的服务,一般情况下会有平台服务、运营BI服务、游戏服务等。在这些服务中,对游戏玩家体验影响最大的是“游戏服务”,也是新游最核心的部分。

在大多数游戏项目中,从弹性计算角度来看,游戏服务主要有三种形态:

a.  单体架构

单体架构是早期非常普遍的架构,其特点是简单并且容易构建。游戏厂商只需要专注于业务本身,将底层能力全部交给云计算厂商即可,这种架构至今仍然有很多公司在沿用;

b.  单体 + 非核心业务形态

这种架构是目前游戏服比较常见的架构,它继承了单体架构的特点,并且将非核心的业务进行拆分,然后以组为单位进行开服;

c.  面向服务的架构

使用这种架构需要一些技术栈,将游戏服务模块化,可以提高开发效率,但不适合电竞类、战斗服等场景;同时,由于其架构的复杂性,出现延时高等性能问题的概率较高,很多游戏厂商不愿冒险为之。

在电竞类、MMORPG类等场景中,比较常用的是前两种架构,厂商更愿意将主要精力放在游戏业务本身,把底层能力交给云计算厂商。

二、 案例分享:弹性计算助力完美世界新游弹性上线

1.  项目背景

完美世界是一家全球领先的文化娱乐产业集团,集团主要业务覆盖了游戏、电竞、影视等业务板块,其中最主要业务是游戏板块。

完美世界代表游戏作品

2021年,完美世界在阿里发行了多款新游,其中包括ARPG游戏《战神遗迹》,以及MMORPG轻科幻题材开放世界类游戏《幻塔》,另外还有由完美电竞出品的线上对战平台《完美世界竞技平台》,并且拥有CSGO,DOTA2在中国大陆地区的独家运营权,每年都会主办一些电竞赛事,吸引了全世界电竞爱好者参加。

下图是完美世界去年上线的一款MMORPG类S级新游的整体架构:

该游戏框架涉及的核心服务分别是平台服务、运营BI服务、游戏服务、排行榜等;除此之外也搭建了各种服务的的容灾和备份。

2.  项目挑战

该游戏为了提供极致性能体验、低延时、单服承载数千玩家,决定将每个游戏服部署在一台1T内存的超大规格云服务器上,这一点对云服务器ECS提出了非常大的挑战:

  • 单个服务器需要提供足够的配置和性能承载数千名玩家,支持每个玩家的高资源需求;
  • 在使用大内存实例的情况下,要提供超强稳定性以保障业务无间断、无损运行;
  • 开服期间需要多个可用区提供数万核资源,通过弹性能力满足游戏高峰期、低峰期、稳定期切换时的开服和合服需求;

游戏服需要满足以上核心需求以达到既定的效果,为此,阿里云提供了有针对性的解决方案。

3.  解决方案

 

a.  优势一:极致性能,第七代IceLake实例

针对游戏服CPU的高性能需求,经过多轮选型测试后,最终决定采用2021年发布基于神龙架构的第七代实例。

神龙架构稳定运行四年,多家云厂商功能、性能测试第一名,总分远超其它竞争厂商

  • 处理器:采用第三代Intel® Xeon®可扩展处理器(Ice Lake),基频2.7 GHz,全核睿频3.5 GHz,处理器与内存比1:8;
  • 支持开启或关闭超线程配置,支持ESSD云盘;
  • 支持IPv6,超高网络PPS收发包能力2400万,50G网络带宽;
  • 支持vTPM特性,依托TPM/TCM芯片,实现从服务器到实例的启动链可信度量,提供超高安全能力;
  • 适用场景:

--高性能需求游戏场景、高性能数据库、内存数据库等;

--高网络包收发场景,例如视频弹幕、电信业务转发等;

--数据分析与挖掘、分布式内存缓存;

--安全可信计算场景;

在性能测试期间,使用specint等benchmark模型对cpu进行了压力测试,业务层面采用了多个机器人生成器,向单台游戏服并发访问进行性能测试,模拟玩家游戏的场景,测试结果完全满足客户需求,并且遥遥领先于其它几家云计算厂商。

b.  优势二:稳定性保障,业内首创1T游戏服无损迁移

针对稳定性需求,主要依托于阿里云强大的稳定性体系,提供的能力包括:

  • 定期运行基于AI模型的日常扫描,排除软硬件的潜在故障后,做到及时发现及时解决,并进行必要的调度;
  • 通过强大的资源大盘能力将资源高度打散,按照核心业务和非核心业务进行区别化打散,最大程度降低单点故障造成业务损失;
  • 通过无损迁移能力,防止业务中断,而且在该项目中使用了业界首创1T超大内存无损迁移能力;

高级迁移特性

  • 灵活迁移模式:根据VM的负载类型以及NC的压力状况,灵活选择匹配的热迁移模式;
  • 神龙机型热迁移:神龙虚拟机提供业界首创的直通设备热迁移能力;热迁移稳定性:
  • 超大规格VM迁移过程中,保持业务不抖动。

关键热迁移成果

  • 通过故障预测和热迁移实现ECS世界领先的稳定性SLA(99.975%);
  • 故障无感规避率:95%+;

c.  优势三:资源规划、多地域、压测保障、批量开服

 

除了提供以上能力外,在整个项目中还进行了一系列系统性的工作:

  • 容量初估/Buffer预估:

按照单台gameServer设计承载用户量和预计总用户量估算各模块资源使用量,按照历史经验确定预留buffer资源;

  • 实例选型:

按照各业务特性确定合适实例规格,配合规格规划(升级换代)、资源铺货量和客户需求时间点,推荐7代或者7代高主频实例+ESSD,例如电竞类我们会推荐7代高主频实例,满足电竞单线程性能和快速反馈体验需求,如MMORPG类游戏我们会推荐7代实例满足高配置,高性能需求;

  • 地域和可用区规划:

确定目标地域的合适可用区,确保可用区有充足的机柜资源,选取生命周期更长的可用区,保障S级游戏后续生命周期顺利扩展;

  • 压测保障:

专业团队保障上线前多轮压测,从功能、性能、稳定性等多层角度进行验证和性能压测,阿里云提供压测工具,或者客户自有压测方式进行上线前保障;

保障开服或合服:

确定规格和资源量后,确定批量自动开服方案,结合云上弹性特性,和游戏业务高峰和低峰期相配合保障业务能够正常开服或者合服,推荐ROS+OOS方案。

4.  客户价值

结合以上方案能力和全程的保障支持,客户业务侧也得到了相应的业务价值,包括:

a.  极致性能体验

神龙架构第七代实例,高性能、低延时体验;

b.  业务无中断

超强稳定性能力,超大内存规格无损迁移能力;

c.  承载百万级玩家

多可用区数万核资源供给,保障快速开服。

阿里云S级新游上云最佳实践相关推荐

  1. 注入游戏没有焦点_《热血传奇怀旧版》即将登陆咪咕快游 盛趣游戏端游上云再落一子...

    盛趣游戏云游戏业务开始提速.日前,回归最经典版本的<热血传奇怀旧版>重聚测试开启,并将独家上架咪咕快游云游戏平台.这是盛趣游戏与中移动咪咕互娱共建的擎云工作室正式落地后,双方在云游戏又一实 ...

  2. Knative 应用在阿里云容器服务上的最佳实践

    作者|元毅 阿里云智能事业群高级开发工程师 相信通过前面几个章节的内容,大家对 Knative 有了初步的体感,那么在云原生时代如何在云上玩转 Knative?本篇内容就给你带来了 Knative 应 ...

  3. 新客户上云 –虚拟机及相关服务常见问题集锦

    本课程汇总了 Azure 新用户上云在虚拟机及相关服务(如磁盘,存储,网络)使用中遇到的常见问题和解决方案. 虚拟机常见问题之系统重启 为什么我的虚拟机会被重启? Azure 平台计划内的维护和升级会 ...

  4. IIS服务在阿里云NAS上的最佳实践

    IIS服务在阿里云NAS上的最佳实践 在我们的上一篇系列文章<Windows IIS服务挂载NAS共享文件存储>中,我们详细介绍了如何利用阿里云文件存储(NAS)服务作为共享存储的后端搭建 ...

  5. 云效助力新金融DevOps转型——南京银行实践之路

    在2018云栖大会南京峰会企业研发云专场,由南京银行研发管理负责人吴攀带来了"云效助力新金融DevOps转型--南京银行实践之路"的主题分享.首先对南京银行的研发规模与成长做了介绍 ...

  6. 上云 企业 过程_企业上云有什么好处?该怎么上云?附操作步骤

    "工业互联网"作为新基建的细分领域之一,不仅被市场广泛关注,更在高层中被着重点名.先有国务院常务会议指出,发展数字经济新业态,依托工业互联网促进传统产业加快上线上云.后有工业和信息 ...

  7. 阿里云数据库快速搭建疫情分析系统最佳实践

    简介:疫情降临,疫情态势分析和防控任务迫在眉睫,如果快速搭建高效的疫情态势分析系统是众多部门和单位的难题,阿里云RDS PG+Ganos解决方案可在极短时间内完成分析系统搭建,有效助力疫情防控. 直达 ...

  8. 什么是企业上云?企业为什么要上云?企业上云包括哪些方面?

    企业上云是指企业通过网络,将企业的基础设施.管理及业务部署到云端,利用网络便捷地获取云服务商提供的计算.存储.软件.数据服务,以此提高资源配置效率.降低信息化建设成本.促进共享经济发展.加快新旧动能转 ...

  9. SpringCloud 应用在 Kubernetes 上的最佳实践 —— 高可用(弹性伸缩)

    作者 | 三未 前言 弹性伸缩是一种为了满足业务需求.保证服务质量.平衡服务成本的重要应用管理策略.弹性伸缩让应用的部署规模能够根据实时的业务量产生动态调整,在业务高峰期扩大部署规模,保证服务不被业务 ...

最新文章

  1. 【问题收录】Android Studio 2.2使用时出现问题总结
  2. html注册栏网页练习代码
  3. CRM One Order search max hit实现原理讨论
  4. 理财平台频繁暴雷,羊毛党该要本金还是撸利息?
  5. 【LeetCode笔记】42. 接雨水(Java、动态规划)
  6. BZOJ1423 : Optimus Prime
  7. m1芯片MacBook安装Apple优化版TensorFlow(虚拟环境)
  8. 如何用c 语言编写贪吃蛇,刚学C语言,想写一个贪吃蛇的代码
  9. 《码出高效 Java开发手册》第八章 单元测试 (未整理)
  10. PHP仿百度实现弹窗登录效果,js仿百度登录页实现拖动窗口效果
  11. 巧用EasyRecovery监控硬盘 为你的电脑保驾护航
  12. libevent c++高并发网络编程_高并发-网络I/O
  13. libfetion的使用
  14. 【PDF处理】java将全图片的pdf压缩,输出新的pdf
  15. 帮你写出更好的python代码:python函数应用进阶(一)——函数是对象
  16. python足球作画
  17. linux系统怎么下载
  18. haut 1262: 魔法宝石(dij+堆优化)@
  19. 聚美优品正式退市:陈欧下一个将为谁代言?
  20. datatable筛选条件_在DataTable中执行DataTable.Select(条件)

热门文章

  1. 运营推广-百度快照收录技巧
  2. 水溶性InP-ZnS量子点|基团:PEG-NH2、PEG-COOH、MPA-COOH、GSH
  3. camera中文版软件 ip_网络摄像机监控(IP Camera Viewer Pro)
  4. 基于ssm快递取件及上门服务微信小程序
  5. C语言字符型变量的存储和取值
  6. ai面谈技巧_AI时代的人际化技巧
  7. lytro 光场相机 重聚焦
  8. Mathorcup数学建模竞赛第六届-【妈妈杯】A题:淡水养殖池塘水华发生及池水自净化研究(附特等奖获奖论文、SAS和matlab代码)
  9. chown: changing ownership of ‘/var/lib/mysql/‘: Permission denied
  10. 标准化,归一化,二值化,One-Hot,卡方检验选取重要特征,主成分分析,缺失值和异常值处理