精细化容量管理的设备成本优化之路

作者:梁定安,腾讯社交网络运营部,负责社交平台、增值业务的运维负责人,开放运维联盟专家委员,腾讯云布道师。

SNG社交网络运营部管理着近10万台的Linux服务器,以此支撑着腾讯社交业务海量业务与用户,如日活2.47亿的QQ、月活5.96亿的QQ空间(数据来源:腾讯2016Q2财报)等众多千万级在线的胖子业务。

面对业务体量的不断增胖的社交类UGC业务,如何能既保证业务的发展,又能有效的控制运营成本的增长?是运维团队迫在眉睫要解决的运营成本难题。经过不断的探索和深挖,我们庆幸在过去的2年中,找到了一条有效的设备成本管理的路子——精细化容量管理的设备成本优化之路,并连续2年,每年为公司节约过亿的运营成本。

众所周知,提升设备的使用率是运维界常用的管控运营成本的有效办法,那么如何能够针对不同的设备使用场景、不同的设备类型制定出适宜的度量与管理办法呢?请看腾讯运维在实践中总结出的6个方法:

方法1:性能管理法

在衡量服务器的使用合理性中,CPU使用率当仁不让的成为头号被关注对象。随着多核超线程技术CPU的普及,CPU负载不均的问题逐渐在海量运维场景下,成为了设备运营成本的吞噬者。

为了发现并优化多核CPU负载不均的现象,我们提出了CPU极差的度量指标,
CPU(极差)=CPU(max)-CPU(min),若CPU(极差)>30%,则该设备存在CPU使用率不合理的问题,需优化整改。
(备注:优化方法可参考多队列网卡优化与CPU亲和,本文不展开)。

同理,在分布式集群的模块容量管理中,运维规范要求实现模块的一致性管理,包括容量一致性,为此我们同样提出模块的容量极差的度量指标,模块CPU使用率极差= CPU最高的IP的CPU使用率 - CPU最低的设备的CPU使用率,若同模块下不同设备的CPU使用率极差>30%,则该模块容量使用不合理,需要优化整改。
(备注:一般此类情况源于配置、权重、调度等不一致管理问题,不问不展开。)

方法2:密度管理法

对于内存使用的合理性,很难直接用内存使用率来度量,为此,在内存型设备使用中,我们提出了密度管理的管控办法——访问密度。访问密度计算公式:,模块下的设备内存访问密度应该一致,否则纳入负载不均的一致性整改范畴。通过对全量内存型模块访问密度的统计分析,我们可以得出一条平均负载水平线,结合容量管理的实际需要,提高平均水平线或优化低于水平线的模块,都能实现优化设备成本管理的目的。同时,密度管理法也适用于SSD盘的使用场景。(备注:访问密度会受业务请求包大小的影响,但是在海量的运维场景下,个别情况可以忽略。)

方法3:特性管理法

特性管理法,同功能模块的QPS管理类似,就是用来衡量在特定业务场景下,业务逻辑的处理性能是否最优,要结合不同产品下的同类应用场景的QPS同比来得出分析结论。这种管理办法因业务逻辑而异,本文主要举例说明下。

例如,在移动互联网的业务运维场景中,有些场景是非常规容量管理手段能度量的,针对一些个性但是规模庞大的模块,我们提出了特性管理法。举个例子,QQ、QQ空间、信鸽等业务都有长连接功能模块,该场景的容量CPU少而使用内存多,因此可以使用每G内存维持的长连接数量来横向比较QQ、QQ空间、信鸽等业务,督促性能低的业务程序整改优化。

又例如,在直播场景中,有对主播视频实时在线转码的需求,不同的开发可能使用的转码技术方案不一,也可以利用同样的特性管理法来衡量在线转码的性能是否有优化空间。

方法4:碎片管理法

腾讯社交网络业务历史悠久,从“大哥”QQ到“新秀”企鹅FM,业务类型覆盖IM、UGC、多媒体、阅读、动漫、游戏、直播等主流的娱乐化社交玩法,其中有当红的产品,也有长尾的产品;有几十亿次每秒功能模块,也有几十次每秒的功能模块。碎片化管理法,就是针对请求量不高的小集群准备的。因为分布式高可用的运维要求,通常生产环境的部署最小单元都为2台设备,在物理机时代,访问量小的模块浪费成本严重,但随着虚拟化技术的广泛应用,该场景遇到的问题迎刃而解。利用虚拟化技术将硬件资源碎片化,让小模块可以很好的兼顾设备成本和高可用。

与虚拟化解决碎片资源利用率的方案类似,我们还有PaaS平台“蜂巢”,基于腾讯社交的标准开发框架SPP,解决小业务小模块的容量管理难题。(后续专题聊蜂巢。)

方法5:木桶管理法

腾讯平台级的业务,如QQ、QQ空间、QQ音乐等,基本上都普及了三地三活的SET(专区)容灾架构能力,这是真正意义上的异地多活。(正巧在923上海运维大会的海量运维专场,会有个主题与异地容灾的海量运维实践分享,如果大家感兴趣的话,诚邀大家参加。)对于平台级业务的运维,我们会根据运维规范管理的要求,将实现一定业务场景的多个模块划分为SET(减少运维对象),在不同的社交场景下,我们就得出了各种不同类型的SET,通过自动化运维能力扩大到SET的自动化运维能力,运维能很轻松的实现SET异地化部署,如此实现该业务场景异地多活的容灾容错。

再说SET的容量管理,平台级SET就意味着用户量和请求量不会暴增,那么对于SET的可运维性而言,我们必须要对SET的请求量和用户量等指标进行量化度量。为此,运维赋予SET一个可量化的指标,在我们的场景下,如在线用户数、核心请求量等视SET的用途而定,基于压测可以得到单SET的最合理的容量值,该值符合木桶原理,也就是我们的木桶管理法,SET由多个模块组成(SET=木桶,模块=木板),支撑一定的用户量,SET的容量管理就像木桶原理一样,木桶的水位高低取决于最短板,因此SET的最大容量取决于SET中性能最低的模块容量。

腾讯的平台级业务同时在线用户数是相对稳定的,也就意味着全国要实现多地多活,需要准备多少冗余容量是可预期可规划的,换而言之,要部署的SET的数量是能被提前量化的。同时,结合业务的自动化部署、调度方案、柔性策略和有损服务能力,我们就可以利用很合理的成本就能实现异地多活。

举例说明,假设我们共有1000w的同时在线用户,且用户量相对稳定,我们就可以规划3个支撑500w在线的SET,利用业务架构的调度能力分别让3个SET的容量平均化,在灾难场景时,1个SET不可用,另外两个SET可以完全容灾,在此规划下,极端场景2个SET不可用是要开有损服务的。通过量化SET管理,业务运维则可以灵活的根据成本管理的需求调整SET的容量水位,以达到最优性价比的高可用架构。

方法6:硬件选型法

关注硬件瓶颈,升级硬件降低单机运营成本。比如,过去做UGC内存存储时(QQ相册、视频),使用了大量2T硬盘,当4T、8T硬盘成本量产使用,及时的升级硬盘容量,可以有效的提升单机存储量,以规模效应实现花小价格换来了大成本。又如,在图片社交或视频社交的业务场景下,因玩法的多样性需求,会延伸出很多计算量繁重的逻辑,像人脸识别、鉴黄等功能,这时候选用GPU设备代替CPU设备,也是让性能飞的一种有效做法。(该方法尤为适用于UGC类的存储量只增不减的业务,如微云、网盘、图片存储、视频存储等。)

后记:

包括但不限于上述6种容量管理的方法,使得我们能在用户数据只增不减社交UGC业务中,能稳步的可持续前行。设备成本管理还涉及很多细节的技术手段和业务代码优化,本文只是从运维的视角阐述对容量管理的思考,希望能够抛砖引玉,对各位同行有帮助。带宽成本管理的优化带来的成本节省价值会更大,因为其中涉及的技术点和方法论更多,此文不深入探讨。

posted on 2017-05-08 12:10 赵大海 阅读(...) 评论(...) 编辑 收藏

转载于:https://www.cnblogs.com/zhaodahai/p/6824463.html

精细化容量管理的设备成本优化之路相关推荐

  1. WOT博科聂小云:WLAN网络容量性能设计和优化

    [51CTO.com原创稿件]就在上周,由51CTO主办的WOTA全球架构与运维技术峰会在北京富力万丽酒店隆重召开.本次WOTA设置了15大前沿热点技术论坛,60+来自Google.LinkedIn. ...

  2. 从Ops到NoOps,阿里文娱智能运维的关键:自动化应用容量管理

    作者|  阿里文娱高级开发工程师 金呈 编辑 | 夕颜 来源 | CSDN(ID:CSDNnews) 概述 1. 背景 随着业务形态发展,更多的生产力集中到业务创新,这背后要求研发能力的不断升级.阿里 ...

  3. 《球球大作战》游戏优化之路(上)

    自从2015年<球球大作战>发布以来,现已拥有五亿多的玩家.如此庞大的玩家群体,对游戏的画面,性能要求是非常高的.在Unite Shanghai 2019大会中,<球球大作战> ...

  4. 饲料企业精细化生产管理方案

    摘要:现代化的饲料企业需要用现代化的方法进行管理,只有脱去作坊型粗放化管理的外衣,才能实现工业化生产的精细管理.饲料企业的生产管理可以细化为十项日常工作,每一项工作的开展都要本着从虚到实.由小到大.由 ...

  5. Elasticsearch 索引容量管理实践

    作者:gavinyao,腾讯 PCG 后台开发工程师 Elasticsearch 是目前大数据领域最热门的技术栈之一,腾讯云 Elasticsearch Service(ES)是基于开源搜索引擎 El ...

  6. 从 Ops 到 NoOps,阿里文娱智能运维的关键:自动化应用容量管理

    作者|  阿里文娱高级开发工程师 金呈 责编 | 夕颜 出品 | CSDN(ID:CSDNnews) 概述 1. 背景 随着业务形态发展,更多的生产力集中到业务创新,这背后要求研发能力的不断升级.阿里 ...

  7. CSS代码重构与优化之路(转)

    CSS代码重构与优化之路 阅读目录 CSS代码重构的目的 CSS代码重构的基本方法 CSS方法论 我自己总结的方法 写CSS的同学们往往会体会到,随着项目规模的增加,项目中的CSS代码也会越来越多,如 ...

  8. 懂球帝Android客户端WebView优化之路

    导读 本文作者:涂晓龙 发布时间:2019-12-09 原文地址:https://mp.weixin.qq.com/s/MtEi6DgrNCO6HB2eQ0uBrw 这篇文章讲的是懂球帝Android ...

  9. 天弘基金移动App客户端架构优化之路

    天弘基金移动App客户端架构优化之路 随着移动互联网时代的到来,移动技术也随之飞速发展.如今,APP已成为绝大多数互联网企业用来获取用户的核心渠道.与此同时,伴随着业务量的增长,愈来愈多的APP也在不 ...

最新文章

  1. MVC模式与三层架构的区别
  2. 苏宁大调整中的三个关键
  3. 【跃迁之路】【448天】刻意练习系列207(2018.04.29)
  4. 【MM模块】Cycle Counting 周期盘点
  5. 吴恩达机器学习笔记(三) —— Regularization正则化
  6. 2017微服务 mysql集群_成功升P7多亏掌握了这几点:高并发+Nginx+微服务+Redis+MySQL...
  7. 用与非门设计血型配对电路_利用与非门CD4011做一个防盗报警器,那些高大上就这么简单...
  8. CF-1156F Card Bag
  9. 04-3. 统计素数并求和(20)
  10. 【转】深入理解Java:SimpleDateFormat安全的时间格式化
  11. avs php,linux 安装AdultVideoScript (AVS)全教程
  12. java web gradle_java web使用gradle配置详情
  13. 编程规范基础学习笔记
  14. 服务器接口文档详细 接口文档模板 规范 完整
  15. 安卓代码怎么设置省电模式_Android手机省电加速设置大全
  16. mysql 批量插入 性能_MySQL批量插入数据性能比较
  17. 维纶触摸屏程序实际项目,威纶通界面UI
  18. GB28181国标流媒体服务(LiveGBS)-支持海康8700等联网网关通过接入实现web端无插件直播...
  19. 陪孩子的周日-20220123
  20. 面试前端实习生 经验(1)

热门文章

  1. [15] 星星(Star)图形的生成算法
  2. NSTimer 增加引用计数, 导致内存泄露,
  3. plsql developer的一些使用
  4. linux查看cpu个数命令,Linux怎么查看物理CPU个数
  5. gsonformat安装怎么使用_车载蓝牙充电器怎么安装使用?如何运用
  6. mysql+翻页性能,mysql 翻页优化
  7. mybatis-plus 多列映射成数组_JavaScript 为什么需要类数组
  8. linux安装metasploit,centos如何安装metasploit
  9. gpt最大分区容量_[电脑知识]GUID(GPT)磁盘全局唯一分区表详解
  10. python递归合并排序_python 归并排序的递归法与迭代法(利用队列)实现,以及性能测试...