近日,TGO 鲲鹏会广州分会会员、世纪互联交付中心总监李少春作为 TGO 线上分享第五季的嘉宾,以直播的形式向大家分享了数据中心基础与服务探讨。本文根据当天直播内容整理。更多精彩内容请关注公众号:TGO 鲲鹏会。

\\

大家好,我是来自世纪互联的李少春。之前在一家大型上市家电公司从事网络管理及 IT 规划工作。现在在世纪互联做了十年,担任过网络、机房、解决方案等相关工作,现任世纪互联交付中心总监,负责数据中心交付与服务体系。

\\

今天我主要分享三个内容:

\\

  • 数据中心简介 —— 了解 IDC 的架构;\\t
  • 运维服务与人员配置探讨;\\t
  • 案例讨论,外包服务怎样才能更好的做到双赢?\

数据中心基础架构

\\

\\

谈到数据中心,一般都会谈及风火水电;谈到数据中心的配置,一般会谈到 N 、N+1 、2N+1 等,这些关系到数据中心的投资成本和客户的高可用性。

\\

配电系统

\\

\\

大家可以看到,上图顶部有两个变电站。好的数据中心一般最少都会从两个变电站,拉两路高压,当任何一路出问题的时候,另一路都能够撑起整个数据中心,确保高可用。中间的是高压柴油发电机组,这是数据中心的发电机,当多路市电同时出现问题时,可以由柴机代替市电来给 UPS供电。

\\

上图倒数第二行的是 UPS 机组和蓄电池组,这块的作用是当市电出现问题切换到油机时,UPS 可以给数据中心的服务器提供持续的电力供应,设计一般是可以维持 15 - 30 分钟。其实市电切换到发电机组正常的电力切换,一般会在一分钟内完成,多路市电、柴油发电机加 UPS 机组的三层设计,保证了数据中心用电的高可用性。

\\

这里跟大家讲一下 N 。当电的容量和设备的用电量刚刚好的情况下,就是 N ;当数据中心要提供冗余时,最少需要 N+1 。所以大家在选数据中心时,可以看几个参数:

\\

  • 它是否有多路的市电、它的容量是否足够?\\t
  • 柴油发电机组是否冗余?\\t
  • UPS 有没有冗余?\

空调系统

\\

\\

空调系统中规中矩,数据中心提供的都是恒温、恒湿的空调,但实际上国外有些也会把机房的温度、湿度调高,这个与节能息息相关。同时,空调也跟电子设备一样,会提供 N+1 、N+2 的冗余。这里面有一点要跟大家说明:一般数据中心的 UPS ,仅仅给我们的 IT 设备提供供电。

\\

当真正断电,油机还没来得及切换时,就会出现设备没有断电,但是空调停了的状况。这时数据中心的温度就会急速上升,从而导致服务器不断重启,这时候我们就要关注数据中心有没有提供空调持续的供冷、电路是否是有配备 UPS 等,如右下角这个图,这是一个蓄冷罐,它的作用,是 UPS 供电时,即使冷水机组没有提供工作,通过蓄冷罐,数据中心依然可以提供供冷,是高可用性不可或缺的一环。

\\

消防系统

\\

\\

数据中心有两点需要特别注意:

\\

  • 当听到声光报警时,一定要第一时间撤出机房;\\t
  • 不要去随便触碰数据中心。\

但国外的数据中心有可能不采用气体灭火,直接用水喷淋。他们认为,人的安全比设备的安全要更重要,所以采用了传统的水喷淋,这是第一点。第二点就是他们在 IT 架构上比较完善,由于机房在初期的冗余设计做的比较好,即使单个 IDC 出问题了,也不会影响业务的运转。这可能也是国内外的理念不同,国内的主要还是通过气体来进行灭火。

\\

监控系统

\\

\\

监控系统,包含了多个方面的监控,如视频监控,一般现在会保留 90 天的数据,同时也有相应的门禁防卫系统、指纹掌纹识别等,都是基础配置。

\\

运维工作与服务、人员优化探讨

\\

\\

大家可能不知道,数据中心运维工作起码有 100 - 200 项。那么如何确保运维的标准化?如何进行运维服务的优化提升?数据中心的运维人员如何进行配比?

\\

我们探讨下面几个场景:

\\

  • BAT 客户。比如腾讯,一般现场有驻场团队,都是由腾讯场驻场团队来完成;\\t
  • 现在很多成熟的互联网公司,大多数都集中在北京、上海等地。这类公司不一定有现成的驻场团队,但是他们有专业的运营团队,同时部署规划做得非常好;\\t
  • 南方的一些地方。南方其实是创业比较好的地方,所以也有很多草根公司是在这里成长起来。南方的公司比较实在,会有多点部署。同时,针对业务部署和业务发展情况,他们更希望把这部分服务交给现场的服务方来实施。\

\\

大家可以看到,上图是基础运维服务的一部分。服务的标准化,我们用一个案例来分析:

\\

\\

重启大家可能会认为是比较简单的操作,但其实也可以把每项工作细化,然后形成标准。上图是经过我们细化后的重启服务,总共有 10 个步骤。在形成最佳实践后,你可以把每项工作都按照这样细分,再打乱让员工排序。通过一段时间的训练,当员工接到一个操作单时,自然而然就会形成条件反射,用最标准的流程去操作授权。

\\

在标准之后,就要开始考虑优化,这里我们有引进两个概念:

\\

  • 标准工时 —— 通过 20 年的运维数据加权得出的合理值,我们认为员工能够在一定时间完成的用时;\\t
  • 实际用时 —— 员工在完成每一项工作后的实际时间。\

\\

上图的表格是一个示例,比如一个员工的工作记录汇总。根据这些我们就能看出员工的工作项目、工作量、以及工作饱和度,并可参考此项来确定员工相应的绩效和需要优化的地方。

\\

有趣的外包服务

\\

\\

大家对数据中心的了解,大部分集中在所托管的数据中心里。但我们服务的不仅仅是现有客户,其实还要做一些服务输出。我想在这里跟大家分享一个对多节点、分布式部署用户比较有借鉴意义的案例 —— 这项服务定义为人员输出的云服务。

\\

\\

案例中的公司在全国有 80 多个数据中心,在全国 20 个省份有 94 个节点,那么如果这家公司想在短期内完成多节点的调整和部署,需要面临很多问题。比如在短时间内和多家合作的公司进行沟通,需要把团队派到各地去实施,整体的人员参与成本非常高,人力压力也非常大。而问题在于,这家公司根本就没那么多人,满足不了这么大的部署。

\\

而对于有全国部署的公司来说,就有以下几点好处:

\\

  • 可以在一周内同时完成几十个数据中心的人员调配部署。整个服务标准统一、部署质量一致、部署效率高,既便捷又高效;\\t
  • 就近派人节约时间成本、差旅成本;\\t
  • 拥有数据最新的同步数据,不用担心人员流失而造成部署的延误。\

\\

接口非常简单,用户只需要对口这边一个项目经理,项目经理会对口各个区域负责人,各个区域负责人会协调各个区域的支撑团队完成工作,所以整个下来就会非常的顺畅。

\\

\\

上图是客户提出的一些需求。比如客户不用自己设库房,所有的服务器统一都会寄到指定的地方,会在用户有需求的时候,做设备的初始化配置。然后用户只需要填预上架表,就可以通过指定的合作物流把设备发到指定地点,同时进行设备的上架跟梳理。做完后,工程师会实时填写上架的图表并将信息验收表转交给客户。

\\

Q \u0026amp; A

\\

Q:运维部分踩过坑吗?

\\

\

A:踩过。每个公司都踩过各种各样的坑,不过还好我们的 SOP 流程是比较合理的。专业的公司都会把一项专业的工作拆分成多个细节或部门完成,配置更多的人员,和单独做事情相比,会较好的避免一些风险。

\

\\

Q:多人确认效率会下降,如何考虑效率提升?

\\

\

A:多人确认的项目,一定需要有专家团队一起审核确认之后才可以实施。我们一般都会在电力值守岗位配置两名员工,因为用户跟员工的安全才是首位的。

\

\\

Q:小公司建立数据中心,人员配备如何设置?

\\

\

A:小公司的数据中心最好交给专业的 IDC来做,无需自建数据中心。自建数据中心会存在几个问题:

\\

  • 没有那么大的出口带宽,被攻击的时候一下就会被打死;\\t
  • 运维人员没那么专业,出问题时应变、应急能力不足;\\t
  • 不节约成本。\

\\

Q:你们的 KPI 考核是如何做的?

\\

\

A:考核是多维度的,当一项工作标准化的时候,其实出错的概率就会很低。考核更多的是激励作用。

\

\\

Q:大机房的 DDOS 都是怎么防护的?

\\

\

A:大机房的 DDOS 防御分两种:一种是通过类似电信云堤的技术做防御,另一种分几个层面,1.自有机房,拼的是出口;2.跟运营商合作,允许添加权限,可以自己操作;不过如果是重点业务,我建议最好还是购买相应的流量清洗产品。

\\

另外,DDOS 其实有真正的动态 BGP 会非常好,动态 BGP 的好处是可以只跟某一运营商合作防 DDOS ,之后把攻击的流量通过 BGP 导到大出口的池子里,就可以实现防御。

\

世纪互联交付中心总监李少春:数据中心基础与服务探讨相关推荐

  1. BGP in the datacenter, 数据中心的BGP,数据中心网络架构,Clos网络架构

    数据中心的BGP 说明: 这是最近在学习<BGP in the datacenter>.由于原文是全英文.所以在学习过程中,利用谷歌翻译和网易翻译,再把翻译不通的地方,加上自己理解稍微改了 ...

  2. 数据中心网络规划设计,数据中心设计规范解读

    计算机网络系统设计方案时应遵循哪些原则 计算机网络系统设计方案时应遵循原则:1.网络信息系统安全与保密.2.网络安全系统的整体性原则强调安全防护.监测和应急恢复. 要求在网络发生被攻击.破坏事件的情况 ...

  3. 超大规模数据中心vs微型数据中心

    有人说,未来的数据中心差异很大,但也许其他的事情正在发生. 从表面上看,超大规模数据中心和微型数据中心似乎有些脱离人们对于未来数据中心的想法.但现实是他们是同一个硬币的对立面,或至少是一种补充的概念. ...

  4. 趣谈网络协议-第二模块-底层网络知识详解:4陌生的数据中心2CDN和数据中心

    趣谈网络协议-第二模块-底层网络知识详解:4陌生的数据中心2CDN和数据中心 1:CDN:你去小卖部取过快递么? 使用"中间仓库"来优化 网络中的"就近配送" ...

  5. [云数据中心] 《云数据中心网络架构与技术》读书笔记 第七章 构建多数据中心网络(1/3)

    7.1 多数据中心的业务诉求场景 7.1.1 多数据中心的业务场景分析 主流需求:虚拟化和资源池化,形成多活,可就近提供服务 1. 业务跨数据中心部署 2. 两地三中心 是指在同城双活的数据中心基础上 ...

  6. [云数据中心] 《云数据中心网络架构与技术》读书笔记 第七章 构建多数据中心网络(2/3)

    7.2 Multi-Site场景和设计 7.2.1 Multi-Site方案的应用场景 Multi-Site大VPC 通过一个编排起统一地对两个数据中心内部和数据中心间的网络进行编排,编排完成后将指令 ...

  7. 企业数据中心和互联网数据中心有何不同?

    数据中心按照服务对象的不同,可以分为企业数据中心和互联网数据中心. 企业数据中心指由企业或机构构建并所有,服务于企业或机构自身业务的数据中心,它为企业.客户及合作伙伴提供数据处理.数据访问等信息服务. ...

  8. 数据、元数据、数据库、数据仓库、数据中心、数据中台、业务中台 、(垂直数据中心、全域数据中心(公共数据中心)、萃取数据中心)

    数据是可电子化的记录.元数据是描述数据的数据,如数据张三 24,描述此数据的数据是name age或者A B. 参考:https://baike.baidu.com/item/%E5%85%83%E6 ...

  9. 数据中心与云数据中心

    数据中心与云数据中心 数据中心(DC,DataCenter)是指在一个物理空间内实现信息的集中处理.存储.传输.管理等功能,它包括服务器.存储.网络等关键设备和这些关键设备运行所需要的环境因素,如供电 ...

最新文章

  1. 深度学习七个实用技巧
  2. 常用SQL语句和HQL语句写法
  3. 人体识别_深度学习资讯 | 用于人体动作识别的26层卷积神经网络
  4. android:gravity与android:layout_gravity
  5. hive hql文档_Hive存储过程HQL/SQL(一)–hplsql命令行
  6. Python-三元运算符和lambda表达式
  7. 7-3 DAG图优化-A (15 分)(更新版)
  8. [docker学习笔记] 0.工具/环境
  9. YUY与RGB格式区别
  10. 国外15种手机游戏引擎和开发工具介绍
  11. 一句话木马上传常见的几种方法
  12. 2011美剧季终/剧终时间表。
  13. Express脚手架
  14. GameCenter Achievement相关问题
  15. 服务器信息 sid,裸金属服务器SID配置
  16. CentOS 7下配置hadoop 2.8 分布式集群
  17. 别人的【计算机视觉算法岗面经】“吐血”整理:2019秋招面经
  18. SNMP协议——网络管理概述
  19. 大一 计算机应用基础 进制转换
  20. VA虚拟应用匠心独妙,细节的精彩

热门文章

  1. tkinter简明教程
  2. 深度学习框架Keras的安装
  3. Stack Overflow技术报告给开发者哪些启示
  4. matlab电子课程设计,MATLAB课程设计(电力电子)
  5. 李嘉诚传给年青人的53条人生忠告
  6. 搭档之家:柯达股价异常飙升,盘内23分钟暴涨79%迎五次熔断
  7. 薄元近似(TEA)与傅立叶模态方法(FMM)在光栅建模中的对比
  8. oracle获取减一年,oracle日期减一年 oracle指定日期减一天
  9. python3 unicode字符串类型_Python str与unicode类型
  10. 步进控制薄图modbus通讯1200PLC通讯威纶通