11 月 5 日,在 2022 杭州 · 云栖大会上,数字化安全生产平台 DPS 重磅发布,助力传统运维向 SRE 转型。

阿里巴巴资深技术专家 周洋

十四五规划下,各行各业全面加速数字化转型与升级。随着企业数字化业务规模变大,迭代速度加快,系统复杂度越来越高,如何保障业务稳定性这一话题也变得愈发重要。下述有几点典型场景和挑战:

场景一:分布式系统面临稳定性保障新挑战

近年来,虽然稳定性关注度日益提高,新技术蓬勃发展,重大故障依然频发且影响巨大。例如,2021年,某证券 IDC 故障 2 小时,导致客户无法交易,产生资损;某视频网站,服务器故障 3 小时无法访问,引发舆论……技术的不恰当使用、人为操作失误、硬件故障、自然灾害、安全攻击依然给生产带来极大风险。

场景二:政策引导IT系统稳定性建设平稳推进

随着数字化转型政策的推进,越来越多国民级应用诞生,大大方便了人们的日常生活,各个企业也相继推出自己的客户端。然而,大多数企业没有经历过多年互联网发展的锤炼,应对线上风险能力不足,亟需以最短时间完成稳定性运维能力的积累,少走弯路。

场景三:传统运维手段已无法满足要求

传统运维存在运维工具割裂、面向基础设施而非业务、被动运维、缺乏规范化的流程机制体系等问题。企业应遵循 SRE(Site Reliability Engineering)和平台运维(Platform Ops)的创新理念,通过软件来实现系统管理、问题发现、问题解决和自动化运维工作。

在现实生活中,无论建造摩天大楼还是家庭工程维护,在保证工程质量的同时,更重要的是避免出现安全事故,造成人员伤害,因此需要一套标准化的工艺流程、技术标准和验收手段等。在软件行业中,同样需要标准化的技术能力和方法论,来保障线上业务稳定性。于是,从 2018 年起,阿里巴巴集团便致力于 IT 软件领域的安全生产建设:一方面加强高可用架构的基础建设,另一方面,提供 SRE 转型的流程机制体系,配合可用性能力、组织能力和灾难恢复能力等目标,形成一套完整的安全生产方法体系。

为此,数字化安全生产平台(DPS)应势而生。DPS 浓缩了阿里巴巴十年运维经验,以 PlatformOps 为理念,以保障业务连续性为目标的一站式管控 SRE 运维平台,具备场景化、数字化和云原生化三大典型特征。

  • 场景化: DPS 以应急场景为中心,弱化组织架构带来的运维限制,同时,DPS 全面的监控和告警规则配置可以支持涵盖业务的各个场景。

  • 数字化: DPS 提供数字化监控大屏、智能化告警、智能故障定位、白屏化故障快恢手段和数字化度量、人员管理等能力,为企业数字化进程添砖加瓦。

  • 云原生化: DPS 以阿里云丰富的云原生产品作为技术支撑,且具备足够的开放性,可以与阿里云一方、二方和开源系统等进行关联。

数字化安全生产平台 (DPS) 作为阿里巴巴集团数十年互联网探索的沉淀,在平台的架构和演进方面主要关注以下几点:

  • 明确目标和场景: 安全生产是全局工程,其能力取决于木桶最短板。因此安全生产需要有明确的目标和场景,且保证主体框架的完整。

  • 打通组织架构: 安全生产不仅要解决人和系统、代码的问题,还需要解决人和人、人和制度的问题。因此安全生产需要阿里和行业的优秀技术在一个体系内集成和打通。

  • 面向未来架构: 安全生产同时关注成本和减少损失。因此,安全生产需具有一定的抗技术周期性,架构设计除了要兼容最新的技术栈,也要面向未来架构进行设计。

数字化安全生产 DPS 支持两大典型业务场景:“1-5-10”故障快恢和“变更三板斧”故障预防。

“1-5-10”故障快恢

数字化安全生产平台提供对应急事件和故障的发现、响应和恢复的全生命周期管理。“1-5-10” 对应故障的“1 分钟发现 - 5 分钟响应- 10 分钟恢复”,是定义故障处理的时效性目标。

  • 1 分钟发现: 通过建立围绕业务应用的全链路监控能力,能够实时监控业务健康度,如发现稳定性问题将秒级通报至应急保障服务组进行排查,降低故障发生的可能性。

  • 5 分钟响应: 通过建立应急响应渠道和全链路故障定位能力,能够快速拉通故障排查人员,基于AIOps智能故障定位和基于ChatOps进行故障状态更新和通知流转,提升故障处理效率。

  • 10 分钟恢复: 通过建立完善的故障快恢体系,基于方案内置丰富的快恢能力,能够根据不同的故障类型智能化推荐合适的快恢预案,缩短故障恢复时长。

“变更三板斧”故障预防

数字化安全生产平台 DPS 将极易引发线上故障的变更操作纳入稳定性管控体系,做到对变更操作的“可观测、可灰度、可回滚”。

在“变更可管”方面,我们覆盖完善的变更系统,极大程度减少对变更系统的改造成本;在“变更可控”方面,我们提供基于时间、人员等维度的变更管控规则,预防可能出现的风险;在“变更可用”方面,我们可自动发现变更引发的故障,提供变更回滚等智能化快恢能力。

如果您对于数字化安全生产平台 DPS 有任何疑问,欢迎使用钉钉扫描二维码加入钉钉交流群,期待与您共创!

数字化安全生产平台 DPS 重磅发布相关推荐

  1. 1-5-10 快恢在数字化安全生产平台 DPS 中的设计与落地

    背景 11 月 5 日,在 2022 杭州 · 云栖大会上,数字化安全生产平台 DPS 重磅发布,助力传统运维向 SRE 转型,在数字化安全生产平台 DPS 重磅发布中提到了 DPS 诞生的背景,希望 ...

  2. 阿里云数字化安全生产平台 DPS V1.0 正式发布

    作者:银桑.比扬 阿里云创立于 2009 年,是全球领先的云计算及人工智能科技公司.阿里云为 200 多个国家和地区的企业.公共机构和开发者,提供安全.可靠的云计算.大数据.人工智能等产品和服务.阿里 ...

  3. 星环科技数据安全管理平台 Defensor重磅发布

    随着国际互联网信息高速公路的畅通和国际化的信息交流,业务大范围扩展 ,数据安全的风险也在急剧恶化.为保障信息安全,国家陆续出台诸多安全相关的法律法规,尤其是 2021 年出台的<数据安全法> ...

  4. 开源企业级数字化服务平台——Choerodon猪齿鱼发布0.8版本

    Choerodon猪齿鱼是一个开源企业服务平台,是基于Kubernetes的容器编排和管理能力,整合DevOps工具链.微服务和移动应用框架,来帮助企业实现敏捷化的应用交付和自动化的运营管理的开源平台 ...

  5. 开源企业级数字化服务平台——Choerodon猪齿鱼发布0.11版本

    Choerodon猪齿鱼是一个开源企业服务平台,基于Kubernetes的容器编排和管理能力,整合DevOps工具链.微服务和移动应用框架,来帮助企业实现敏捷化的应用交付和自动化的运营管理的开源平台, ...

  6. 阿里云解决方案架构师张平:云原生数字化安全生产的体系建设

    2022 年 6 月 17 日,阿里云用户组(AUG)第七期活动在合肥举办.活动现场,具有十多年安全生产经验的阿里云云原生团队解决方案架构师张平,向参会企业代表分享了阿里云安全生产的产品和服务体系.本 ...

  7. 阿里宜搭重磅发布专有云版本、精品应用市场,助力政企数字化转型

    6月9日,在2020阿里云线上峰会上,"宜搭"重磅发布专有云版本和精品应用市场,为政企数字化转型提供高效.安全.可靠的服务.宜搭是阿里巴巴集团企业智能事业部自研的低代码应用开发Pa ...

  8. 服务器之后加码存储,浪潮信息重磅发布新一代 G6 存储平台

    作者 | 宋慧 出品 | CSDN云计算 提到浪潮,业界首先想到的是浪潮信息服务器占有的优势和市场份额.不过,其实浪潮在存储领域也持续深耕和发力中.据国际分析机构 Gartner 报告显示,2021 ...

  9. 新时代 新营销 新增长, 纷享销客重磅发布CRM7.0产品,持续赋能企业数字化未来

    2020年4月26日,主题为"新时代 新营销 新增长"的纷享销客2020销售增长大会暨春季战略与新品发布会,在GMIC大会期间成功举办.纷享销客创始人&CEO罗旭发表&qu ...

最新文章

  1. 技术实践 | Web 端实现 RTC 视频特效的解决方案
  2. 软件设计原则(三)里氏替换原则 -Liskov Substitution Principle
  3. 如何使用SAP APF里的过滤器
  4. linux的apache安装在哪个目录,在linux系统下apache的默认安装路径在哪
  5. linux之安装mysql提示Error: Unable to find a match: mysql-community-server
  6. 〖Linux〗Kubuntu设置打开应用时就只在打开时的工作区显示
  7. 解密昇腾AI处理器--DaVinci架构(总览)
  8. c++11线程必须要懂得同步技术
  9. 案例学习BlazeDS+Spring之八InSync06“松耦合”UI同步事件通知
  10. 推荐几款压箱底的IDEA插件,撸码利器
  11. 添加三个字母即可免费下载百度文库的文档
  12. cad插入块_CAD制图初学入门:CAD软件中属性定义的相关应用
  13. 智能手机安全:黑客是如何秘密控制你手机号码
  14. 求闰年的c语言程序函数,c语言闰年(闰年的算法c语言程序)
  15. 判断变量x是奇数还是偶数
  16. 上传多张图片到oss服务器
  17. 江湖上再也没有摩拜单车了
  18. python基本函数的使用_python基础之函数的应用
  19. Android 音乐APP(一)扫描本地音乐
  20. java libjli.so_解决setcap导致Java加载libjli.so 失败问题

热门文章

  1. MySQL查询时条件的顺序_mysql中查询条件的先后顺序问题?
  2. 为什么要刷算法题与 MATLAB 刷题
  3. StarUML使用指南
  4. uniapp 微信公众号 扫一扫
  5. HKEY_CURRNT_USER和HKEY_LOCAL_MACHINE的区别
  6. 推荐两款java版开源的MES制造执行系统源码,免费分享
  7. MATLAB(十)方程式求根
  8. 11.树莓派博通BCM2835芯片手册导读与IO口驱动代码调试和测试
  9. 频谱分析幅值单位_示波器FFT查看信号频谱和设置的方法
  10. 快递物流查询,物流多次派件的单号怎样筛选