随着数字化转型的深入,基于中台和PaaS架构的一体化运维建设也在各行各业快速展开,但是如何将运维平台本身的能力与企业已有的工具能力进行中台化整合、工具场景如何联动,是个复杂而庞大的工程。

本次,史春志老师以华夏银行运维平台化的落地和建设过程进行分享,从“概述”、“基于蓝鲸的运维平台化建设”到“经验总结和未来的展望”详细阐述,希望能给予同业一些启示。

* 注:以下内容整理自:华夏银行运维经理 史春志 于嘉为蓝鲸2022研运一体创新峰会的精彩分享——《合纵连横:华夏银行iDo平台一体化运维的落地过程》

01. 概述

华夏银行围绕“移动化”、“开放化”、“智能化“、”平台化”制定了“智慧金融、数字华夏”的规划愿景,但如何支撑华夏银行整体的数字化转型,更快地响应前端的业务诉求,华夏银行运维团队面临着大量新技术、新应用、新架构的挑战:

为更好的支撑数字化转型,华夏银行明确运维平台化建设的目标:围绕自身业务特点,抽象运维所需底层的能力,通过构建通用能力的平台,横向覆盖大家都认知的监、管、控各个领域,纵向支撑组织架构的应用管理、系统管理和网络管理,实现:

  • 最大化复用运维的在权限、配置、自动化、作业等通用能力构建场景;而不是重复建设工具来支撑场景;
  • 平台具备整合场景的能力,可以通过运维开发等手段,讲底层能力在上层场景需要时调用;
  • 横向在监管控、纵向上在网络、系统、应用均可以支撑和响应快速变化的业务需求;提供更好更快的运维支持能力;

建设目标明确后,我们基于蓝鲸打造了属于华夏银行的平台——iDo平台。“Do”有两层含义:一是响应平台的理念,即“做”,而不仅仅是“说”,提倡动手实干;二是低成本的运维开发工具“DevOps”,摘取字母“D”和“o”。

基于蓝鲸打造的iDo平台,底层是管控平台进行运维对象的统一纳管,使工具平台与运维对象之间能够建立有效连接,中间层为作业、配置、数据平台为代表的运维通用能力,除蓝鲸自身的能力之外,也可以进行能力的拓展和优化将华夏原有的自动化、运维管理等能力融入进来。以API为脉络和纽带,连接起平台本身和周边工具的能力和数据,达到场景贯通的目的。

同时,蓝鲸通用的开发框架可以支撑行内依据自身需求开发应用工具,应用工具的不断建设也会反哺到能力中心,形成互相螺旋式提升状态,能力会不断地完善,场景会越来越丰富。

02. 基于蓝鲸的运维平台化建设

1)平台层统一对接

① 认证扫码

在引进蓝鲸之前银行内部已经建设大量的运维相关应用和系统,引进蓝鲸平台之后,首先要做的就是进行人员组织架构的对接、同步,并通过认证扫码登录,通过与认证系统(ITIL、企业微信等)做统一认证、接入,目前可以实现通过扫码的方式快速登陆平台,同时行内的统一的组织架构信息,也给后续的权限管理提供了很多便利;

② 接入

目前生产运维接入了300+的业务系统,纳管了12000+主机。通过能力中心的建设,共有400+API,同时基于平台通过场景建设了100+SaaS工具,并且这些规模数量还在不断增加;

③ 消息

iDo通过和短信网关、企业微信等通知方式的对接,将日常运维中的审批信息、告警信息、待办信息等等都实现了移动端的消息覆盖,让运维人员即使人不在值班中心也不会漏下任何的故障和工作信息;

④ 企业级管理

华夏在全国有40多家一级分行,几千个营业网点,目前iDo以完成了从上到下的统一管理,这里面平台的以业务划分,统一管理又相互独立的模式发挥了很大的作用,因为各分行有自己的运维人员,统一管理便于总行的整体的运营明确下一步建设优化方向,独立的应用又可以让分行运维人员依据实际的业务诉求进行个性化的调整;

2)平台化配置管理

配置管理在业内是建设的难点。华夏银行也有配置管理系统。在平台化建设后,首先同步数据、模型。行内重要的模型主要有业务系统、人员、IP等;

第二,进行流程上的控制。对配置管理做了流程上的对接,包括设备的上下线,人员的调整等,保证配置管理的准确性;

第三,改造原有CMBD API在用接口,统一封装到API网关中,与蓝鲸的CMDB功能一起做了统一的服务;

第四,数据消费。数据消费是目前CMDB建设的重点,通过强消费、场景化的建设,对CMDB的数据进行消费。这也是一个循环的模式,即有些不准确的CMDB数据,会通过消费场景来反映CMDB的准确性,确保CMDB数据的准确;

第五,自动采集项。自动采集也是CMDB建设的重点,由于很多数据单靠静态的管理,且没有在消费的场景里,容易导致数据采集不准确。通过自动采集插件反哺到CMDB中,从而确保数据采集的实时数据,实时反映CMDB的配置信息情况。同时通过可视化的展示不断完善数据的准确性以及数据采集插件,让插件继续丰富。

3)平台化监控管理

利用平台能力补足监控的不足,同时基于平台统一的开放能力,实现统一监控的汇聚等等。

华夏银行最早使用的监控产品是IBM、ITM。随着国产化趋势,“去IOE”行动,行内业务系统需同步进行信创化改造,使用国产化信创设备,因此银行使用蓝鲸监控,去逐步替代ITM的基础监控,通过蓝鲸对信创的基础监控实现统一纳管。

除IBM、ITM基础监控外,还有:

  • 蓝鲸监控、自定义监控、拨测、日志、关键字等监控,目前都在大规模使用;
  • 云监控,行内自研的应用监控,是根据行内的应用监控规范、基于蓝鲸能力开发的应用监控;
  • 第三方监控,比如APM监控、端到端的监控等。

行内监控极其分散,通过蓝鲸统一的开发框架,开发了统一的告警中心。接入蓝鲸监控、存量的ITM监控、云监控及交易监控,进行统一的告警汇聚、分级、收敛、处置、通知等,即在平台上集合了所有监控,并具有可视化大屏展示。

统一监控告警中心在华夏银行服务台以及各个项目组是一个非常受欢迎的产品。有了统一的告警的功能后,大家能够及时地查看系统的运行情况;同时基于统一告警进行了根因定位、故障画像等相关方面的研究,也已经开始投入应用了。

4)双Agent模式解决国产化自动化难题

在自动化(控)方面,华夏银行原来的自动化产品是用国外的BMC,在使用过程中会遇到国产化兼容的难题。通过蓝鲸Agent、BMC Agent这种双Agent模式,解决了国产化自动化的难题。

在双Agent模式下,通过蓝鲸的自动化能力去纳管国产化设备,并且两种Agent同时运行。双Agent模式支持在业务无任何感知的情况下进行国产化的替换,最大化兼容了稳定性和自主可控的要求。

随着国产化新设备的上线,银行将围绕业务生命周期,逐步切换到蓝鲸Agent,同时保持用户的使用习惯。目前已有30+套国产化架构的业务系统通过蓝鲸进行自动化投产和变更,未来将通过增量业务逐渐进行替换,实现国产化的适配。

5)容器自动化管理

行内华为云X86、华为云ARM、道客云均是通过容器实现自动化管理。每个容器云厂商有各自的管理模式,难以统一管理。通过容器的自动化管理,可对不同厂商、不同架构的容器云进行统一的容器管理,包括应用定义、多集群的纳管集群的运维、容器应用的运维等等。

典型的管理场景举例介绍:

① 平台化资源交付

平台能力层有强大的开发能力,能串联自动化、流程、CMDB三方面能力实现资源交付的申请。整个可视化的流程编排可以增加API、审批流程的管理,全部实现线上化审批。举个简单的例子,堡垒机场景会增加主机、权限以及密码托管等,只靠提单来完成资源交付会很繁琐,但通过平台化的资源交付,审计堡垒机时依托平台的开放能力,把API和审批流程串起来,在用户申请后,堡垒机的管理员只需通过API加流程完成,替代手工操作,资源交付的效率大大地提升了。

另外,通过可视化方式呈现资源交付的成功率、交易量、交易类别等多维度的数据,直观呈现服务运营的价值,即平台资源化。平台资源化会有各种服务,现能通过平台化的流程管理,实现可视化编排。

② 平台能力中心可持续交付的服务

蓝鲸加上企业自有系统服务的封装,使得平台层的内容场景丰富,API流程控制、统计等能力增强。目前平台能力中心主要的业务功能是能力的上传、申请以及使用等。

首先,能力自定义、自服务上传。如希望把原来第三方系统放到统一能力中心,那可通过能力中心的SaaS应用,实现注册、申请,最终上线到统一的能力中心。

第二,使用人员的申请。目前的使用人员不局限于运维,也有部分的应用运维人员、系统运维人员以及开发人员,他们通过平台能力中心,申请各自所需的能力,然后再去组装SaaS应用。

如下是接口授权调用的逻辑。在申请时SaaS相关的信息、使用申请、使用说明、申请时限等都会反映到流程中,通过审批后会再反映到用户的实际调动中。

前端的使用统计。主要是统计成功率、使用次数、SaaS的调用使用量以及接口的使用量等。

6)一个iDo平台可以带来“百花齐放”, 平台有100+SaaS工具

网络层面是相对独立、专业的运维领域,分行的网络告警是通过平台提供服务。目前行内网络团队通过底层能力,将告警统一接入到平台上,基于平台开发了SaaS服务。

在系统层面,蓝鲸本身是应用视角的平台,而系统层面会注重整体视角。行内通过赋予用户权限,例如提供50套系统的权限,通过API对这50套系统获取数据,再在这上面做一层以系统为视角的SaaS应用。现银行的一些系统类、数据库统一管理的视角的SaaS,便是基于这个方式实现的。如数字魔方,TongEasy分析、GTP智能运维,也都是系统层面统一运维的SaaS应用。

在应用层面。交易的成功率、交易量、响应时间、数据库连接都是基于自研的云监控去完成。核心/借记卡监控也是属于应用监控的范畴。

因此,我们是基于这一个平台提供的统一能力,不断地丰富各个层面的场景,从而实现华夏银行的运维平台化的建设。

03. 经验总结和未来的展望

引入蓝鲸平台后,从搭平台框架、融合协同、场景拓展演进,最终实现iDo平台智能化。

通过本次平台化建设,助力运维价值升级:

① 打破传统运维的思维

通过平台工具建设,解放运维繁琐的工作,实现运维管理横向扩展,借助平台能力实现原来难以实现的场景,提升自身的价值;

② 需求开发周期迅速缩短

通过平台快速试飞的应用开发场景,新的需求开发周期会迅速缩短;

③ 迅速提升运维人员能力

运维不再是一个简单重复的工作,通过对平台能力的抽象、平台开发框架的工具文化的赋能,运维开发对运维人员是一条很好的转型之路;

④ 为业务发展提供更多的决策依据

依靠腾讯蓝鲸在运维行业的引领,我行的金融运维产品可以对外输出,体现更高的价值。

运维得天独厚的一个优势,是我们能够获取实时的数据,更贴近地去体现业务的价值,并通过平台化能力及快速开发模式来辅助运营,为业务发展提供更多的决策依据。

详解华夏银行iDo平台一体化运维的落地过程相关推荐

  1. 美信监控易:石油销售公司全省IT一体化运维解决方案

    美信监控易:石油销售公司全省IT一体化运维解决方案 在信息化.数字化时代环境下,物联网.云计算.大数据.人工智能等前沿技术在各领域得到了快速应用.作为重要战略能源储备的石油化工行业,也在时代浪潮的推动 ...

  2. 阿里云化身“智能云管”,助力中国联通首次实现大规模平台自主运维

    中国联通阿里飞天平台运维团队首次实现大规模平台自主运维,阿里云 TAM 团队化身"智能云管",携手中国联通开启运维合作新模式. 近日,中国联通阿里飞天平台运维团队(以下简称&quo ...

  3. 详解开发、实施、运维的区别

    对于很多还没有正式步入软件公司工作的小愤青,都不明确对开发,实施和运维的区别,所以对以后的工作定位也没有一个明确的定向,下面我将会给大家详解开发.实施.运维的区别. 1.开发的主要工作:开发重点在各种 ...

  4. java泰坦宙斯之战程序_详解Hadoop作业平台宙斯Zeus.pdf

    详解Hadoop作业平台宙斯Zeus 杨⻜ 分布式研发⼯程师 开源爱好者 技术顾问 邮箱:yangf_sky@163.com 博客:/yangfei001 微博:/u/1664659850 内容⼤纲 ...

  5. 青岛港:服务器虚拟化和动环的一体化运维管理

    作者简介: 韩玉强,勤智(北京)科技有限公司区域项目经理,拥有9年IT行业经历,具备丰富的IT运维产品实施和项目管理经验. 山东省青岛港始建于1892年,是世界第七大港.我国第三大外贸口岸,现由青岛大 ...

  6. tars框架php,TarsPHP: TARS-PHP是针对php使用tars二进制协议,以及tars平台整体运维、RPC等一系列能力的解决方案...

    TARS-PHP TARS-PHP是针对php使用tars二进制协议,以及tars平台整体运维.RPC等一系列能力的解决方案.它主要由如下的几个部分组成: 如果你想要快速的体验tars-server, ...

  7. 企业级大数据平台智能运维好帮手——星环科技多模数据平台监控软件Aquila Insight

    Aquila Insight介绍 Aquila Insight是星环科技推出的一款多模数据平台监控软件,为企业运维团队提供了一套统一.完整.便捷的智能化运维解决方案.通过丰富的仪表盘管理.告警与通知管 ...

  8. 第十七届“振兴杯”全国青年 职业技能大赛——计算机程序设计员(云计算平台与运维)参赛回顾与总结

    目录 振兴杯官网:"振兴杯"全国青年职业技能大赛 (zxbds.cn) 市赛前期准备与回顾 国赛前期准备回顾 大赛通知 国赛回顾 云网络试题部分 云运维及云开发部分 国赛总结 参赛 ...

  9. 自动化运维-----项目实战: 基于Ansible的云平台自动化运维系统

    文章目录 项目实战: 基于Ansible的云平台自动化运维系统 一.项目介绍 1.项目介绍 2.项目背景 二.项目环境搭建 1.项目目录的配置 2.远程服务器虚拟环境的配置 3.MySQL数据库配置 ...

  10. 大数据平台hadoop运维之hadoop入门-高俊峰-专题视频课程

    大数据平台hadoop运维之hadoop入门-5245人已学习 课程介绍         主要介绍hadoop生态圈的常用软件和基础知识,可使学员迅速了解hadoop运维的基础知识,并迅速掌握hado ...

最新文章

  1. Openoffice添加页脚页码页数页眉
  2. python爬取网易云音乐_Python 从零开始爬虫(七)——实战:网易云音乐评论爬取(附加密算法)...
  3. Java与Unicode
  4. 【Python Flask】SQLAlchemy增删改查总结;不重复查询某一列
  5. [Python]网络爬虫(七):Python中的正则表达式教程(转)
  6. 超过10%的 Firebase 数据库易受攻击并暴露数据
  7. 阶段1 语言基础+高级_1-3-Java语言高级_06-File类与IO流_02 递归_3_练习_使用递归计算阶乘...
  8. 全国车辆限行查询api 全国限行限号数据服务
  9. oracle函数 isex,求一条sql话语,按条件查询过期的客户信息
  10. Thread线程中的stop方法过时问题
  11. 牛客练习赛53 (E 老瞎眼 pk 小鲜肉) 线段树+离线
  12. 怎么查看自己本地的ip地址
  13. 数仓中的维度、原子指标、派生指标、衍生指标、指标分类、缓慢变化维等的含义
  14. 用英语详细介绍计算机系统的组成,第二节 计算机的基本组成及工作原理(国外英语资料).doc...
  15. java刮刮乐,Canvas实现简单刮刮乐效果
  16. 关于“质量”概念的理解
  17. 2016微信数据报告 大数据展示微信生活
  18. win7怎么修改系统语言
  19. BoardCast广播组件
  20. 北航计算机控制系统实验报告,北航计算机控制系统实验报告..doc

热门文章

  1. 蓝牙定位技术原理--蓝牙人员定位--蓝牙定位--新导智能
  2. 七大行星排列图片_太阳系九大行星排列顺序(口诀:水金地,火木土,天海)...
  3. DAPLink-Firmware
  4. 逻辑回归(logistics regression)
  5. python grpc报错Received message larger than max
  6. 少模光纤模式场的计算
  7. 蓝屏出现STOP:0X00000077是什么原因造成
  8. 最强大脑记忆曲线(1)
  9. linux 脚本 过滤 词,linux学习之shell脚本 - 文本过滤
  10. 我一个人吃饭 旅行 到处走走停停 也一个人看书 写信 自己对话谈心