如果一个技术团队不干别的,专门“搞破坏”,这是一种怎样的存在?这真的不是“天方夜谭”,在支付宝确实有这么一支队伍——技术蓝军。蓝军的任务就是不断地攻击和进攻,而防守方则是技术红军。在支付宝,蓝军从属于蚂蚁金服技术风险部(SRE),而红军则包括SRE及各业务部门的技术团队。

说到SRE,就需要科普一下了。SRE全拼为Site Reliability Engineer,是软件工程师和系统管理员的结合,是一种要求极高的技术工种。据说,目前全球只有少数几家顶级互联网公司拥有真正意义上的SRE团队,蚂蚁金服是其中之一。

由蓝军主导的技术攻防演练就是那个传说中的“疯起来连自己都打”的项目,今天,就来起底一下这个神秘的项目。

从“青铜”到强者

红蓝军技术攻防演练与蚂蚁金服技术风险部的发展息息相关,而蚂蚁技术风险的演进轨迹和游戏中的不断打怪升级非常相像。

早期是质量+运维+架构师三角协同,各司其职并自发性的开展一些技术风险相关的工作。2013年,蚂蚁金服技术团队提出了质量2.0战略,以统一的规章、统一的流程和统一的阵型,开始体系化地沉淀故障检测等方面的平台化能力。

大概一年后,也就是2014年,专门成立了技术质量部,从全域视角解决技术风险的问题。

2015年,技术质量部正式升级成为技术风险部,专注研发及架构的技术风险问题,并完成相应解决方案和落地的平台。

2016年,技术风险部再次升级为SRE团队。

SRE团队组建后,就开始全面开展故障自动定位、自适应容灾、防抖、精细化高可用等工作。其中防抖这块,要保证任何的网络或基础设施抖动,用户都无感知;而精细化高可用,又叫单笔高可用,其颗粒度可以精准到用户的每一笔交易,远远优于行业内的机房级高可用。

同时,那个热衷“找茬”的组织——技术蓝军也正式成立。这个专门的、拥有独立职能的团队不干别的,主要职责是挖掘系统的弱点并发起“真实”的攻击,红蓝军技术攻防演练也自此诞生。

牛X的是,技术蓝军并不对各业务方负责,只对应用架构及防御系统的稳定性和可靠性负责。在蓝军眼中,故障的发生是必然的,只是时间早晚而已。蓝军只有想尽办法去触发这些故障,这样,在故障真实发生的时候,才有足够的应付能力。

所以,蓝军发掘各类脆弱点,并通过红蓝军技术攻防演练,不断验证防御系统的可靠性。而故障防御系统及不断优化的高可用架构则是由SRE团队的红军与各业务深度合作,沉淀、构建出来的。


技术蓝军正在进行作战部署

现在,全栈级别的技术攻防演练每周都在进行,蓝军似乎对“疯起来连自己都打”很上瘾。

利矛与坚盾不断升级

持续不断的攻防演练,让蓝军和红军的技术能力得到了极大地提升,同时双方“武器库”也在不断升级。

2017年秋天,蓝军团队在成立后的两个月内,自主研发了字节码级别的故障注入系统Awatch,这个武器的厉害之处在于可以实时地对运行中的业务系统进行任意链路的编织侵入。这对于对于技术蓝军以及整个红蓝攻防体系,具有里程碑式的意义。

蓝军研发出了厉害的武器,红军也没闲着。

与此同时,技术红军的防控体系建设也在如火如荼地进行着,实时核对平台横空而出。该平台能够做到稳定的分钟级核对异常发现能力,在某些场景下可以做到秒级发现,并且平台提供了业务快速接入的能力;红军还在实时核对平台的基础之上,升级演化出一套智能核对平台(内部代号四道防线),引入AI技术自动识别业务问题,目前这套防线已经覆盖蚂蚁80%以上的业务。另外,各个业务域针对自身业务的一些特殊性,也研发了相应的核对系统。

尽管蓝军制造故障的能力有很大的提高,但大部分的故障场景主要是各个业务方提供的,只有极少数是蓝军人工梳理业务或者分析代码产出。此时,蓝军团队认为,日常演练常态化,在故障场景发现方面不能再依赖业务,必须建立自主发现故障场景的能力。


用“可乐山”明志,是程序员常见的套路

2018年3月,蓝军推出故障场景挖掘平台,基于Awatch探针探测应用内数据流,以此进行“弱点挖掘”。这套弱点挖掘体系,能够自动发现故障场景,最高能够在5分钟内产生500+的故障场景,红蓝攻防的日常演练的最为重要一块拼图终于完成!

然而新的问题来了。

蓝军的故障挖掘平台能力毋庸置疑,但有攻击就需要应急,高频攻防实施亦会给红军带来大量的人力消耗。持续应急压力驱动,红军开展““故障自愈”架构体系升级及能力建设,以效能为目标,结合仿真,红蓝军一起研发了“无损”攻防体系,并且推出与之匹配的度量平台,自动度量攻防结果,数据可视化。

目前,常态红蓝技术对抗保持每周200+个故障场景的节奏在持续运作。

常态化的红蓝 “互怼”

在线、实时、随地、无差别……这是支付宝技术蓝军实施攻击行为的几大标签。

2017年年底的红蓝技术攻防周,技术蓝军发起攻击,但由于故障组件一处隐藏bug导致故障命中数量远远大于预期,给红军增添了不少麻烦,业务线的技术同学投入大量的人力和资源进行善后。此情此景之下,红军方面不仅没有抱怨,反而给予蓝军鼓励,“这次预期外的故障攻击是最真实的应急锻炼!”

2018年年中的一次红蓝技术攻防中,蓝军在周末发起突袭,而刚好红军的相关同学正在举办婚礼。于是,一群程序员赶紧拿出吃饭的家伙,噼里啪啦敲着键盘进行应急,那画面简直不要太美了。

还是在2018年的一次对抗中,红军祭出了“尖端武器”——自适应防灾、防抖等,这让蓝军吃尽苦头,几乎每次攻击都无功而返。挫败感飙升的蓝军最终放出大招,让红军接受了非常猛烈的炮火洗礼。

有意思的是,似乎蓝军攻击得越欢,红军的同学越高兴……虽然看上去很受虐,但却没毛病,因为蓝军攻击得越狠越深入,被挖掘和发现出来的技术风险就会越确定,防御系统的能力也会因此而得到提升。


除了设计缜密的防御措施防止袭击,程序员拜关公求庇佑也是“习俗”

令人震惊的是,为了防止蓝军的“袭击”,红军除了在防御系统方面下十足的功夫,每年期中和期末的红蓝技术攻防演练,红军都要举办一个仪式——那就是拜关公,除了叩拜,还得给驱邪镇恶的关公献礼,礼品包括旺仔牛奶、格子衬衫、键盘、香烟等。

风险防控技术全面开放

蚂蚁金服技术风险部门经过不断地升级,并将红蓝技术攻防演练形成常态化。除了每周进行全栈级别的演练,每年还会举行规模极大的“期中考试”和“期末考试”。这意味着,支付宝的风险防控体系持续地经受打磨与锤炼。

目前,支付宝的“红蓝对抗”演练已经沉淀出一整套成熟的风险防控体系,通过仿真环境模拟天灾人祸,去考验技术架构的健壮性及技术人员的应急能力,从而全面地提升系统稳定,实现系统的高可靠性和高可用性。

所谓的天灾和人祸。天灾指的是,当出现台风、断网、火情等极端异常情况的时候,系统如何快速应对。这有点类似于今年杭州云栖ATEC大会上,蚂蚁金服副CTO胡喜现场演练的异常断网情况下,“三地五中心”自动切换,保证支付服务不中断。人祸则是指因技术人员操作失误引发故障后,系统如何快速应。

在蚂蚁金融科技官网上可以看到,这些技术风险相关的能力已经对外开放,目前共有3款产品,包括容灾应急平台、全链路压测和资金安全监控;另外,还有3款产品,变更管控、巡检平台和黑屏运维管控即将上线对外开放。

原文链接
本文为云栖社区原创内容,未经允许不得转载。

蚂蚁金服红蓝军技术攻防演练究竟有多“狠”相关推荐

  1. 北京/上海/杭州 | 蚂蚁金服智能引擎技术事业部招聘知识图谱算法工程师

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! 蚂蚁金服 这里有来自国内外 TOP 互联网公司的资深从业者,也有多位近年阿 ...

  2. 【BDTC 2016】蚂蚁金服人工智能部技术总监李小龙:人工智能驱动金融生活

    [CSDN现场报道]2016年12月8-10日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所.中科天玑数据科技股份有限公司与CSDN共同协办,以"聚焦 ...

  3. ATEC倒计时14天|蚂蚁金服区块链技术:让善款来有影去有踪(内赠门票)

    小蚂蚁说: 考虑到加速回报定律,过去20年,科技对日常生活的改变可能比我们想象中的更丰富和立体. 只是,看不见,摸不着的技术是如何悄无声息地进行着这场革命?又是哪些技术完成了让"鸡毛蒜皮&q ...

  4. 蚂蚁金服人工智能部技术总监李小龙:智能金融实践

    蚂蚁金服人工智能部技术总监李小龙 7 月 22 - 23 日,在中国科学技术协会.中国科学院的指导下,由中国人工智能学会.阿里巴巴集团 & 蚂蚁金服主办,CSDN.中国科学院自动化研究所承办, ...

  5. 活动| 顶级专家、前沿课题,蚂蚁金服ATEC高校技术论坛即将启动!

    小蚂蚁说: 6月6日,蚂蚁金服将于全国范围内启动ATEC高校技术论坛巡回演讲活动,届时将有蚂蚁金服顶级专家进行前沿课题分享,是个不可错过的产学交流盛宴! 前言 作为蚂蚁金服ATEC科技品牌之一,ATE ...

  6. 解密!看蚂蚁金服智能调度技术如何优化客服中心资源调配

    导读随着互联网人口红利的逐渐消失,智能手机销量的停滞不前,网民的增长也大幅趋缓,市场已非昔日盛况.但与此同时,过去这一年,用户每日在线时长的增长却已超过30%,甚至超出了网民的增速.只有精耕细作来服务 ...

  7. 蚂蚁金服Docker网络技术实践

    以下内容根据演讲PPT以及现场分享整理而成. 主要内容提纲 一.docker网络分析 二.docker网络插件开发 三.蚂蚁金服的网络插件实践 一.docker网络分析 主要介绍三种docker网络, ...

  8. 独家 | 蚂蚁金服TRaaS技术风险防控平台解密

    小蚂蚁说: 在金融行业,风险防控能力的重要性不言而喻.而蚂蚁金服可实现高达99.999%的异地多活容灾,千亿级资金秒级实时核对"账.证.实"等能力也让业界有目共睹. 今年位于杭州的 ...

  9. 蚂蚁金服 TRaaS 技术风险防控平台解密

    在金融行业,风险防控能力的重要性不言而喻.而蚂蚁金服可实现高达 99.999% 的异地多活容灾,千亿级资金秒级实时核对"账.证.实"等能力也让业界有目共睹. 今年位于杭州的蚂蚁金服 ...

  10. 蚂蚁金服十五年技术架构演进之路

    来自:蚂蚁金服科技 蚂蚁金服过去十五年,通过技术重塑了支付服务.小微贷款服务.我们认为 Blockchain (区块链).Artificial intelligence(人工智能).Security( ...

最新文章

  1. char和vchar
  2. ssms 缺少索引信息_MySQL3:索引
  3. MapReduce-流量统计求和-分区代码实现
  4. 苹果iOS 14系统面板截图曝光:加入新墙纸设置
  5. easyui mysql手册_easyui api 中文
  6. java 二分查找算法
  7. Security log is full,only administrator can log on to fix the problem(安全日志满了)
  8. nyoj 523 亡命逃窜 【BFS】
  9. 达梦数据库连接工具简介
  10. Linux高级程序设计第三版电子版PDF
  11. 关于格林尼治时间(GMT)和DateTime相互转换的分享
  12. java使用HttpURLConnection检索网站时403错误处理方式
  13. 【原创】VBA学习笔记(6)VBE编辑器,VBA工程,各种窗口
  14. Mysql-binlog日志分析
  15. STM32 环境光传感器ADC采样
  16. mysql和oracle面试题_【SQL 面试题2】Mysql 和Oracle数据库
  17. python把二维列表转成一维列表
  18. 关于如何在word中使用EndNote引用知网的文献
  19. Oracle数据库学习基础
  20. 古文字识别助手与众包平台——项目博客二

热门文章

  1. 【PS3】二之国 白色圣灰的女王 日本制造的视觉效果
  2. C语言学习笔记《带你学C带你飞》P41-P61
  3. 计算机rankeq函数,Excel中的rank函数与rank.eq函数有什么区别
  4. 计算机减法函数word,Word中减法公式怎么用
  5. C语言用随机函数做猜拳游戏,c语言猜拳游戏
  6. Linux服务器查看Ip地址
  7. 读丁磊内部邮件有感“丁磊点评:微信5分 陌陌4分 易信0分 来往负分”
  8. Thinkpad T410加内存
  9. Mybatis-四大神兽
  10. 南邮 OJ 1408 火星探险