《“十四五”国家信息化规划》中建设数字中国的规划对我国的数字基础设施体系和数字政府建设水平都提出了更高的要求。在发展建设数字基础设施体系的过程中,政府需要采购软件和硬件系统。而《政府采购法》对单一来源采购的严格限制,就要求政府建设的IT系统要由来自于多个供应商提供的子系统组成。

多供应商IT系统

随着社会经济的发展和计算机技术的进步,社会数字化的进程也在逐步推进,更多的数字化场景被引入政府的工作和社会的生活中,随之用户数量也在逐步增加,这也意味着IT系统将承受更多的流量峰值场景。

IT系统要实现更复杂的功能、服务更多的用户、承载更大的流量,就意味着要引入更多的组件,这些组件来自于不同的供应商,涉及整个系统的诸多不同环节。更复杂的系统必然会引入更多的潜在故障,也必然存在更高的稳定性风险,这就对多供应商IT系统的稳定性保障提出了更高的要求。

对于复杂的多供应商分布式IT系统,简单地在测试环境中进行压力测试并不足以检验其潜在的风险。某大型股份制银行的红包秒杀活动系统即便是提前在测试环境做了数轮压测,在面对真正的流量时依然暴露出容量和IDC资源不够的问题。相似地,华南某知名股份制银行虽然积极地对活动系统在测试环境中进行压测,但还是连续三年都发生了不同的问题。

积极防御

分布式系统组成复杂、组件众多、发布频次多,这些特点意味着分布式系统中存在着大量的不稳定因素。如果在这些不稳定因素暴露问题之后再应对,就会陷入疲于救火的被动局面。因此,要保障分布式系统的稳定,就要采取积极防御的战略思想,对实际生产环境产生的流量进行模拟和预演,采用全链路压测和链路监控的技术发现和定位潜在的链路性能问题。

案例:浙大多供应商IT系统

2020年2月底和3月初是疫情管控的关键阶段,教育部要求全国高校实行远程网络授课的教学形式。面对特殊时期突发的流量高峰,许多网课平台在开课首日纷纷出现故障,给全国多地高校的教学工作造成了影响。而浙江大学7万师生进行网络教学所使用的浙大钉钉工作台、学在浙大等平台经受住了陡增的流量压力的考验,保障了浙江大学的教学顺利开展。这要归功于浙江大学信息技术中心引入的生产环境全链路压测和链路监控解决方案。

浙江大学网络授课所使用的IT系统是一个多供应商的系统。多个单位和供应商参与了浙江大学网络授课相关的IT系统的供应和支持工作。对于这样复杂的系统,采用简单的压力测试是不足以发现潜在的问题的。需要采取模拟真实流量情况的生产环境全链路压测方案,就像模拟考试一样检验系统的流量承受能力。

全链路压测与传统的压力测试仅支持单节点压测不同,支持将节点组合成场景进行压测,更真实地反映场景中的问题。全链路压测方案要模拟真实条件下的流量压力,要遵循三大原则,即一样的环境、一样的场景、一样的量级,以对真实的用户行为产生的流量进行模拟。浙大引入的全链路压测平台Takin采用的是基于JavaAgent来实现压测数据识别和转发的技术,它可以对压测产生的数据和正式流量产生的数据进行标识和隔离,将压测产生的数据写入影子缓存和影子数据库中。在JVM层进行数据识别及转发、影子库表隔离的技术方案能保障它既不需要侵入业务系统的内部改造代码,又可以避免压测流量产生的数据对生产造成污染。同时,该压测平台通过白名单管理、挡板等功能可以有效阻止压测流量流向外部第三方系统,进一步防止压测数据的泄漏。

通过实施生产全链路压测方案,浙江大学网络授课平台的多种性能问题被提前发现。根据压测报告,相关的企业和单位对系统中的设计进行了调整,包括对数据库链接的调整、对权限检查代码的优化、对获取身份逻辑的调整、对资讯服务的调整等。

经过一系列的工作,排除了潜在的性能风险,保障了浙江大学网络授课工作的顺利进行。2020年2月24日当天,学在浙大平台当日总访问量突破100万次,在线最高访问量11万余次,未出现性能故障。

1月21日高峰流量场景下的系统稳定性保障实践沙龙上数列科技的杨德华老师针对以上问题做了讲解,以下为ppt实录:

Takin开源地址:https://github.com/shulieTech/Takin

参考资料:

《现代教育技术》,2021年9期--全链路压测保障高校信息系统的探索与思考 ——以浙江大学为例

多供应商IT系统稳定性保障相关推荐

  1. 中国信通院正式发布“系统稳定性保障计划”

    为推动分布式系统稳定性能力建设,中国信息通信研究院(以下简称"中国信通院")倡议发起"系统稳定性保障计划"(以下简称"稳保计划").2022 ...

  2. 聚焦IT系统稳定性保障服务 PerfMa笨马网络完成亿元级B轮融资

    近日,国内专注于IT系统稳定性保障的企业服务公司--杭州笨马网络技术有限公司(下称"PerfMa笨马网络")宣布完成由博华资本领投,老股东高瓴创投跟投的亿元级B轮融资.这是该公司继 ...

  3. 大促场景系统稳定性保障实践经验分享

    简介:11月11日0点刚过26秒,天猫双11的订单创建峰值就达到58.3万笔/秒,阿里云又一次扛住全球最大规模流量洪峰!58.3万笔/秒,这一数字是2009年第一次天猫双11的1457倍. 每到双11 ...

  4. 大促场景系统稳定性保障实践经验总结

    简介:11月11日0点刚过26秒,天猫双11的订单创建峰值就达到58.3万笔/秒,阿里云又一次扛住全球最大规模流量洪峰!58.3万笔/秒,这一数字是2009年第一次天猫双11的1457倍. 每到双11 ...

  5. 3+1保障:高可用系统稳定性是如何炼成的?

    简介: 影响系统稳定性的架构设计有哪些?一个可持续保障的研发运维流程机制是怎样的?如何培养团队技术人员的意识和能力?本文作者以团队技术负责人的视角,从三大技术要素和一个业务要素,分享在稳定性建设上的实 ...

  6. 蚂蚁集团TRaaS技术风险防控平台入选中国信通院《信息系统稳定性保障能力建设指南(1.0)》最佳实践案例

    近日,中国信息通信研究院分布式系统稳定性实验室正式发布了<信息系统稳定性保障能力建设指南>(以下简称<指南>).蚂蚁集团应邀深度参与了<指南>的研讨编制,该指南收录 ...

  7. 信通院牵头数列科技参与主编的《信息系统稳定性保障能力建设指南》正式发布

    中国信息通信研究院分布式系统稳定性实验室正式发布了<信息系统稳定性保障能力建设指南>(下称<指南>).数列科技应邀作为主要编写单位,深度参与了<指南>的编写制定:同 ...

  8. 系统稳定性设计原则:简单、冗余、标准化、健壮

    作者介绍 淇公,蚂蚁金服技术专家.热爱java和一些函数式语言,长期关注系统稳定性领域 因为base在分公司,需要经常去总部出差,所以搭乘飞机成了家常便饭,很多时候坐在飞机上会不由的感叹,设计制造这样 ...

  9. 阿里云发布性能测试 PTS 2.0:低成本、高效率、多场景压测,业务稳定性保障利器

    618 来临,高峰时段的品牌直播间要同时容纳几百万人线上发弹幕.抢货.抢红包,如此大的用户体量.高频交互以及脉冲流量场景,对于后端服务器来说都是不小的挑战. 为了确保线上稳定性以及优质的交互体验,通过 ...

最新文章

  1. 一图看懂新一代人工智能知识体系大全
  2. 极客时间VIP年卡,任意专栏免费看,谁要?
  3. win32汇编系统函数简单小示例图解
  4. [css] css3和css2的区别是什么?
  5. 10-ESP8266 SDK开发基础入门篇--上位机通过串口控制ESP8266灯亮灭
  6. 免费且高质量的知识有的是,你只是不知道怎么找到它们!
  7. 遗传算法初学-旅行商问题
  8. 解决Eclipse开发工具Debug调试JDK源码无法查看变量值
  9. 网站页面直接显示html代码 转义html代码 excel导入题库 解决方法
  10. Oracle数据库的下载与安装教程详解
  11. CISSP-安全与风险管理
  12. 安卓投屏大师_【投屏】全平台全设备无线投屏工具幕享
  13. Vmlogin防关联超级浏览器Selenium浏览器自动化详细教程
  14. 报错解决:AttributeError: ‘Word2VecKeyedVectors‘ object has no attribute ‘save_Word2Vec_format‘
  15. BroadcastManager
  16. MySQL数据库备份详解
  17. 使用Postman访问k8s RESTful API
  18. android vulkan 游戏,王者荣耀Vulkan
  19. Web前端学习笔记——HTML5与CSS3之购物车宣传案例
  20. Kafka的消息自动提交和手动提交

热门文章

  1. 计算机主机光驱弹不出来怎么办,笔记本电脑光驱弹不出来怎么办(详细图解)?...
  2. 即将出,多院校发布初试成绩查询通知-文都管联院
  3. Linux c++ day09
  4. 同济大学计算机专业学科评价,同济大学学科排名!附同济a类学科名单
  5. win7系统如何安装python
  6. Java递归实现树结构(包含Java 8 方法)
  7. oracle新建用户 数据库,oracle创建数据库和用户的方法
  8. Prompt超过finetune了?Emm...
  9. 修改网站设置里的php版本号,Nginx服务优化(隐藏版本号、修改用户和组、设置链接超时)...
  10. About Face 一 - 目标导向设计