阿里云+作业帮+小红书:论剑云原生时代的 SRE与智能运维
出品 | CSDN云原生
2022年4月12日,CSDN云原生系列在线峰会第1期“SRE与智能运维峰会”如期而至,本期峰会出品人、阿里云神龙计算平台稳定性负责人郑旭东(鹿棠)携手作业帮运维负责人聂安、小红书SRE业务运维组负责人陈鹏、阿里云高级技术专家周宇(屠虎),带来了一场云原生时代里,SRE与智能运维的前瞻观察和实践分享盛宴。 完整版直播回放请戳>>链接观看
下面先简单回顾本期峰会的内容。演讲视频、完整文章将从4月13日起在 CSDN云原生 微信公众号陆续发布,敬请关注。
SRE与智能运维的机遇和挑战
SRE全称Site Reliability Engineer,也就是网站可靠性工程师,其职责主要体现在交付、日常运维、容量管理三个方面。阿里云神龙计算平台稳定性负责人郑旭东(鹿棠)在开场分享中,将其发展归纳为五个阶段:
纯手工:单兵作战,突出个人能力
标准化:文档化、规范化、流程化
平台化:可视化、自动化
DevOps:突破组织边界
智能化:云原生、AI
在智能化时代,一方面,SRE团队面临着Everything is code,物理设施逐步被屏蔽,多云资源带来管理复杂性等挑战;另一方面,K8s让Infrastructure as Code成为可能,为SRE的工作带来无限的想象空间。
作业帮的运维转型
作业帮运维负责人聂安在回顾互联网运维发展史、作业帮运维转型和探索历程的基础上,将作业帮的经验总结为五条。
传统运维职责是将工业制成品组装成服务、交付给用户,并维持服务运转;特点是强依附于业务。
云原生时代,公有云大量使用、DevOps真实达成,传统运维的职责不断被外包、转移、替代,出现了领域危机。
运维转型,核心是提升角色认知。运维人,要把自己从依附的运营角色、调整为独立的运维服务提供方,运维即服务OPaS。
作业帮做了一些转型实践,比如CloudOps借助洋葱模型转型为云服务提供商,SRE全力拓展超服务视角。
对于运维来说,平台是服务能力最有力的承接方式,但平台不是唯一方式。组织、规范、流程、平台,一样都不能少。
小红书的跨云多活能力建设
作为一个社交媒体和电子商务平台,小红书被誉为“中国的Instagram”,近年来发展迅猛,已经到了一个比较大的体量,这对其技术架构提出了较大挑战。因此,为了满足业务增长、技术架构迭代、容灾要求等方面的需求,小红书开启了跨云多活能力的建设。
作为小红书SRE业务运维组负责人,陈鹏从多活筹备(服务梳理、可行性验证、技术招标)、多活建设(东西向流量调度改造、南北向流量调度改造、业务改造)、多活治理(预案建设、容量管理、巡检)三个阶段进行了全面分享,并提出多活DB数据同步终极方案:shardmanager。
阿里云神龙计算平台智能运维体系建设
神龙计算平台是一个百万级客户基础设施稳定性保障平台。阿里云在神龙计算平台基础上构建了一套智能运维平台,实现了数据采集、智能诊断、自动化运维、故障恢复等方面能力。
阿里云高级技术专家、神龙计算平台异常调度平台负责人周宇(屠虎)分享了阿里云是如何设计和建设这套体系,以及如何解决建设过程中遇到的技术难点。
问题和痛点=为什么要做建设这套智能诊断体系。
同类型智能化智能诊断运维产品调研与分析。
智能运维体系设计与实现,包括采集、诊断服务、算法支撑、自动化运维、故障快恢等核心组件设计思路,以及庞大体量背后,研发团队如何解决带来的问题。
聚焦云原生新技术、新实践,帮助开发者群体赢在开发范式转移的新时代。欢迎关注 CSDN云原生 微信公众号~
阿里云+作业帮+小红书:论剑云原生时代的 SRE与智能运维相关推荐
- 宕机事件为何频发?云原生时代,需要什么样的运维保障体系?
美联储支付系统宕机.亚马逊云服务宕机.国内 B 站等互联网服务平台宕机--近年来,全球范围内宕机事件频发,系统稳定性逐渐成为行业关注的焦点. 随着互联网服务深度融入生产生活,软件需要完成多样化的需求, ...
- 富士康服务器linux运维,【2019IT运维十大样板工程】富士康云桌面及智能运维项目...
富士康科技集团是专业从事计算机.通信.消费类电子等3C产品研发制造,广泛涉足数字内容.汽车零组件.云计算服务和新能源.新材料开发应用的高新科技企业.富士康在制造行业已经有30多年的历史. 随着业务规模 ...
- 无觅科技分析:小红书海外版云手机,养号增粉点赞利器
做跨境电商,需要不断找到新的流量洼地.低成本的流量,就意味着更高的利润空间.这就需要操盘手在新平台成长的早期阶段就先人一步,完成在该平台的流量布局. 小红书海外版,就是除了TikTok之外,非常值得关 ...
- python3 爬虫数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云——作业帮
python3 爬虫&数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云--作业帮 # 导入扩展库 import re # 正则表达式库 import collections # ...
- 阿里云智能运维的自动化三剑客
整理 | 王银 出品 | AI科技大本营(ID:rgznai100) 近日,2019 AI开发者大会在北京举行.会上,近百位中美顶尖AI专家.知名企业代表以及千余名AI开发者进行技术解读和产业论证.而 ...
- 博睿数据与阿里云签订云原生核心合作伙伴计划,推动企业智能运维落地
来源 | 阿里巴巴云原生公众号 5 月 13 日,博睿数据与阿里云宣布达成深度合作,重点发力企业智能运维领域.双方签订了云原生核心合作伙伴计划,通过博睿数据领先的拨测网络结合阿里云独特的 AIOp ...
- 阿里云日志服务SLS,打造云原生时代智能运维
2021年10月21日,阿里云针对企业运维难题,在云栖大会为大家带来了一场<智能运维论坛>的主题演讲.在会上,阿里云资深技术专家.日志服务技术负责人简志提出"云原生时代,企业业务 ...
- 秒云获得阿里云首批产品生态集成认证,携手阿里云共建云原生智能运维生态服务
近日,成都元来云志科技有限公司(以下简称"秒云")的云原生智能运维中台产品与阿里云计算有限公司(以下简称"阿里云")的阿里云容器服务 ACK 经过严格测试程序, ...
- 秒云获得阿里云首批产品生态集成认证,携手共建云原生智能运维生态服务
近日,成都元来云志科技有限公司(以下简称"秒云")的云原生智能运维中台产品与阿里云计算有限公司(以下简称"阿里云")的阿里云容器服务ACK经过严格测试程序,完成 ...
最新文章
- java 安装报错2503_Windows安装Node.js报错:2503、2502的解决方法
- lbp特征提取算法 知乎_计算机视觉基础-图像处理: LBP特征描述算子
- javascript --- Vue初始化 模板渲染
- java nature_Java Nature.nsf方法代码示例
- Java 8流中的数据库CRUD操作
- 无线路由与无线AP有什么不同
- c语言随机抽取小程序_C语言整人小程序,慎用,谨记!
- vmware不能resume问题,Collect Support Data,vmware.log
- 第五讲计算结果的可视化
- 修改双系统启动的名称
- CVE2014-6287分析报告
- Python的pandas安装超级详细
- 微信小程序转发功能详解
- 矩阵平方差公式成立条件的探讨
- 聚宽数据(JQData)本地化解决方案:基于MongoDB
- Android 之6.0 双向通话自动录音
- 如何设计出优秀的EDM邮件营销模板
- 计算属性(react)
- rufus 装windows11 系统 z790 msi 主板
- recovery 升级界面顶部花屏问题分析