出品 | CSDN云原生

2022年4月12日,CSDN云原生系列在线峰会第1期“SRE与智能运维峰会”如期而至,本期峰会出品人、阿里云神龙计算平台稳定性负责人郑旭东(鹿棠)携手作业帮运维负责人聂安、小红书SRE业务运维组负责人陈鹏、阿里云高级技术专家周宇(屠虎),带来了一场云原生时代里,SRE与智能运维的前瞻观察和实践分享盛宴。 完整版直播回放请戳>>链接观看

下面先简单回顾本期峰会的内容。演讲视频、完整文章将从4月13日起在 CSDN云原生 微信公众号陆续发布,敬请关注。

SRE与智能运维的机遇和挑战

SRE全称Site Reliability Engineer,也就是网站可靠性工程师,其职责主要体现在交付、日常运维、容量管理三个方面。阿里云神龙计算平台稳定性负责人郑旭东(鹿棠)在开场分享中,将其发展归纳为五个阶段:

  • 纯手工:单兵作战,突出个人能力

  • 标准化:文档化、规范化、流程化

  • 平台化:可视化、自动化

  • DevOps:突破组织边界

  • 智能化:云原生、AI

在智能化时代,一方面,SRE团队面临着Everything is code,物理设施逐步被屏蔽,多云资源带来管理复杂性等挑战;另一方面,K8s让Infrastructure as Code成为可能,为SRE的工作带来无限的想象空间。

作业帮的运维转型

作业帮运维负责人聂安在回顾互联网运维发展史、作业帮运维转型和探索历程的基础上,将作业帮的经验总结为五条。

  • 传统运维职责是将工业制成品组装成服务、交付给用户,并维持服务运转;特点是强依附于业务。

  • 云原生时代,公有云大量使用、DevOps真实达成,传统运维的职责不断被外包、转移、替代,出现了领域危机。

  • 运维转型,核心是提升角色认知。运维人,要把自己从依附的运营角色、调整为独立的运维服务提供方,运维即服务OPaS。

  • 作业帮做了一些转型实践,比如CloudOps借助洋葱模型转型为云服务提供商,SRE全力拓展超服务视角。

  • 对于运维来说,平台是服务能力最有力的承接方式,但平台不是唯一方式。组织、规范、流程、平台,一样都不能少。

小红书的跨云多活能力建设

作为一个社交媒体和电子商务平台,小红书被誉为“中国的Instagram”,近年来发展迅猛,已经到了一个比较大的体量,这对其技术架构提出了较大挑战。因此,为了满足业务增长、技术架构迭代、容灾要求等方面的需求,小红书开启了跨云多活能力的建设。

作为小红书SRE业务运维组负责人,陈鹏从多活筹备(服务梳理、可行性验证、技术招标)、多活建设(东西向流量调度改造、南北向流量调度改造、业务改造)、多活治理(预案建设、容量管理、巡检)三个阶段进行了全面分享,并提出多活DB数据同步终极方案:shardmanager。

阿里云神龙计算平台智能运维体系建设

神龙计算平台是一个百万级客户基础设施稳定性保障平台。阿里云在神龙计算平台基础上构建了一套智能运维平台,实现了数据采集、智能诊断、自动化运维、故障恢复等方面能力。

阿里云高级技术专家、神龙计算平台异常调度平台负责人周宇(屠虎)分享了阿里云是如何设计和建设这套体系,以及如何解决建设过程中遇到的技术难点。

  • 问题和痛点=为什么要做建设这套智能诊断体系。

  • 同类型智能化智能诊断运维产品调研与分析。

  • 智能运维体系设计与实现,包括采集、诊断服务、算法支撑、自动化运维、故障快恢等核心组件设计思路,以及庞大体量背后,研发团队如何解决带来的问题。


聚焦云原生新技术、新实践,帮助开发者群体赢在开发范式转移的新时代。欢迎关注 CSDN云原生 微信公众号~

阿里云+作业帮+小红书:论剑云原生时代的 SRE与智能运维相关推荐

  1. 宕机事件为何频发?云原生时代,需要什么样的运维保障体系?

    美联储支付系统宕机.亚马逊云服务宕机.国内 B 站等互联网服务平台宕机--近年来,全球范围内宕机事件频发,系统稳定性逐渐成为行业关注的焦点. 随着互联网服务深度融入生产生活,软件需要完成多样化的需求, ...

  2. 富士康服务器linux运维,【2019IT运维十大样板工程】富士康云桌面及智能运维项目...

    富士康科技集团是专业从事计算机.通信.消费类电子等3C产品研发制造,广泛涉足数字内容.汽车零组件.云计算服务和新能源.新材料开发应用的高新科技企业.富士康在制造行业已经有30多年的历史. 随着业务规模 ...

  3. 无觅科技分析:小红书海外版云手机,养号增粉点赞利器

    做跨境电商,需要不断找到新的流量洼地.低成本的流量,就意味着更高的利润空间.这就需要操盘手在新平台成长的早期阶段就先人一步,完成在该平台的流量布局. 小红书海外版,就是除了TikTok之外,非常值得关 ...

  4. python3 爬虫数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云——作业帮

    python3 爬虫&数据处理 爬取华为应用市场 APP应用评论(二)根据评论生成词云--作业帮 # 导入扩展库 import re # 正则表达式库 import collections # ...

  5. 阿里云智能运维的自动化三剑客

    整理 | 王银 出品 | AI科技大本营(ID:rgznai100) 近日,2019 AI开发者大会在北京举行.会上,近百位中美顶尖AI专家.知名企业代表以及千余名AI开发者进行技术解读和产业论证.而 ...

  6. 博睿数据与阿里云签订云原生核心合作伙伴计划,推动企业智能运维落地

    来源 | 阿里巴巴云原生公众号 ​ 5 月 13 日,博睿数据与阿里云宣布达成深度合作,重点发力企业智能运维领域.双方签订了云原生核心合作伙伴计划,通过博睿数据领先的拨测网络结合阿里云独特的 AIOp ...

  7. 阿里云日志服务SLS,打造云原生时代智能运维

    2021年10月21日,阿里云针对企业运维难题,在云栖大会为大家带来了一场<智能运维论坛>的主题演讲.在会上,阿里云资深技术专家.日志服务技术负责人简志提出"云原生时代,企业业务 ...

  8. 秒云获得阿里云首批产品生态集成认证,携手阿里云共建云原生智能运维生态服务

    近日,成都元来云志科技有限公司(以下简称"秒云")的云原生智能运维中台产品与阿里云计算有限公司(以下简称"阿里云")的阿里云容器服务 ACK 经过严格测试程序, ...

  9. 秒云获得阿里云首批产品生态集成认证,携手共建云原生智能运维生态服务

    近日,成都元来云志科技有限公司(以下简称"秒云")的云原生智能运维中台产品与阿里云计算有限公司(以下简称"阿里云")的阿里云容器服务ACK经过严格测试程序,完成 ...

最新文章

  1. java 安装报错2503_Windows安装Node.js报错:2503、2502的解决方法
  2. lbp特征提取算法 知乎_计算机视觉基础-图像处理: LBP特征描述算子
  3. javascript --- Vue初始化 模板渲染
  4. java nature_Java Nature.nsf方法代码示例
  5. Java 8流中的数据库CRUD操作
  6. 无线路由与无线AP有什么不同
  7. c语言随机抽取小程序_C语言整人小程序,慎用,谨记!
  8. vmware不能resume问题,Collect Support Data,vmware.log
  9. 第五讲计算结果的可视化
  10. 修改双系统启动的名称
  11. CVE2014-6287分析报告
  12. Python的pandas安装超级详细
  13. 微信小程序转发功能详解
  14. 矩阵平方差公式成立条件的探讨
  15. 聚宽数据(JQData)本地化解决方案:基于MongoDB
  16. Android 之6.0 双向通话自动录音
  17. 如何设计出优秀的EDM邮件营销模板
  18. 计算属性(react)
  19. rufus 装windows11 系统 z790 msi 主板
  20. recovery 升级界面顶部花屏问题分析

热门文章

  1. C++ builder 操作Excel方法(据网上资料整理)
  2. 1.机器视觉标准框架学习
  3. java编程者必须掌握的技术
  4. CListCtrl控件中InsertItem和SettItemtext函数的用法简介
  5. 建筑建材行业B2B电子商务网站方案:赋能建材企业转型升级,实现降本提效
  6. C语言中头文件和源文件的关系
  7. 计算机的类型和应用领域
  8. 2013年计算机专业,2013年计算机专业大学排名
  9. win7插着网线开机卡死,拔下网线开机正常
  10. 【整理】HUVEC、NIH3T3、H9C2、HaCaT、BXPC-3等细胞株培养时注意事项