差不多在五年前,分布式系统已经成熟,微服务架构尚未普及,可观测问题就已经在桎梏技术团队的工作效率。一个To C的软件使用问题可能由客服发起,整条支撑链路的所有技术部门,都要逐一排查接口和日志,流程非常原始,也非常低效。如果业务到达一个量级,支撑系统变多,两名研发查上两三个星期也是常事。

微服务架构普及后,问题变得更加严峻。一个服务被拆分成数个黑盒的、虚拟的微服务,故障排除彻底成为一种折磨。这一切都使业务的可观测性成为2022年技术人必须关注的话题。

近日,博睿数据创始人兼CTO孟曦东做客InfoQ《极客有约》,与大家一起聊聊可观测技术究竟是什么?

以下为访谈实录:

InfoQ:微服务架构的普及对可观测带来了一些挑战,这些挑战又让运维领域发生了怎样的变化?

孟曦东:可观测不是一个新名词。2018 年,CNCF 将其正式引入 IT 世界,该理论的出现则可以追溯至 2014 年前后,主要来自于控制学,希望通过外部输出推断内部的状态变化。如今,技术栈发生了巨大变化,微服务可能构建在容器之上,容器又构建在虚拟机上,虚拟机则在物理机上,包括更复杂的网络支持,这让定位排障遇到了前所未有的困难。CNCF 之所以将可观测性带到微服务领域也是希望能有更好的能力控制系统的运行状态。

与传统的监控相比,可观测性的核心点还是有所区别的。监控可能更多在看现实状态的变化,很直接,但并没有表现出问题的核心点在哪。我们认为可观测性是对现今技术架构非常好的适应,可以用另外一种模型来判断风险所在位置,能更好地预防故障发生而不是简单地降级、限流。

InfoQ:如今,大部分企业还停留在粗暴的降级阶段,还是有意识做全局可监控?

孟曦东:可以分成两类,一类是发展靠前的企业,在业务体验或者用户感知能力上面要求较高,内部对此有很多 KPI,比如出现问题需要一分钟内发现,十分钟内解决等;另一类是农林牧副渔等领域的传统企业,目前手段还比较初级,只做到了单体的简单监控,整个上层的应用体系还没有完整建立起来。

InfoQ:具体到技术层面,可观测问题可以分为四类,分布式链路追踪、APM、NPM、RUM,方便介绍下这四者的核心思想吗?

孟曦东:从可观测性的建设体系来看,需要有三种类型的数据。RUM 可能更多关心的是用户侧,比如用户到底在使用浏览器、APP 还是小程序,使用体验如何或者整个运行过程中的数据能力是如何表现出来的;NPM 可能更多在描述链路层面,因为这是必备通道,是建立从前端到后台连接的必备过程,在描述整个数据流向的时候,流量数据又是什么样的表现;APM 把物理设备层面的能力提升到了以应用代码级为主,可以看最详细的代码状态,或者依赖的中间件以及 JVM 状态变化。整个链路追踪分段做数据采集,数据来源可能不同,但模型的核心是构建出一套完整的数据链条来帮助我们更好地判断业务受损到底是由哪个环节产生的问题。

InfoQ:APM 做到代码级别之后,还有进一步的改进空间吗?

孟曦东:改进空间肯定还是有的。第一,全链路可观测性需要了解代码的整体逻辑,这样才能更好地知道版本迭代时前后接口的变化;第二,我们也需要知道彼此之间的依赖项是什么,从技术内部来看,链路是非常多样化的,尤其是引用了容器云之后,随着 Pod 的增加和减少,链路变得错综复杂并且更加动态,我们需要有更完整的信息数据来支撑我们做故障定位。

InfoQ:国内外目前在可观测领域的技术发展现状大概是什么样的?

孟曦东:相对于国外来说,国内起步稍晚,我们可以看到国外有很多优秀的友商,在可观测能力的构建上已经非常成熟,他们还与 DevOps 做融合,加强安全方面的能力等。我认为国内在可观测性领域属于起步阶段,以博睿数据为例,我们今年才真正构建所谓的一体化全栈解决方案。

InfoQ:如何快速低成本地构建业务系统的可观测性?

孟曦东:构建一个所谓的可观测性系统有三个要素,一是要有数据;二是背后有一个强大的异构能力的数据引擎;三是需要有高效的查询。最直接经济的方案是看现在的情况是什么样的,哪些需要采购商业化的产品,哪些选择开源项目或者自研,最终对整体进行拼凑,这种方式会高效一些。

InfoQ:能否聊一下目前建设可观测体系通常的路径,比如说什么类型,或者什么规模的企业?

孟曦东:大体分为三类,第一类是自研的,比如头部的互联网公司,自己的研发实力或者研发资源非常多,在公司的发展过程中沉淀了很多有价值的东西;第二类是基于开源做二次构建,比如腰部的公司,打磨出一个可能适合自己或者组织规模的模型,或许 APM 就可以,不一定是可观测的解决方案;第三类是全部采买三方软件,通过这种方式构建可观测的能力平台。

InfoQ:目前市场上提供这种可观测的商用产品是不是也不多?

孟曦东:国外的产品不少,因为今年 Gartner 的 APM 领域调研报告也增加了可观测性象限,其中列出了一些新型公司。谈到可观测性需要解决的核心问题,也就是数据来源、对数据的理解以及分析利用,国内市场能完整覆盖的方案少之又少,国外在该领域的纯商业化公司更多一些。

InfoQ:大家比较熟知的项目 SkyWalking 是否适合微服务的架构?

孟曦东:SkyWalking 本身应该定义在 APM 领域更合适。如果是微服务,对探针端的能力是有要求的,据我们现在看到的,SkyWalking 还没有真正做到类似商业公司的探针技术,还做不到全智能的基于 K8s 的直接部署,动态探针以及自动命名。

InfoQ:可观测性技术在解决数据孤岛方面的作用是什么?

孟曦东:大多数用户的监控系统还是比较多的,可能有几套到十几套不等,因为监控系统也有可能是由于不同的组织内部不同的部门构建的,这样就势必会造成一个问题,因为没有从上层做统筹安排,把这些系统真正有机地组成在一起,供所有业务方去真正消费,孤岛问题就比较严重。我们希望能把数据从相互割裂的体系里面抽取出来,做一个统一的描述的模型,然后供不同的业务方去消费。不管是报警场景,还是运维场景,都可以落地到实际的业务场景里面,这样才能真正拉通。我们有一个很重要的特性就是三方数据的开放性或者兼容性,可以把现有的标准集成到一个平台里面,做统一的标准化,统一的模型建设,统一的落盘,然后再抛掉上层做不同场景的消费能力的支持。

InfoQ:AI 在监控领域的作用?

孟曦东:AI 赋能到监控领域分为几大方面的作用:第一也是最重要的是根因分析的能力,基础是建立一体化的数据平台;第二是希望可以做自动化的框架,不管是第三方的还是商业化的,通过我们的判断触发一些信息让业务做更有价值的动作,让人力可以得到释放。

InfoQ:如何看待国内可观测厂商 SaaS 发展的一个前景?

孟曦东:很多人都提出国内的 SaaS 发展与北美差异较大,我个人认为有几个要素:一是国内的市场环境或者技术栈还未到一定程度,北美也是从基础监控、做日志、做 APM 慢慢累积到现在这个程度的,美国云计算的发展领先中国五六年的时间,所以北美很多业务应用更习惯于放在几大云上;第二,国内存在一些行业政策的监管要求,比如金融领域可能有一些数据方面的安全要求,这也就限制了公有云标准化 SaaS 能力的交付;第三,产品能力,这个问题不该回避,国内的可观测能力确实还在起步阶段,在整个能力构建图谱上还有差距,如果产品没有打磨好或者没有特别好的能力价值输出,就会影响客户的买单意愿。

InfoQ:OpenTelemetry 项目目前在可观测领域比较受欢迎,这是为什么?

孟曦东:首先,OpenTelemetry 将原来部分定义的标准真正体系化了。我们很早就有了 OpenTracing ,但那只是定义了追踪数据的标准格式。任何企业或组织的技术人员,都希望能把某些能力标准化,这样不管是兼容第三方,还是自我迭代都会有一致性或者维护成本方面的好处。其次,该项目提供了非常丰富的 SDK 和 API 能力,可以让开发者和企业快速使用。最后,该项目基于 CNCF 基金会,其中有很多优秀的人物制订了标准。

InfoQ:在生产环境当中,如何选出靠谱的工具去解决可观测性的问题?

孟曦东:在生产中,环境是多样的,我们首先要找到能与当前业务发展情况较好匹配的工具,毕竟每一款工具或者平台都不是万能的,企业会有很多个性化的要求。对于企业级服务,是不是真的有一些标准或者制度可以约束出来,提供给 IT 人员做问题定位。在整个工作流里面,QA 测试完以后是否能覆盖到所有场景。

我们认为,对任何企业或者 IT 组织来讲,APM 工具都是必备的,因为可以把不同角色的人用同一种话术连接在一起。我们做运维、研发,或者业务 Owner,需要一个平台把这些标准融合在一起,避免大家产生不必要的纠纷。在 APM 之外,用户肯定还会再构建更完整的能力平台,因为不能只看到内部,还要看到除了数据中心以外的人的反应。因为这部分可能还会需要依托互联网,依托前端业务应用场景定位可能产生的问题,我认为这是一个有机的组合,根据不同的阶段以及人群使用场景构建出一套自己的体系。

InfoQ:博睿数据前段时间也在可观测这部分做了一些事情,发布了一体化智能可观测平台 ONE,我们怎么理解这里面的“一体化和智能可观测”?

孟曦东:一体化,我们认为就是要全面,数据能力要能覆盖到整个系统的云管边端的全数据链条。第一步是用三方能力接入或者博睿数据提供自己的数据采集能力把它构建起来。第二步体系化或者标准化的过程,真实构建一个立体的组织模型,否则会导致治理或者定义指标能力时出现混乱。第三步,我们认为一体化也是为 AI 提供一个底座,我们认为未来 AI 的价值不可或缺,在主动巡检、过程中的异常监测以及后面的根因分析,AI 技术在其中发挥了很大的价值。

InfoQ:国内目前可观测市场的未来发展技术方向是什么?博睿数据后续有什么规划?

孟曦东:如果我们认为 IT 运维是为了业务做服务或者做支撑,不是成本中心,IT 本身就会离业务越来越近,这肯定是一个必不可少的发展路径。反过来想,希望 IT 输出的价值可能也会发生改变,所以我们认为可观测性本身的核心定义就是 Google 谈的定位问题。如果业务是敏捷的,某个时间点的弹性或者高可靠无法代表全局。随着业务规模的逐渐膨胀,可观测性需要真正把冲突从根上解决,因为最终还是要定位问题,通过定位到的问题做好事前的风险防范、事中的问题排障以及事后的反思。我认为可观测性肯定是未来,不管是由于云计算还是其他技术的发展。

博睿数据今年希望先把一体化做扎实,再在其上构建其他的能力模块。现在因为测试左移越来越流行,我们准备将安全与 DevOps 结合在一起,同时在知识库和其他一些 ITSM 工具的整合上面下功夫,希望能帮助到客户做成一个有机的定位平台。

在未来发展中,博睿数据将从可观测性的广度和深度两个方面出发,不断丰富标准化的数据。并基于此深化数据相关性,加之博睿数据自研的Swift-AI中台赋能,从而给出更多更精准的信息判断,帮助客户快速落地高效可持续的观测--判断--优化闭环。

【InfoQ】博睿数据CTO孟曦东访谈实录:可观测性技术是未来发展方向相关推荐

  1. 【洞见趋势】博睿数据创始人兼CTO孟曦东访谈实录:聊聊2023年重要战略技术趋势“可观测性”

    随着各个企业在数字化转型的浪潮中不断翻涌前进,IT业务复杂程度与规模体积爆发式增长,可观测性工具成为发展刚需.在Gatner发布的2023年需要探索的十大战略技术趋势中,"可观测性" ...

  2. 博睿孟曦东:致力于提升企业关键业务可靠性与稳定性使其IT质量可视化

    2017年5月17日,由中国专业的互联网内容传输整体解决方案提供商蓝汛ChinaCache联合中国数据中心工作组CDCC共同举办的以"绿色·开放·共享"为主题的2017中国数据中心 ...

  3. 乘风破浪携手共赢——博睿数据深圳渠道大会圆满落幕

    直挂云帆,乘风破浪行千里:一往无前,披荆斩棘迎万象.2021年9月9日,博睿数据携手华南地区渠道合作伙伴在深圳召开了以"从领先到领袖"为主题的渠道大会.与深圳地区合作伙伴代表共同探 ...

  4. 博睿数据与阿里云签订云原生核心合作伙伴计划,推动企业智能运维落地

    来源 | 阿里巴巴云原生公众号 ​ 5 月 13 日,博睿数据与阿里云宣布达成深度合作,重点发力企业智能运维领域.双方签订了云原生核心合作伙伴计划,通过博睿数据领先的拨测网络结合阿里云独特的 AIOp ...

  5. 重塑APM标杆,博睿数据战略升级助力企业数字化转型

    (博睿数据发布仪式) 2021年5月26日,由博睿数据举办的"服务可达 达者为先·博睿数据2021年战略升级发布巡展"北京站,在北京金茂威斯汀大饭店圆满举行!本次战略升级发布巡展不 ...

  6. 云原生时代,阿里云联手博睿数据让IT运维可观测更智能

    随着全球信息产业的变革,企业信息化的建设步伐不断加快,企业 IT 系统建设趋于完善,随之而来的是IT 系统日益庞大与复杂化,企业 IT 需求逐渐维护上往 IT 维护倾斜.据中商产业研究院发布的< ...

  7. 博睿数据拨测入场加速广电深度融合

    ​从文本时代到读图时代再到视频时代,广电深度融合的时代来了. 当下,主流媒体不断强化互联网思维,"触网"能力变得越来越强,主流媒体积极拥抱互联网,势必发生一场媒体融合的" ...

  8. 博睿数据智能监测终端全面升级,计算能力强大、用户体验真实性高

    长久以来,传统PC互联网的应用通过嵌入SDK的拨测方式进行应用性能和用户体验监测,具有一定的侵入性.而在万物互联时代,随着云计算.边缘计算.物联网等技术的崛起,企业对无需嵌码的"黑盒&quo ...

  9. 案例分享|智慧广电的“宽带加速”之路,博睿数据来“私人定制”

    几乎所有行业都在向智慧型方向进发,对于广电行业而言,也并不例外. 2020年3月2日,国家广播电视总局召开电视电话会议,贯彻落实中宣部等九部委联合印发的<全国有线电视网络整合发展实施方案> ...

最新文章

  1. Postmortem报告
  2. 数据预处理--噪声_为什么数据对您的业务很重要-以及如何处理数据
  3. 将活动工作表生成 PDF,并通过电子邮件发送
  4. 贝叶斯网络+推理+近似推理+变分法
  5. Java并发编程之CyclicBarrier
  6. 在 Chrome 调试 Javascript
  7. [FFmpeg] 编译官方例子
  8. tcc分布式事务框架源码解析系列(四)之项目实战
  9. 【渝粤教育】广东开放大学 中国文化文学通论 形成性考核 (25)
  10. css matrix矩阵,矩阵 | matrix() (Transforms) - CSS 中文开发手册 - Break易站
  11. GARFIELD@12-06-2004
  12. SpringMVC中的父子容器关系
  13. 从零开始的车牌识别课题设计(一)
  14. 18650锂电池保护板接线图_锂电池保护板的原理介绍保护板的构成和主要作用
  15. [AE] ArcGIS Engine处理Landsat8数据
  16. html怎么设置网页的大小怎么设置,css怎么设置字体大小
  17. Python|几十行代码带你简单实现模拟浏览器操作
  18. C/C++_atoi,itoa功能及其实现原理
  19. bus_dev_drv 模型
  20. one-stage-anchor-free CornerNet: Detecting Objects as Paired Keypoints

热门文章

  1. sip re-invite 详解
  2. SpringBoot知识清单
  3. Scrapy爬虫框架学习_intermediate
  4. 男人来自火星,女人来自金星(摘要)
  5. Textclassification
  6. jetson nano补充:根目录/usr刷机扩容 瘦身
  7. 《炬丰科技-半导体工艺》减少化学品使用的清洁优化
  8. 无法访问网络计算机用户账户限制,登陆失败用户账户限制可能的原因包括不允许空密码,登陆时间限制,或强制的策略限制...
  9. commons-math3-3.6.1-org.apache.commons.math3.analysis.integration-包下的类-中英对照文档及源码赏析
  10. 练习(三)——乳腺肿瘤(良、恶性)数据分类