MTSC2020中国互联网测试开发大会深圳站,于 2020 年 11 月 20 日至 21 日在深圳宝立方国际酒店召开,为中国质量保证行业奉上一场为期 2 天的技术盛宴,500+ 来自世界各地的测试精英们汇聚一堂探讨交流。来自阿里巴巴淘系技术部的董福铭(吾铭)、黄俊(豆豆)在主会场分享议题《手淘AIOPS实战-消息全链路智能监控》,现场反响非常热烈。

中国互联网测试开发大会 Mobile Testing Summit China(简称 MTSC)是由国内最大的移动测试技术社区 TesterHome 发起的软件测试行业技术会议,大会以“软件质量保障体系和测试研发技术交流”为主要目的。MTSC 大会于 2015 年举办第一届至今,已成功举办了六届,共有 1000+ 家企业,10000+ 测试工程师、测试经理、CTO 参会,受到了全行业的广泛关注,是中国互联网质量保证行业的顶级会议。

★  议题简介:

《手淘AIOPS实战-消息全链路智能监控》介绍如何通过SDK实现应用内链路日志聚合、采样率控制、统一降级开关等功能,打通客户端到服务端链路,实现IM端到端秒级排查。通过实时计算实现消息核心指标到达率/时延的实时监控。使用AI检测算法,替代传统的规则监控方案,解决规则告警准确率低、时效性低、规则配置复杂与耗费人力等诸多问题。通过NLP进行舆情智能分类,并结合全链路数据对预警问题进行分析定位,打造全链路智能监控排查平台。

★  业界点评:

艾辉(融360高级技术经理、《机器学习测试入门与实践》作者) :

  • 手淘AIOps实战案例的技术设计及应用效果让人印象深刻!

  • 区别于一般的链路监控,该方案用多种算法检测代替规则检测,在准确率、召回率等方面都有大幅提升。

  • Holmes异常检测平台更是实现了算法模型在链路异常检测场景的工程产品化。

  • 很值得业界同行朋友们学习借鉴。

孔令云(美柚测试总监):

手淘AIOps利用AI技术,在消息全链路监测中实现了百亿级消息数据的实时监控和异常检测,极大提高了消息到达率、及时性,为消息链路质量保障提供了坚实的技术支撑,同时也为行业树立了AI测试应用的光明灯塔。

前言


手淘App作为双十一最核心的消费者购物阵地,其中必然离不开第三个Tab页-消息,消息的价值在于打造新零售业务商业连接,帮助消费者进消费决策。每天消费者和商家沟通商品相关的价格、质量和型号以及款式和各种交易咨询及售后服务等;来自天南地北的淘友齐聚在直播间和群聊,不停的点赞,分享和盖楼;每天消费者接收着品牌号、官方号以及系统物流通知,平台营销活动通知,不想错过每一有价值的咨询和活动优惠;最近几年大促有很多新颖的互动玩法,从“战队群”到“亲情号”再到今年的“养猫互助游戏”,都离不开消息中台的支撑,同时也给消息稳定性保障带来了压力和挑战,消息质量团队在传统保障策略的基础上,在智能化监控领域做一些探索和尝试。


消息业务场景及系统架构


消息业务场景包含了社交互动、 客服沟通、交易提醒、优惠通知、品牌资讯等属性,核心目标是打造新零售业务商业连接,帮助消费者进消费决策;

为了支撑上面的业务场景,整个消息系统链路比较复杂,同时IM领域和其他业务最大的不同,它是端到端的链路,同时又要维护长连通道,消息从客户端上行链路到IM服务端分布式系统,然后再通过长连通道,下发到客户端下行链路,最终在端侧进行消息上屏;


消息全链路稳定性保障


随着业务的不断发展,消息系统也在不端进行架构升级,19年之前,我们面临一些问题,主要集中在链路长、排查效率低、没有端到端排查能力,系统监控分散,实时性差等;

结合着这些问题,我们就打造了全链路日志SDK,通过AOP的方式,不侵入业务代码,作为基础能力,同是融合了Metrics、Tracing、Logging三个唯独,进而实现全链路日志方案:

整体效果:打造手淘消息全链路智能监控排查系统,赋能消息及上层业务,实现业务指标实时监控、舆情智能分析、端到端全链路自动排查,有效缩短了线上问题从发现到定位的时间。提升排查效率达70%以上;日志量每天减少数百亿条;日志存储资源和采集资源减少50%以上;累计服务多个APP;问题排查次数达200W+;

智能监控在全链路体系实践经验


▐  传统监控的现状和痛点

▐  智能监控-特点&优势

  • 特点:

    • 学习历史数据,分析当前指标曲线趋势是否异常

    • 基于以往数据,进行预测未来指标走势

  • 优势:

    • 算法检测代替规则检测

    • 告警准确率高

    • 更早发现异常情况

    • 可适应业务发展带来的趋势变化

▐  智能监控系统架构

基于AI算法的异常检测,具有智能化、轻量级、易接入、可扩展特点,算法检测替代传统的规则监控解决准确率低、时效性低、配置复杂等问题。核心模块覆盖了数据打标、训练、模型生成等,特征方面包含了统计特征、分类特征、拟合特征等提取方法,算法方面主要涵盖了多种检测算法和预测算法。

▐  算法检测效果

▐  智能舆情全链路特点

  • CNN文本分类+DBScan相似算法,精细聚类舆情;

  • 舆情问题结合全链路排查体系,智能定位原因,提高排查效率;

  • 分钟级定时巡检预警,结合AI异常检测,避免问题故障。

▐  智能舆情全链路体系架构

▐  智能舆情全链路实践效果

【舆情聚类】应用文本聚类、NLP算法,1w+文本聚类时间1min内

【预警效果】预警有效率95%以上,问题排查率70%

【预警问题】有效预警线上问题50+,规避线上故障

【算法调用】日均调用600次+

【接入业务】手淘、千牛、淘宝特价版等

Holmes异常检测平台


基于AI算法的异常检测平台-Holmes,具备智能化、轻量级、易接入、可扩展特点。

使用异常检测算法替代传统的规则监控,解决准确率低、时效性低、配置复杂等问题。

只需要简单的4步配置,即可完成指标接入:

在实时检测方面,集成了无监督学习和有监督学习,主要运用了高斯分布、STL、孤立森林、XGBoost等;

在数据预测方面,集成了LSTM、Prophet、三次指数平滑等。

未来展望


Holmes异常检测平台是淘系技术质量团队打造,在智能化测试领域的一次实践,未来我们希望利用AI算法实现业务全方位智能化监控和问题定位。覆盖更多的数据类型、打造通用的算法模型。同时我们也在全链路监控排查、智能舆情处理等多方面进行探索,期待后续跟大家分享。

▐  研究方向:

【非结构化日志】【风季数据】【选举策略】【智能舆情】【根因分析】

▐  研究目标:

1、监控数据:时序指标数据(实时/离线)、业务日志数据(客户端/服务端)、用户舆情数据

2、检测模型:模型需要通用化,具有预测基线的能力,同时提供丰富算法库涵盖多种检测算法

3、算法指标:实时性ms级别响应、正确率>95%、覆盖率>90%,召回率>95%

4、发布计划:目前已在阿里集团内开放,希望后面能在业界开放使用

MTSC2020中国互联网测试开发大会深圳站现场

淘系技术部-质量团队-诚招英才

负责保障整个手淘、天猫主战的业务质量,这里有丰富业务场景和技术挑战,我们将持续建设及完善这个那个淘系稳定性、提升用户体验。如果您有兴趣可讲简历发至:fuming.dfm@alibaba-inc.com 期待您的加入!

✿  拓展阅读

作者|吾铭、豆豆

编辑|橙子君

出品|阿里巴巴新零售淘系技术

MTSC2020 | 手淘AIOPS实战-消息全链路智能监控相关推荐

  1. istio 实战 六 全链路监控 - Jaeger

    系列文章 istio 实战 一 Kubernetes 中快速搭建 istio istio 实战 二 bookinfo 部署 istio 实战 三 智能路由 istio 实战 四 权重路由以及监控 is ...

  2. 基线监控:基于依赖关系的全链路智能监控报警

    更多技术交流.求职机会.试用福利,欢迎关注字节跳动数据平台微信公众号,回复[1]进入官方交流群 字节跳动数据平台开发套件数据开发团队自研了基于依赖关系的全链路智能监控报警--基线监控,目前已在字节跳动 ...

  3. 消息质量平台系列文章|全链路排查篇

    背景 闲鱼每天流转的消息量级过亿,触达一半的用户,由于二手商品的性质,闲鱼用户需要通过聊天进一步了解宝贝成色,进行商品价格协商等,消息作为闲鱼的基础功能,在促进商品成交中起到很大的作用.同时在闲鱼,买 ...

  4. 大促背后的流量利器|手淘push升级 比你更懂你

    导读:过去的很长一段时间内,由于电商的强运营特性,手淘 App 的 Push 消息大部分时候是作为一个活动通知的通道,对重要活动进行通投引流.然而在竞争环境更加激烈和用户渗透日趋饱和的今天,具备更加精 ...

  5. C#编写Windows服务程序 (服务端),客户端使用 消息队列 实现淘宝 订单全链路效果

    需求: 针对 淘宝提出的 订单全链路 产品接入 .http://open.taobao.com/doc/detail.htm?id=102423&qq-pf-to=pcqq.group oms ...

  6. C#编写Windows服务程序 (服务端),client使用 消息队列 实现淘宝 订单全链路效果

    需求: 针对 淘宝提出的 订单全链路 产品接入 .http://open.taobao.com/doc/detail.htm?id=102423&qq-pf-to=pcqq.group oms ...

  7. 阿里巴巴淘宝全链路性能优化(上)

    作者|手淘用户体验提升项目组 出品|阿里巴巴新零售淘系技术部 导读:自阿里在11年提出 All in 无线之后,手淘慢慢成长为承载业务最多,体量巨大的航母级移动端应用.与之相应的,手淘离轻量,快速,敏 ...

  8. 手淘千牛IM即时通信 - 星巴克消息开放实践

    对垂直业务领域进行了解,抽象成领域模型,沉淀出通用能力和标准化体系,为后续业务赋能. 这是笔者理解的技术驱动业务.生于业务,又高于业务 笔者很荣幸可以参与到淘宝小程序的开放体系中,消息能力的开放也是里 ...

  9. 手淘千牛前端消息开放融合 - 双十一在星巴克消息开放项目的思考实践

    文章概要 前言 导读 笔者很荣幸可以参与到淘宝小程序的开放体系中,消息能力的开放也是里面很重要的一环,在双十一前可以借助星巴克小程序把消息方案落地,做个总结. 摘要 对垂直业务领域进行了解,抽象成领域 ...

最新文章

  1. 76 从OpenCV学习C++ 高级语言特性
  2. 递归删除单链表中所有值为x的元素_如何纯递归反转链表的一部分
  3. 已添加了具有相同键的项_奥迪Q2L已上市,配LED光源,21.88万起,搭1.4T
  4. 为什么要用内部类:控制框架【转】
  5. 剑指 Offer 01-----20
  6. 钉钉免登陆前端操作详解
  7. iptables第一部分
  8. [Flink] Flink运行报错The number of requested virtual cores for application master
  9. java打印正三角形_java实现打印正三角的方法
  10. Clipsync – 同步 Win 和 Android 剪贴板
  11. Android Studio Cmake C++ JNI demo
  12. 第二阶段团队站立会议08
  13. Linux:UDP Socket编程(代码实战)
  14. java过滤空号了停机号_手机空号、停机、注销,空号检测为你去除无效号码
  15. kali 破解无线密码
  16. 【GD32F303开发之串口通信】
  17. java获取kafka topic
  18. vue 实现导出excel或文件两种方法
  19. 浅谈傅里叶——5. 短时傅里叶的缺点与卷积的基本概念
  20. Java—初识Java与开发环境的安装

热门文章

  1. Python/numpy之ravel()多维数据展平函数
  2. kali-linux 202202 安装w3af命令行版
  3. Maven Nexus3 私服搭建、配置、项目发布(docker方式)
  4. 科研(research)与研发(RD)思维有什么区别?
  5. 新个人所得税计算方法
  6. Windows 下统计行数的命令
  7. sqlmap实例拿站
  8. 浪涌保护器10/350us和8/20us是什么意思,两者有何区别?
  9. 计算机系统多媒体扩展指令集,针对实际多媒体程序和多媒体扩展指令集的SIMD编译优化...
  10. Js写的二级联动和三级联动