简介:对于运维工程师而言,如果要票选五大最抓狂运维支撑场景,花样繁多的各种促销活动一定榜上有名。每个促销季上线都是忐忑不安的不眠夜。大量内容更新、大量客户涌入,大量数据读写,虽有着各种技术方案或工具服务保障着大促顺利进行。但仍有可能收到譬如“商品图片加载不出来”、“页面打开缓慢”、“无法完成订单支付”等诸多各地用户投诉。这些由于用户体验与网站性能造成的用户转化低、业务增长缓慢等糟糕结果,最终都会让运维工程师成为“众望所归”的背锅侠。

白屿

对于运维工程师而言,如果要票选五大最抓狂运维支撑场景,花样繁多的各种促销活动一定榜上有名。每个促销季上线都是忐忑不安的不眠夜。大量内容更新、大量客户涌入,大量数据读写,虽有着各种技术方案或工具服务保障着大促顺利进行。但仍有可能收到譬如“商品图片加载不出来”、“页面打开缓慢”、“无法完成订单支付”等诸多各地用户投诉。这些由于用户体验与网站性能造成的用户转化低、业务增长缓慢等糟糕结果,最终都会让运维工程师成为“众望所归”的背锅侠。

针对「用户体验与网站性能」问题,我们与众多企业运维工程师以及独立站长展开访谈,发现大家的观点集中在以下方面:

(一)「产品与用户体验之间的差距」带来的性能与体验问题

由于互联网红利消退,产品功能与用户体验设计越发内卷。产品功能逻辑设计与用户使用时的理解存在差距,大量秒杀活动、推广活动、UGC内容让产品逻辑愈发复杂,哪怕提供了各种引导与说明文档,用户仍然需要时间理解并培养使用习惯。与此同时,为了让功能模块进一步丰富,大量富媒体、第三方组件、客户广告不断被添加进来,对外合作内容过多且不合理,加重系统负载,拖累产品性能。既要、又要、还要,最终的代价就是不得不牺牲一定的网站性能与用户体验。

(二)「错综复杂的网络环境」带来的性能与体验问题

众所周知,全国各地充斥着各种各样一级、二级运营商,这大幅提升了全国网络环境复杂度,由于运营商基础架构更新慢、突发性人为问题多,造成会经常性的IDC故障,企业只能安抚用户并躺平等待修复,而这些问题的排查耗时都只能听天由命。与此同时,广阔的地域分布、零散的用户分布及个性化入网方式造成接入网络复杂,企业对于用户使用环境无法有效估量。哪怕借助广泛分布的数据中心以及多线BGP接入,想要解决网络环境问题仍旧捉襟见肘,这进一步加剧了网络环境的优化难度,让真实用户的实际使用体验更加难以预测。

(三)「差异明显的PC端环境」差异带来的性能与体验问题

作为世界上拥有最大网民规模的国家,我国这些海量用户规模背后是巨大的用户端硬件配置差异,可能有人使用着 i9-11900K+RTX3080 Ti 在 bilibili 上看 4K 高清直播视频,也有人用着千禧年发布的 Pentium 4 与集成显卡在门户网站浏览文字新闻。这造成不同浏览器版本、自身渲染机制、本地主机性能差异的不同群体,存在譬如访问异常、慢速、本地资源消耗等用户体验差异。面对这一状况,如何去了解广大用户实际体验情况,平衡或评估用户端体验差异,在其中进行取舍成了每个网站运维与研发必须面对的难题。

(四)「追求迭代速度的后遗症」带来的系统可用性保障问题

由于互联网竞争疯狂内卷,产品在功能窗口期与精细调优这道选择题上,不得不选择性忽视产品架构与稳定性。架构不严谨、业务发展超越架构支撑能力造成系统负载过载、导致系统崩溃、响应超时等问题,造成这一问题的因素很多:

首先,业务迭代速度非常快,侵入式监控手段无法在短时间落地,但业务系统出现故障时需要快速感知;

其次,开发资源紧张或不配合,基础设施相关监控又不能直接反应业务问题,应用监控实施成本太高。

最后,自身应用调用第三方API接口,第三方API接口的可用性无法保障,出故障了无法及时响应和处理。

拆解来看,我们会觉得这些都是单点问题,但业务上量后出现连锁反应,就会将这些问题叠加放大,直接影响用户体验。

(五)「缺乏用户视角的监控手段」导致应对客诉比较被动

虽然产品功能在上线时会经过各种测试,运营团队也持续关注用户使用情况。但对运维团队而言,只有客户投诉后才知道系统发生了问题,应对起来十分被动,甚至异常复现、定位问题可能就要花费一天时间,严重影响NPS;常见监控手段也大多从自身视角出发,无法直观反映用户的问题。

那么,面对这么多的影响因素,我们到底该如何以真实用户视角去对自己网站进行测试,量化网站用户体验,定位网站性能瓶颈?这里,我们以电商行业营销活动举例。随着竞争越发激烈,双十一、618 等促销活动成为电商等泛交易行业的年度重要营销活动。但大量用户的短时间涌入,会造成网站加载延迟,或业务服务卡顿等影响用户体验的问题。

具体问题包括:

上线前,无法模拟真实用户,测试峰值用户高并发访问时的产品实际体验情况。

对于用户实际的浏览路径路程没有准确评估,无法定位转化瓶颈环节,不知道如何优化。

大促阶段商品信息更新较频繁,更新后经常收到各地用户投诉“商品图片加载不出来”、“页面打开缓慢”等投诉。

同业竞品活动性能情况无法获取,没法了解竞品营销态势变化。

在过往,以上问题都难以解决,具体难以解决的原因包括:

虽然有任务墙等方式,但运维团队无法找到足够多且符合实际需求的真实流量进行产品用户体验测试,采购相关流量又耗时又昂贵。

营销大促普遍产品上线窗口期十分紧迫,留给研发团队的交付时间相对有限。想要加入相关侵入式探针来进行监测,既拖慢产品交付速度又可能影响产品稳定性。

运维团队无法主动测试相关,导致问题只能在实际用户体验过程中发现,只能被动排障。但问题复现以及故障定位,可能就会拖住整个运维团队,导致修复时间无限期拖长。

因此,运营团队与运维团队需要一个能够解决上述问题的产品或者解决方案。云拨测作为面向业务的非侵入式云原生监测产品,成为最佳的选择。通过阿里云遍布全球的服务网络,模拟真实用户行为,全天候持续监测网站及其网络、服务、API端口可用性与性能。实现页面元素级、网络请求级、网络链路级细颗粒度问题定位。丰富的监测关联项与分析模型,帮助企业及时发现与定位性能瓶颈与体验暗点,压降运营风险,提升服务体验与效能。

(一)全球监测节点覆盖

全球超过20万LM,500余个IDC终端监测节点,海内外400+运营商以及数十万量级注册会员,确保监测规模满足日益庞大的业务规模。

(二)无需嵌码,开箱即用

零侵入式监测,只需输入URL并进行简单配置即可,无需研发支持。数分钟即可获得完整的网站性能数据分析报告。资源包&按量付费多种购买模式,满足运维测试需求。

(三)面向业务,预置多种分析模型

监测周期精细至分钟级别,7大类20余项监测关联参数设置、支持多种主流协议,为站点和业务端口等提供7×24小时细颗粒度故障实时监测、告警及性能分析服务。以最终客户视角,通过地域、运营商等多维度组合分析,下钻分析单样本详情,利用丰富的指标体系与图表类型,直观定位问题、受影响范围及其根因,压降分析时间,提升运维效率。真正做到精细化监测。

(四)智能告警,精准定位

针对首屏用时、整体性能、可用性实现实时告警,丰富的告警策略设置,与阿里云告警中心深度集成,有效缩短MTTR。支持发现页面元素级错误,问题归因精准定位至单次网络请求过程,提升问题定位效率。

以某电商企业的营销大促举例,该网站月活用户数超百万,用户群体主要分布在全国三四五线城市,每年网站运营维护支出费用超过200万元。但由于大促阶段商品信息更新较频繁,更新后经常收到各地用户投诉“商品图片加载不出来”、“页面打开缓慢”,造成用户转化低,也导致运维团队被投诉。

面对这一困境,我们通过云拨测产品完成解决这一问题并进一步优化网站性能,以便支撑业务大促。

(一)压力测试

在企业的营销活动或新系统上线前,使用云拨测选取全国不同城市运营商的监测点,设定浏览和网络任务,即时获取第一线的真实用户访问体验数据,精准定位出现问题的页面元素,帮助技术团队及时修复问题。模拟峰值用户高并发访问,通过增加峰值压力,观察主要性能指标变化情况,挖掘性能瓶颈。

(二)用户体验优化

通过首屏监测以及即时监测功能可以立刻进行问题验证和故障复现,对网站性能进行评估与优化。并通过事务流分析,了解用户真实体验流程,优化浏览路径,挖掘转化瓶颈环节,提升转化率。

(三)竞品分析迭代

借助零侵入特性,收集分析同行业竞品营销活动性能情况,了解竞品营销态势变化以及应对方案,并针对进行针对性IT投入以及调优迭代,弥补营销短板,稳固领先地位。

经过以上相关措施,网站性能大幅提高,用户体验相关量化指标提升30%以上,有效驱动业务增长。除上述场景外,云拨测还可广泛应用于网络接口、服务可用性监测、CDN服务监控与选型、DNS解析状态、劫持分析等众多场景。

为了满足更多企业与独立站长的拨测需求,云拨测上线发布不同规格的月资源包,并开展限时优惠活动。新购用户将获得九折优惠。

原文链接:https://developer.aliyun.com/article/785937?

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

拒做背锅侠!如何利用网站性能优化驱动产品体验提升?相关推荐

  1. 告别运营怪圈,不做“背锅侠+加班狗+低薪族”!

    万年背锅侠和加班狗已不再是程序员,而是运营,被毙稿.被客户骂.被领导和同事质疑是普通运营的日常. <2017 年运营行业生存报告白皮书>显示:69.8% 的运营月薪低于 8000--远低于 ...

  2. 架构师说了:不想做背锅侠?生产问题要这样查

    话说这天一大早,那个悲催的中年架构师大刘又被手机微信群给炸醒.部门的运维兄弟在公司微信群里说: 短信的生产环境服务器 CPU 占用率过高,疯狂报警.是不是你们昨天上线看门狗导致的? 大刘迷了巴登的想了 ...

  3. 这样查生产问题,不做背锅侠

    一大早就被微信群炸醒,开发短信服务的猿妹子,在公司微信群里说:短信的生产环境服务器, CPU 占用率过高,疯狂报警,应该是你们昨天上线看门狗导致的(看门狗:守护短信服务的监控应用,后续有机会再进行分享 ...

  4. HTTPS站点不安全?SSL证书不做背锅侠

    SSL证书在保护网站数据传输上起到了至关重要的作用,它的存在让网站访问者在访问浏览器时留下的信息和数据不被窃取.篡改和监听,让访客们访问网站时非常放心.非常安心,使网站由明文传输式的http变成数据加 ...

  5. 程序员,技术的“背锅侠”,盘点 2020 年面向监狱编程的那些事!

    [CSDN 编者按]过去一年,"删库跑路".安全漏洞等事件层出不穷,企业.技术人深受其害,作为一名程序员,在新的一年即将到来之际,我们该如何避免面向监狱编程? 作者 | 马超    ...

  6. 产品经理真的是「背锅侠」吗?

    我经常可以看到产品经理们在深夜发出一些激励人心的文字,例如:「由于自己考虑不缜密引发了需求变更,进而导致了开发同学在深夜还在加班敲代码,自己十分自责内疚,不过最后产品还是顺利上线了...」.每每看到此 ...

  7. 上夜班的linux运维都坑,运维是个坑,盘点背锅侠的点点滴滴~

    原标题:运维是个坑,盘点背锅侠的点点滴滴~ 运维是个遇坑.填坑.再遇坑.再填坑,有些时候还被同事挖坑,duang的一下掉下去了,还要自己慢慢爬坑:有些却是自己了解不够深入,或不够细心所留下来的坑. 小 ...

  8. 或许你就是那个背锅侠【多图】

    要说现在哪个岗位最容易招黑,咱们做开发的首当其冲. 产品卡顿偶尔躺枪,产品瘫痪日常中箭, 就连产品注释写错的黑锅都要向咱们砸来...... 开发者们就是行走的背锅侠,哪里有锅哪里背! 今天,我们就来盘 ...

  9. 如何避免成为背锅侠?

    你被同事甩过锅吗? 打工人在职场中犯错都是不可避免的. 但明明不是自己的问题,还要背个黑锅,就非常闹心了! 大家好,我是大D. 前几天,大D开发完了一个项目,在交付验收中发现业务逻辑存在漏洞,业务方那 ...

  10. 测试员就是“背锅侠”?学会这些,扔掉测试人常背的3口“锅”

    最近发生了一起生产事故,究其根源,事故本身属于架构或者需求层面需要规避的问题,测试人员的责任其实是非常小的,但实际情况是:相关测试人员因此承担了很大的压力,成为质量问题的"背锅侠" ...

最新文章

  1. emmc linux.格式化参数,SD卡, EMMC固化 ,关于bootloader linux
  2. hdu 2013 蟠桃记-递推-[解题报告]C++
  3. Python编程基础:第三十八节 问答游戏Quiz Game
  4. 『数据中心』降低PUE值4种方法
  5. boost::geometry::model::d3::point_xyz用法的测试程序
  6. ImportError: No module named 'matplotlib'(python 安装各种 )
  7. servlet加载资源两种方式-内外(初始化参数).properties文件
  8. 工作流实战_20_flowable 任务签收 反签收
  9. [转载] JAVA8 创建流的5种方式
  10. php的array_walk,PHP array_walk() 函数详解
  11. Http 请求处理流程[转]
  12. 一个***与电脑白痴的爱情故事
  13. 网口调试助手如何以服务器与plc调试,PLC调试助手
  14. 深入解读Redis之数据类型解析-SDS
  15. cvr存储服务器的优势,CVR是什么
  16. paper reading: Rob-GAN: Generator, Discriminator, and Adversarial Attacker
  17. 【数据结构Python描述】跳跃表简介及使用跳跃表实现有序映射
  18. 测试打印 lua 的 _G 所有显示的字段内容
  19. 现代化物流对应术语解释
  20. 用canvas 绘制一个灰太狼

热门文章

  1. APS Interview - Operating System
  2. 算法面试题:切割木头,给定一个数组nums,nums[i]表示每个木头的长度,木头可以截断,现在需要k根长度一样的木头,每根木头最大长度为多少
  3. 草稿cfmm~yuyu 22.9.26 Linux
  4. DICOM中窗宽窗位含义
  5. IDLE Help | 汉化
  6. 黎曼Zeta函数,人类文明永恒的纪念
  7. 终极.NET混淆器丨.NET Reactor产品介绍
  8. 捷顺对讲服务器地址在哪修改,捷顺软件安装说明.docx
  9. 计算机傅里叶什么知识美颜,傅里叶变换是用来做什么的,具体举例一下应用?...
  10. 大数据可视化技术与应用作业一的经验总结