正文字数:3049  阅读时长:4分钟

并非真正使用了 WebRTC,但此处存在使用 WebRTC 技术性质的相似之处。

作者 / John Blair, Netflix Partner Engineering

LinkedIn / https://www.linkedin.com/in/x1jdb/

原文链接 / https://netflixtechblog.com/life-of-a-netflix-partner-engineer-the-case-of-extra-40-ms-b4c2dd278513

Netflix的应用程序可以在数百台智能电视、电视棒和付费电视机顶盒上运行。Netflix的合作工程师的角色是帮助设备制造商在他们的设备上启动Netflix应用程序。在这篇文章中,我们将讨论一个特别困难的问题,它影响了一款设备在欧洲的正常发布。

神秘的开始

2017年底,我参加一个电话会议,其中主要讨论一个关于Netflix应用程序在新机顶盒上启动的问题。box是一款全新的Android电视设备,具有4k播放功能,基于Android开放源码项目(AOSP) 5.0版本,又名“棒棒糖”。我在Netflix工作了几年,过去发布过很多台设备,但这是我推出的第一款Android电视设备。

与该设备相关的四家公司都在此次电话会议中:推出该设备的大型欧洲付费电视公司(运营商)、集成机顶盒固件的承包商(集成商)、系统芯片供应商(芯片供应商)和我(Netflix)。

这家集成机顶盒固件的承包商(集成商)和Netflix已经完成了严格的Netflix认证程序,但在这家电视运营商的内部测试过程中,该公司的一名高管报告了一个严重问题:Netflix在他的设备上播放“结巴(卡顿)”。即视频会播放很短的时间后暂停,接着重新开始,随后又暂停。这种情况并不会一直发生,但肯定会在机顶盒通电后的几天内开始发生。他们提供了一段演示视频,情况看起来很糟糕。

设备集成商找到了重现这个问题的方法:反复启动Netflix,开始播放,然后回到设备的用户界面。他们提供了一个脚本来自动化这个过程,有时这个过程会持续长达五分钟的时间,但是脚本总是能够稳定地重现错误。

与此同时,芯片供应商的一名现场工程师诊断出了根本原因:Netflix的Android电视应用程序Ninja传输音频数据的速度不够快。卡顿是由于设备音频管道缓冲不足引起的。当解码器等待Ninja传送更多的音频流时,播放停止,等待更多的数据到达后恢复播放。集成商、芯片供应商和运营商都认为问题已经确定,他们向我传达的信息很明确:Netflix,你的应用程序中有一个漏洞,你需要修复它。我从通话里听出了压力。他们设备的上线时间推迟了,而且超出了预算,他们期待我的解决方案。

调查

我持怀疑态度。同样的Ninja应用程序在数以百万计的Android电视设备上运行,包括智能电视和其他机顶盒。如果Ninja存在漏洞,为什么它只出现在这款设备上?

我首先使用他们提供的脚本重现了问题,同时联系了芯片供应商的同事,询问他以前是否见过类似的情况(他没有见过)。接下来我开始检查Ninja的源代码,我想找到传输音频数据的那行代码。我认识很多,但我在播放代码中开始不知所措,我需要帮助。

我上楼找到了Ninja编写音频和视频传输代码的工程师,他帮我梳理了代码。我自己花了一些时间研究源代码来理解它的工作部分,并添加了我自己的日志记录来确认我的理解。Netflix应用程序很复杂,简单来说,它从Netflix服务器传输数据,在设备上缓冲数秒的视频和音频数据,然后一次一次地将视频和音频帧发送到设备的播放硬件。

图1:设备播放管道(简化)

让我们花点时间来讨论Netflix应用程序中的音频/视频管道。在每个机顶盒和智能电视上,直到“解码器缓冲区”都是相同的,但是将A/V数据传输到设备的解码器缓冲区是一个特定的程序,在它自己的线程中运行。它的例行工作是通过调用提供音频或视频数据下一帧的API(Netflix提供)来保持解码器缓冲区满状态。在Ninja中,这一任务是由Android线程执行的。有一个简单的状态机和一些逻辑来处理不同的播放状态,但在正常播放下,线程将一帧数据复制到Android播放API中,然后告诉线程调度程序等待15毫秒并再次调用处理程序。当你创建一个Android线程时,可以请求线程重复运行,就像在一个循环中一样,但是调用处理程序的是Android的线程调度程序,不是你自己的应用程序。

60帧/秒是Netflix能播放视频的最高帧率,设备必须每16.66毫秒渲染一个新帧,所以每15毫秒检查一个新样本的速度足以领先于Netflix提供的任何视频流。因为集成商已经确定音频流是问题所在,所以我将注意力集中放在将音频样本传递给Android音频服务的特定线程处理程序上。

我想回答这个问题:额外的时间在哪里?假设罪魁祸首是处理程序调用的某个函数,所以我在处理程序中添加了日志消息,假设错误代码是显而易见的。很快就可以看出,处理程序中没有任何不正常的行为,即使播放不流畅,处理器也能在几毫秒内运行正常。

啊哈,洞察力

最后,我关注了三个数字:数据传输速率,处理程序被调用的时间,以及处理程序将控制权交还给Android的时间。我编写了一个脚本来解析日志输出,并制作了下面的图表,它给出了答案。

图2:可视化音频吞吐量和线程处理器时间

橙色的线是数据从流媒体缓冲区移动到Android音频系统的速率,单位是字节/毫秒。在这张图表中,你可以看到三种不同的行为:

这两个又高又尖的部分,数据速率达到500字节/毫秒。这是在播放开始之前的缓冲阶段。处理程序正在尽可能快地复制数据。

中间的区域是正常播放阶段。音频数据以大约45字节/毫秒的速度传输。

当音频数据以接近10字节/毫秒的速度传输时,卡顿区域在右侧。速度还不够快,无法维持正常播放。

不可避免的结论是橙色线证实了芯片供应商工程师的报告:Ninja传输音频数据的速度不够快。

为了理解这其中的原因,让我们看看黄线和灰线又说明了哪些问题。

黄色的线显示花费在处理程序本身的时间,根据处理程序顶部和底部记录的时间戳计算。在正常播放和卡顿的区域,处理程序花费的时间是相同的:大约2毫秒。峰值显示由于在设备上其他任务花费了时间而导致Ninja传输音频数据的速度不够快。

真正的原因

灰色的线是两次调用处理程序之间的时间,它说明了不同的情况。在正常播放的情况下,你可以看到处理程序大约每15毫秒被调用一次。在播放卡顿的情况下,在右侧大约每55毫秒调用一次处理程序。调用之间有额外的40毫秒,没有办法跟上播放的速度。但这是为什么呢?

我把我的发现告诉了集成商和芯片供应商 (看,这是Android线程调度程序!),但他们对这一发现并不感冒。为什么不在每次调用处理程序时复制更多的数据呢?这是一个合理的质疑,但改变这种行为涉及更深层次的变化,超出了我的准备,我继续寻找根本原因。我深入研究了Android源代码,了解到Android线程是一个用户空间结构,线程调度程序使用epoll()系统调用进行计时。我知道epoll()的性能不能得到保证,所以我怀疑有什么东西以系统的方式影响epoll()。

就在这时,芯片供应商的另一位工程师救了我,他发现了一个漏洞,这个漏洞在下一个名为“棉花糖”(Marshmallow)的Android版本中已经修复了。Android线程调度程序根据应用程序是在前台运行还是在后台运行来改变线程的行为。后台线程被分配额外的40毫秒(4000万ns)的等待时间。

Android系统本身的一个深层漏洞意味着当线程移动到前台时,这个额外的定时器值被保留。通常音频处理线程是在应用程序处于前台时创建的,但有时线程是在Ninja仍然在后台时创建的。当这种情况发生时,播放就会卡顿。

经验教训

这并不是我们在这个平台上修复的最后一个漏洞,但却是最难追踪的一个。它在Netflix应用程序之外,在播放线程之外的系统部分,所有的初始数据都表明Netflix应用程序本身存在缺陷。

这个故事确实体现了我热爱这份工作的一个方面:我不能预知我们的合作伙伴会向我抛出的所有问题,要解决这些问题,我必须了解多个系统,与优秀的同事合作,并不断督促自己学习更多知识。我所做的事直接影响着现实中的人们以及他们的用户体验。我知道,当人们在客厅里享受Netflix时,我是Netflix团队中不可或缺的一员,是我们让这一切成为现实。

LiveVideoStackCon 2021 ShangHai

这个世界没有准备好这一说

机会和技术不会主动敲开你的门

LiveVideoStackCon 2021 上海站

北京时间:2021年4月16日-4月17日

点击【阅读原文】了解大会详情

Netflix 工程师的生活 —— 40毫秒的案例相关推荐

  1. 前端工程师就业班Sass基础+进阶+案例开发经验【JS++前端】-艾小野-专题视频课程...

    前端工程师就业班Sass基础+进阶+案例开发经验[JS++前端]-98人已学习 课程介绍         本套课程是摘选自JS++第三期前端工程师精英就业班系列课程,进行系统深度的对Sass技术知识点 ...

  2. 转自于四火的唠叨(工程师的生活)

    http://www.raychase.net/1543 出自<四火的唠叨> 我忽然很好奇,想知道其他软件工程师的生活是什么样的?人永远都没有活在别人心中的形象那么绚烂,生活中总有无数烂事 ...

  3. 【计算机视觉40例】案例36:调用CNN实现人脸检测

    [导读]本文是专栏<计算机视觉40例简介>的第36个案例<调用CNN实现人脸检测>.该专栏简要介绍李立宗主编<计算机视觉40例--从入门到深度学习(OpenCV-Pyth ...

  4. 【计算机视觉40例】案例38:驾驶员疲劳监测

    <计算机视觉40例--从入门到深度学习(OpenCV-Python)>在介绍Python基础.OpenCV基础.计算机视觉理论基础.深度学习理论入门的基础上,介绍了计算机视觉领域内具有代表 ...

  5. 【计算机视觉40例】案例40:识别性别与年龄

    [导读]本文是专栏<计算机视觉40例简介>的第40个案例<识别性别与年龄>.该专栏简要介绍李立宗主编<计算机视觉40例--从入门到深度学习(OpenCV-Python)& ...

  6. 【计算机视觉40例】案例07:数字手势识别

    [导读]本文是专栏<计算机视觉40例简介>的第7个案例<手势识别>.该专栏简要介绍李立宗主编<计算机视觉40例--从入门到深度学习(OpenCV-Python)>一 ...

  7. 【计算机视觉40例】案例05:物体计数

    [导读]本文是专栏<计算机视觉40例简介>的第5个案例<物体计数>.该专栏简要介绍李立宗主编<计算机视觉40例--从入门到深度学习(OpenCV-Python)>一 ...

  8. 爱卓越java_以培养卓越工程师为目标的渐进式项目案例教学法研究——以java实验教学为例...

    以培养卓越工程师为目标的渐进式项目 案例教学法研究 - - 以java实验教学为例 郭小清,朱淑鑫,谢忠红,叶锡君 (南京农业大学 信息科学技术学院,江苏 南京 210095) 摘 要:为了响应国家 ...

  9. 【计算机视觉40例】案例30:EigenFaces人脸识别

    [导读]本文是专栏<计算机视觉40例简介>的第30个案例<EigenFaces人脸识别>的简介,该专栏简要介绍李立宗主编<计算机视觉40例--从入门到深度学习(OpenC ...

最新文章

  1. 盒模型,块状元素,行内元素
  2. Java程序员的春天!springdocker部署
  3. 8086汇编-实验3-编程、编译、链接、跟踪
  4. 具有ELK的APIGEE API网关日志管理(Elastic Search,Logstash和Kibana)
  5. seaborn线性关系数据可视化:时间线图|热图|结构化图表可视化
  6. 程序员在想些什么?拒绝盲猜,CSDN帮你精准洞察 Ta 们的心
  7. 输出平均成绩最高的学生成绩以及该学生的序号
  8. MySQL04WHERE关键字
  9. java递归mysql生成树_java递归生成树结构的数据
  10. 在线协同编辑excel系统
  11. 应用wps对证件照进行更改颜色,更换只需三步。
  12. 基于HFSS设计一种新型圆极化天线
  13. 云栖大会“云计算加速开源创新论坛” 揭晓 2022 年度开源人物
  14. item2vec--word2vec在推荐领域的使用
  15. cocos2dx图片闪亮_SassDoc 2-闪亮的流章鱼出来了!
  16. vue使用报错记录(cli4):[vue/valid-v-for] Custom elements in iteration require ‘v-bind:key‘ direc
  17. html 画梯形容器,css怎么画梯形?
  18. 解决Android自定义相机预览和照片分辨率差异的问题
  19. 低版本MacOS安装Nginx
  20. steam同乐无法连接远程计算机,Steam远程同乐功能怎么用 Steam远程同乐功能使用教程...

热门文章

  1. FortiGate设置E-mail告警
  2. mysql 在大型应用中的架构演变
  3. 第一章--计算机系统知识
  4. bzoj1230[Usaco2008 Nov]lites 开关灯*
  5. Linux下tar.xz结尾的文件的解压方法
  6. objective c的注释规范
  7. 黑暗的富士康服务器被黑厂商用户名密码被泄
  8. HDU - 2825 Wireless Password(AC自动机+状压dp)
  9. dns服务器在电脑上有什么作用,DNS服务器是什么 DNS服务器的作用有哪些【详解】...
  10. 卡在linuxctrld进系统_Linux系统卡死后紧急处理