音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

声学照相机——让声音“眼见为实”

日常生活中，总有各种各样的声音围绕着我们，无时无刻不在通过振动敲击着我们的耳膜，并通过内耳毛细胞将振动转变为电信号传输至大脑。然而，在获取信息时，人类通过听觉捕获的信息量不足视觉的四分之一，且听觉在空间定位方面远逊于视觉。那么，有什么技术手段可以让我们看见声音呢？答案就是——声学照相机。

详情见>>声学照相机——让声音“眼见为实”

极致流畅体验的密码：网易云信 QoS 策略介绍 | 体验共享技术专题

近日，艾媒咨询发布了《2021年中国泛娱乐行业体验共享专题报告》，首次提出「体验共享」将成为泛娱乐行业日后发展的重要方向。针对该趋势，网易云信推出「体验共享」技术专题，从 QoS 策略、WE-CAN 全球智能路由网络、视频、音频等维度解读一起听、一起看、一起唱、一起玩等场景背后的技术支持。本篇文章是该系列的第一篇。

详情见>>极致流畅体验的密码：网易云信 QoS 策略介绍 | 体验共享技术专题

未来流媒体工作流的核心技术

本文作者以行业内资深大佬的眼光，首先概述了当下 OTT 领域的关键技术，然后展望了未来有前景的新技术，内容丰富，涵盖广泛。原文中有大量推荐阅读及参考链接，感兴趣的读者请进原文观看。

详情见>>未来流媒体工作流的核心技术

DeepMind研究科学家：NLP基准测试的现在、过去和未来

NLP 基准测试所面临的挑战、机遇和一些改进的建议。我们希望这篇文章可以让读者了解这方面科研的最新进展，也要让初学者全面了解NLP。文中还涉及到最近的论文、ACL 2021 演讲以及ACL 2021 基准测试研讨会的观点，其中许多观点涉及到了过去、现在和未来。

详情见>>Mind研究科学家：NLP基准测试的现在、过去和未来

【竞赛小汇】NTIRE2021 视频超分竞赛

TIRE2021的视频超分竞赛仍然延续NTIRE2020以及AIM2019/20采用了REDS数据集，它的训练集、测试集以及验证机分别包含24000，3000，3000高清()视频序列，每个序列包含100连续帧(命名为：'00000000.png'-'00000099.png')。本文对NTIRE2021视频超分竞赛进行了简单的介绍，总而言之一句话：BasicVSR是最大赢家。

详情见>>【竞赛小汇】NTIRE2021 视频超分竞赛

ITU简史（三）

自1865年起的一个半世纪以来， ITU（国际电信联盟）一直处于通信发展的核心地位，无论是从电报问世还是到以卫星、移动电话和互联网为标志的现代世界。ITU讲述的是政府、私营公司和其他利益攸关方之间开展国际合作的故事。我们的持续使命是，在新技术发展的过程中，找到整合新技术的最佳实际解决方案，使所有人均能享受新技术的好处。（进入文章后，文末含ITU简史（一）、（二）部分链接可点击浏览）

详情见>>ITU简史（三）

如何实现 iOS 短视频跨页面的无痕续播？

在一切皆可视频化的今天，短视频内容作为移动端产品新的促活点，受到了越来越多的重视与投入。盒马在秒播、卡顿率、播放成功率等基础优化之外，在用户使用体验上引入了无痕续播能力，提升用户观看视频内容的延续性。本篇将分享盒马在 iOS 短视频方面的实践干货。

详情见>>如何实现iOS短视频跨页面的无痕续播

用于VVC质量增强和超分辨率的多任务学习

本次演讲主要对论文《Multitask learning for VVC Quality Enhancement and Super-Resolution》进行了介绍。论文中介绍了一种多任务的训练方式，可以使用单个模型分别进行超分和压缩视频质量增强，并且取得相比于单个模型更好的效果。

详情见>>用于VVC质量增强和超分辨率的多任务学习

三星电子推出X-net架构用于语音通话

近日，三星电子推出X-net，这是一种联合学习的Scale-down和Scale-up架构，用于语音编码中的预处理和后处理，作为在带宽受限的语音通话信道上扩展带宽的一种手段。其中，在发送端和接收端分别部署Scale-down和Scale-up，以进行下采样和上采样处理。并对子模块进行单独监督训练，这样即使缺少一个子模块，X-net也能够正常工作。在三星电子发表的X-net论文中（X-net: A Joint Scale Down and Scale Up Method for Voice Call），有结果表明，联合训练的 X-net 在客观和主观指标上，比常见的音频超分辨率方法有明显改进，即使在只有 1k 参数量级的轻量级网络上也是如此。

详情见>>三星电子推出X-net架构用于语音通话

Easy Tech：什么是I帧、P帧和B帧？

I帧、P帧和B帧（I-frames、P-frames and B-frames）的概念是视频压缩领域的基础。这三种帧类型在特定情况下用于提高编解码器的压缩效率、压缩流的视频质量，以及使得流去应对传输和存储时候的错误和故障。

详情见>>Easy Tech：什么是I帧、P帧和B帧？

关于帧内预测技术的一些梳理和思考

预测在中文的解释是：预先测定或推测，即为在所有已知条件下，推测未知的信息。在视频编码里的预测技术分为两种，如果预测过程信息源来自当前帧，则称之为帧内预测（intra prediction），如果预测信息源来自其他帧，则称之为帧间预测（inter prediction）。对编码器来讲，它们都有着一样的输入、输出和结果目标。

详情见>>关于帧内预测技术的一些梳理和思考

ICASSP2021：AV1帧内模式编码改进

本文来自ICASSP2021论文IMPROVED INTRA MODE CODING BEYOND AV1。在AV1中帧内预测模式分为角度帧内预测模式和非角度帧内预测模式，和VP9一样有8种角度帧内预测模式，在每种方向上还有7个delta角度（-3~+3）用于扩展方向的粒度，总共56个方向模式。

详情见>>ICASSP2021：AV1帧内模式编码改进

基于线性预测的语音编码原理解析

早期的音频系统都是基于声音的模拟信号实现的，在声音的录制、编辑和播放过程中很容易引入各种噪声，从而导致信号的失真。随着信息技术的发展，数字信号处理技术在越来越多领域得到了应用，数字信号更是具备了易于存储和远距离传输、没有累积失真、抗干扰能力强等等，信号和信号处理都往数字化发展。为了使得数字音频可以被高效地压缩存储并高品质地还原，数字音频的编码技术就变成至关重要的一个部分了。本篇文章会介绍当今的音频的编码器(传统算法非深度学习)的两大主流阵营之一的基于线性预测的语音编码器的原理。

详情见>>基于线性预测的语音编码原理解析

大话ion系列（一）

ion-sfu作为ion分布式架构里的核心模块，SFU是选择转发单元的简称，可以分发WebRTC的媒体流。ion-sfu从pion/ion拆分出来，经过社区打磨，是目前GO方案中最成熟且使用最广的SFU。

详情见>>大话ion系列（一）

详解 WebRTC 传输安全机制：一文读懂 DTLS 协议

DTLS(Datagram Transport Layer Security) 是基于 UDP 场景下数据包可能丢失或重新排序的现实情况下，为 UDP 定制和改进的 TLS 协议。在 WebRTC 中使用 DTLS 的地方包括两部分: 协商和管理 SRTP 密钥和为 DataChannel 提供加密通道。

详情见>>详解 WebRTC 传输安全机制：一文读懂 DTLS 协议

YangWebRTC，全新的客户端开源项目

yangwebrtc是一个自主研发的支持Webrtc/Srt/Rtmp的rtc架构，包含多种视音频编解码和处理等。支持视频会议、高清录播直播、直播互动等多种视音频应用。可用于远程教育、远程医疗、指挥调度、安防监控、影视录播、协同办公、直播互动等多种行业应用。

详情见>>YangWebRTC，全新的客户端开源项目

DECA：基于单张静态图像，进行 3D 人脸建模

3D 建模是计算机视觉领域中的一个关键问题，其中 3D 人脸建模，在游戏、影视特效、VR 等领域应用广泛。但是由于人脸的复杂性、易变性，建立逼真的 3D 人脸模型，成为众多研究者不得不面对的一大挑战。本文罗列了 3D 人脸建模常用的 3 大方法，以及基于静态图像进行人脸建模的 3 个方法。文末分享了一个 DECA 教程。

详情见>>DECA：基于单张静态图像，进行 3D 人脸建模

ICCV2021 盲图像超分 MANet：ETH团队提出空间可变模糊核估计新思路

这篇文章是ETH团队在盲图像超分之空间可变模糊核估计方面的工作，已被ICCV2021接收。针对实际应用场景中模糊核的空间可变性，提出一种新的空间可变模糊核估计方案MANet。从退化的局部性角度发出，对现有方案的局限性进行了分析，同时提出MAConv解决小模型的弱表达能力问题。相比已有模糊核估计方案，所提方案取得了显著性能提升；当与非盲图像超分方案组合后，将盲图像超分性能推到了新的高度。

详情见>>ICCV2021 盲图像超分 MANet：ETH团队提出空间可变模糊核估计新思路

神经渲染最新进展与算法（二）：NeRF及其演化

基于神经辐射场(NeRF)的场景表征与容积渲染无疑是近两年神经渲染方向的爆点工作之一。在提出后的短短一年左右时间内，NeRF以简洁优美的实现思路吸引了大量学者进行深入和拓展研究。本文主要介绍了NeRF方法的基本思想与实现，分析了该方法的优点和局限，探讨了它在计算加速和可编辑渲染方向的一些最新进展。相信NeRF方法会进一步推进神经渲染的发展。我们将持续关注这一领域，并不定期分享我们的认识。

详情见>>神经渲染最新进展与算法（二）：NeRF及其演化

在元宇宙中绝对需要的双手！AI算法实现手指重建，倒酒沏茶不在话下，甚至可以摇花手！

AI算法实现手指重建这项研究由来自爱丁堡大学的He Zhang和Facebook Reality Labs的几位合作者共同完成。与其他类似研究相比，这项研究几乎拥有目前效果最好的手指动作建模。这一切都是依靠团队提出的ManipNet深度神经网络算法。ManipNet利用手-物体对象的空间之间的关系特征，直接从数据中学习手部的自然动作。

详情见>>在元宇宙中绝对需要的双手！AI算法实现手指重建，倒酒沏茶不在话下，甚至可以摇花手！

Tobii CEO：AR/VR的未来形态将广泛结合眼球追踪

作为眼球追踪方案的主流厂商之一，Tobii的技术在AR/VR领域取得多项应用，比如Vive Pro Eye、惠普Reverb G2 Omnicept版本等头显均采用其眼球追踪系统。近期，Tobii宣布将收购汽车系统公司Phasya，规模高达470万美元。Phasya提供的技术包括：通过眼球追踪来监控司机精力的可穿戴解决方案Drowsimeter，以及识别司机压力、视觉干扰、认知负荷等技术。

详情见>>Tobii CEO：AR/VR的未来形态将广泛结合眼球追踪

慕尼黑国际车展：自动驾驶技术再“上新”

智能汽车是未来汽车发展的方向，而自动驾驶是其中最重要的技术之一。在2021年德国慕尼黑国际汽车展（IAA）上，自动驾驶成为各厂商展示创新技术的重要领域。德国大众集团CEO迪斯在车展的论坛上表示：“自动驾驶将会彻底改变世界，因为它改变了人们对车的使用方法。”

详情见>>慕尼黑国际车展：自动驾驶技术再“上新”

车辆联网后，下一步是「驾驶员联网」？

如果将数据比喻为新形态的石油，那么远程通信行业就正在为钻机配备人员、操作管道和提炼原油产品。尽管这是一个充满争议的比喻，但随着互联汽车的出现，移动领域确实有许多参与者希望通过车辆数据来实现更安全的道路状况、更健康的车辆、得到强化的车内体验和新的收入来源。

详情见>>车联网后，下一步是"驾驶员联网"？

激光雷达的强度标定及路标提取

自动驾驶对高精地图的需求日益重要，本文主要是研究3D激光雷达传感器如何进行强度标定，能够利用标定后的强度信息实现路标的提取和识别, 典型的激光雷达传感器测量值包含了距离信息和强度信息，所谓的强度信息即是从物体表面反射的强度，在物理上分析，强度的值取决于三个因素：物体反射率，到物体表面的距离，以及入射角，因此相同反射率的路标值相对于传感器的不同的距离和入射角，将得到不同的强度值。通过对激光雷达的强度标定，确保对同一物体的具有相同的强度值。为了解决这一问题，利用了传感器相对于参考物体表面的强度特性，估算了物体表面的反射率，利用Ostu阈值法进行道路路标线的提取，验证标定结果的可行性。

详情见>>激光雷达的强度标定及路标提取

活动推荐

【免费参与】从多维度出发保障&提升实时音视频质量

10月30日 | 北京 LiveVideoStack将携手七牛云共邀4位技术大咖，围绕着实时音视频场景下，七牛云如何从多个维度来保障和提升音画质量展开。我们所理解的音画质量，不仅包括最基础的服务质量，还包括我们的观感体验，本场将会从服务端、客户端、编解码等多个领域展开，对保障和提升音视频质量相关的经验进行分享。

扫码