音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

拍乐云基于AV1的实时视频系统技术实践

实时视频系统对于时延的要求极高，视频编码器必须满足实时性的要求。新一代视频标准AV1相比主流H.264在Rate-distortation性能的提升上是以复杂度的上升为代价的，当前应用设备的碎片化非常严重、设备的运算能力差异巨大，这些都是新技术落地实时系统面临的挑战。本次分享将围绕拍乐云在设计Pano Venus实时AV1通信系统时的一些技术实践展开深入分析与讲解，期望和大家共同探索实时视频技术的未来。

自监督、半监督学习在内容安全中的应用

在深度学习领域中，半监督、自监督算法通过借助无标签数据与无监督训练任务，可有效改善传统有监督算法中“泛化性能不足”、“模型过拟合”、“严重依赖数据标注质量”等问题。在此次LiveVideoStackCon 2021 音视频技术大会北京站，我们邀请到了网易易盾资深算法工程师——崔若璇，为我们介绍了半监督学习领域的发展脉络，并展示半监督、自监督算法在网易易盾内容安全业务上的创新应用。

编解码再进化：Ali266与下一代视频技术

过去的一年见证了人类百年不遇的大事记，也见证了多种视频应用的厚积薄发。而因此所带来的视频数据量的爆发式增长更加加剧了对高效编解码这样的底层硬核技术的急迫需求。正是在这样的大环境下，在ITU-T VCEG和ISO/IEC MPEG两大标准组织再次联手推出的最新视频编解码标准VVC定稿不久之后，阿里巴巴的视频团队开始全力投入开展VVC软件编解码的开发工作。本次LiveVideoStackCon2021北京峰会我们邀请到了阿里巴巴研究员，阿里云智能云视频标准与实现负责人叶琰老师来分享视频业界现状、Ali266自研VVC编解码器的技术演进史和业务展望、以及视频业界所面临的未来机遇和挑战。

冲刺最后一公里——音视频场景下的边缘计算实践

近年来，边缘计算逐渐从未来风口变成了进行时，而内容分发这个天生与“下沉”密不可分的领域，在边缘计算实践中可谓一马当先。网心从2014年开始探索边缘传输网络的商业可行性，实现了传统CDN到边缘CDN的技术演进，也见证了边缘CDN从超前概念到行业标配的发展历程。当数据下沉到最后一公里时，在如此复杂的节点和网络环境下构建百万量级的边缘节点网络，同时服务好需求不断深化的音视频业务，是一个不小的挑战。在此次LiveVideoStackCon 2021 音视频技术大会北京站，我们邀请到了网心科技首席架构师——曾伟纪，与大家分享一些实践历程和关键问题，以供参考。

下一代音视频SDK的方案设计

经过五年的努力，腾讯云终端团队不断完善并积累出了一套完整的终端SDK方案体系，包含即时通信，主播推流，直播播放、点播播放、RTC实时互动、短视频录制，特效编辑等一系列音视频和实时通信相关的功能特性。在这些功能背后，团队是如何完成了框架设计、组件打磨、数据流转、性能优化的呢？本次LiveVideoStackCon 2021北京站我们邀请到了腾讯云的常青来从产品能力、架构设计、以及技术原理等多个角度进行剖析分享。

基于神经网络视频编码的通用测试规范

JVET第20次会议为基于神经网络的编码成立了EE1，这个EE专门用于探索深度学习在视频编码方面的潜能。为了规范和统一测试条件，JVET专门制定了相应的通用测试条件（Common Test Conditions ，CTC），最新版CTC为JVET-X2016（公众号后台回复“JVET-X2016”获取）。CTC规定了配置、测试序列、训练序列、参考软件、训练方法、评价指标等。

用于大规模视频流的硬件编码架构

本次演讲将介绍基于硬件的视频编码的进展。目前大规模视频服务和平台被迫降低其运营成本，同时减少碳足迹。演讲将比较 GPU、FPGA 和基于 ASIC 硬件的数据中心视频编码。并介绍 ASIC 能够解锁新视频应用并提高现有解决方案的经济可行性的特定用例。

一问一答，浅谈Penguins AI-Codec

腾讯会议天籁实验室携手腾讯AI Lab，共同打造的Penguins，于2021腾讯技术生态大会上正式面世。Penguins是一款超低码率、高质量AI-Codec，支持多种运行模式，以满足RTC场景下多种应用诉求。其核心技术点在于，紧密结合经典信号处理和最新的深度学习技术，最大化提升带宽利用率。

奈飞TV流媒体的AV1实践

AV1 是由开放媒体联盟（AOMedia）提供的第一个免版税许可的高效视频编解码器，Netflix 作为 AOMedia 的创始成员和 AV1 发展的主要贡献者，希望将 AV1 流媒体带到 Netflix 用户的 TV 上。为此 Netflix 做出了许多努力，克服了许多问题与挑战，这里简要介绍了四大挑战以及 Netflix 的解决方案。最终 Netflix 实现了用户体验质量的提升，延迟的降低。

航拍 HDR 视频的 VVC 和 AV1 编码

本文来自 SPIE Optical Engineering + Applications, 2021，作者从以下三个角度研究了航拍 HDR 视频：a) 转换为 VVC 或 AV1 格式码流的方便性；b) 转换为 VVC 或 AV1 格式码流的效率；c) 是否存在复杂度或播放上的问题。

软硬一体的算法实践，阿里云如何以算法实现场景“再创新”？

音视频消费的新场景催生了越来越多新的技术需求，从当下的直播、点播、RTC，到未来的XR和元宇宙，音视频技术对新场景的支撑越来越趋向于综合性，近年来AI算法发展迅猛，但是较好的算法效果往往需要消耗很大的算力资源，这使算法商业化落地面临非常大的挑战。我们应该如何充分发挥软硬一体的能力？如何有效平衡算法效果和性能？

小波去噪的基本原理及其实现方法（Matlab）

小波去噪方法就是一种建立在小波变换多分辨分析基础上的算法，其基本思想是根据噪声与信号在不同频带上的小波分解系数具有不同强度分布的特点，将各频带上的噪声对应的小波系数去除，保留原始信号的小波分解系数，然后对处理后的系数进行小波重构，得到纯净信号。

WebRTC 实现 Android 传屏 demo

目前，WebRTC的应用已经不局限在浏览器与浏览器之间，通过官方提供的SDK，我们可以很容易的实现本地应用间的音视频传输。在Android平台上，我们也非常容易的集成WebRTC框架，用非常简洁的代码就能实现强大、可靠的音视频传输功能。

深入理解 TCP 拥塞控制

随着网络技术的飞速发展，越来越多的工作依赖网络完成，基于互联网的实时通信系统的质量和实时性也很大程度也依赖于网络质量。然而，在Internet的TCP/IP体系结构中，拥塞的发生是其固有的属性。网络拥塞是指用户对网络资源（包括链路带宽、存储空间和处理器处理能力等）的需求超过了固有的处理能力和容量, 相比UDP，TCP自身具有拥塞控制机制，并且需要保障数据可靠传输，这会对基于TCP的音视频实时传输造成一定的困扰。本文将深入讲解TCP的拥塞控制机制以及如何基于TCP传输来设计一个实时音视频系统。

Python 三维姿态估计+Unity3d 实现 3D 虚拟现实交互游戏

随着人机交互技术飞速发展，人体姿态估计技术越来越受到重视。姿态估计作为人体行为识别的重要组成部分，近年来逐渐成为计算机视觉领域的一个重要的研究热点。由于人体结构和姿态的复杂性以及视觉理论的局限性，最初人体姿态估计算法仅从图像或者视频当中预测人体二维骨架节点的坐标位置。2015年马普所提出了由姿态与体型参数驱动的蒙皮多人线性模型，由于该模型具有出色的建模效果与快速的计算效率，许多团队提出了利用该模型进行人体姿态估计的方法。

NeurIPS 2021 | 视觉Transformer和CNN看到的特征是相同的吗？谷歌大脑新作

近年来，Vision Transformer (ViT) 势头强劲。本文将解释论文《Do Vision Transformers See Like Convolutional Neural Networks?》 (Raghu et al., 2021) 由 Google Brain 发表，并探讨传统CNN 和 Vision Transformer 之间的区别。

基于点线特征的激光雷达单目视觉里程计

本文介绍了一种新颖的使用点和线的激光雷达+单目视觉的里程计方法。与以往的基于lidar+视觉里程计相比，通过在姿态估计中引入点和线特征来利用更多的环境结构信息。提出了一种稳健的点线特征深度提取方法，并将提取的深度值作为点线捆集平差法的先验因子。该方法大大降低了特征的三维模糊度，提高了姿态估计精度。

DROID-SLAM: 单目、双目、RGBD相机的深度视觉SLAM

本文提出了DROID-SLAM, 一个全新的基于深度学习的SLAM系统. DROID-SLAM通过一个深度BA层来循环迭代的更新相机位姿和像素深度值. 实验证明, DROID-SLAM比传统SLAM取得了更高的精度和鲁棒性, 在实验场景中几乎不会失败. 尽管我们只在单目视频上训练了我们的网络, 但是在测试阶段，这个网络仍然可以在双目和RGB-D视频上取得很好的表现。

活动推荐

【城市沙龙】LiveVideoStack Meet|成都：蜀主风流

11月20日，LiveVideoStack Meet 成都站将采用线上直播形式，我们邀请到了京东、新东方、顺丰和咪咕视频等企业的嘉宾进行干货分享，与大家畅谈成都的音视频环境与发展。也期待疫情过后，有更多零距离的交流。

报名链接：

https://www.huodongxing.com/event/9621015759400

插图源自Pexels

音视频技术开发周刊 | 220相关推荐

音视频技术开发周刊 94期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第94期内容,祝您阅读愉快. 架构衡量视频质量有 ...
音视频技术开发周刊 93期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第93期内容,祝您阅读愉快. 架构 Nodejs+ ...
音视频技术开发周刊 92期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第92期内容,祝您阅读愉快. 架构从通信到AI ...
音视频技术开发周刊 91期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第91期内容,祝您阅读愉快. 架构从头到脚撸一个 ...
音视频技术开发周刊 90期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第90期内容,祝您阅读愉快. 架构刘歧:让人生不 ...
音视频技术开发周刊 88期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第88期内容,祝您阅读愉快. 架构思科:2022 ...
音视频技术开发周刊 87期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第87期内容,祝您阅读愉快. 架构如何优化Web ...
音视频技术开发周刊 86期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第86期内容,祝您阅读愉快. 架构 2019年低延 ...
音视频技术开发周刊 84期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第84期内容,祝您阅读愉快. 架构手机K歌的人声 ...

音视频技术开发周刊 | 220

音视频技术开发周刊 | 220相关推荐

最新文章

热门文章