每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

完整声学极简史

偶然得见一篇文章简单介绍了声学发展史,与我之前的几篇文章有很大关联。所以将其添油加醋放到这里,用编年史的形式呈现。显然这里涵盖的仅为声学史的一隅,所以在厚颜无耻的“完整”二字后面,加上“极简”以示谦卑。

8K 和光场/全息技术的发展现状

本次演讲由 Insight Media 的总裁, 也是 8k 协会的执行董事 Chris Chinnock 带来。演讲的主题是 8K 和光场/全息技术的发展现状,探讨了使用 8K 的现实动机,并概览了目前正在进行的工作,即把成像进一步推向光场和全息技术。

OpenGL 屏幕成像和渲染原理解析

OpenGL或者shader的编程都是面向过程的,大部分是面向GPU的,这和面向CPU编程的思想是有所不同的。以前总觉得图形的变换总是在第一帧的基础上进行是费时费力的,如果在上一帧的基础上变换岂不是更省事,理解了屏幕成像和渲染原理之后对这个问题,或者说对图形学才有了初步的理解。

Vimeo 的数字版权管理(DRM)
数字版权管理 (DRM) 可实现媒体的安全传输,以便除其预期接收者之外的任何实体都无法有意义地访问它。Vimeo从事提供视频访问的业务,随着我们通过 Vimeo OTT 服务支持更大的工作室,许可证持有者希望对其内容进行更深入、更细致的控制;较大的工作室在在线播放时有更严格的 DRM 要求。因此,从黑匣子中辨别 DRM 的可配置部分对于确保无缝播放以及有意义地保护许可视频至关重要。

https://medium.com/vimeo-engineering-blog/drm-at-vimeo-9c3b9537119a

AV2 视频编解码器——早期性能评估研究

本文针对libaom AV1编码器,提出并讨论了AV2作为研究分支的新编码工具的广泛性能评估。

https://ottverse.com/av2-video-codec-evaluation/

DCT如此重要,作者当初竟然不知道?
前段时间,LiveVideoStack发布了一篇文章《视频压缩简史:从1920到2020》,这篇文章获得了很高的阅读量,文章中记录了一个又一个视频压缩历史上的里程碑事件,而其中最引人注目,也最重要的发明之一就是DCT。没有DCT,后面的H.26X, JPEG等一系列压缩标准将无从谈起。

SoundStream:端到端神经音频编解码器
今年早些时候,我们发布了Lyra,这是一种用于低比特率语音的神经音频编解码器。在“SoundStream:端到端神经音频编解码器”中,我们介绍了一种新颖的神经音频编解码器,通过提供更高质量的音频并扩展到编码不同的声音类型,包括干净的语音、嘈杂和混响语音、音乐, 和环境声音。SoundStream 是第一个处理语音和音乐的神经网络编解码器,同时能够在智能手机 CPU 上实时运行。它能够使用单一训练模型在广泛的比特率范围内提供最先进的质量,这代表了可学习编解码器的重大进步。

https://ai.googleblog.com/2021/08/soundstream-end-to-end-neural-audio.html

fraunhoferhhi的VVC编码器更新V 1.1.0版本
在此次的更新版本中,添加了BCW、重新定义预设、提高 SCC 和 2-pass RC 精度,以及各种错误修正和改进。

https://github.com/fraunhoferhhi/vvenc/releases/tag/v1.1.0

H.266/VVC 帧内预测技术
相比于 HEVC,VVC 对已有的一些帧内预测技术在多个方向上进行了细化和优化:加倍细化的预测角度,及针对长方形块的更有效预测的广角模式;更加高效自适应的 4 头内插及平滑滤波;多个参考行;多个子块划分......

VVenC:开源实用 VVC 编码器的优化

本篇是 PCS2021 的 workshop,讲述 HHI 开发 VVenC 的一些进展与细节。首先 Benjamin 对 VVenC 有一个整体上的介绍,随后 Adam 详细介绍了 VVenC 的 preset 是如何通过帕累托优化挑选的,VVenC 的多线程优化,最后,Christian 介绍了 VVenC 的主观优化。

李超:WebRTC传输与服务质量

为了保证音视频的质量,WebRTC底层做了大量的工作,尤其是网络传输与服务质量,更是其核心技术,本文由北京音视跳动科技有限公司 首席架构师 李超在LiveVideoStack线上分享的演讲整理而成,详细解析了WebRTC底层技术与优化在网络质量、传输实时性与服务质量之间的矛盾以及平衡之道。

如何实现H.264的实时传输?
实时视频系统中的媒体传输,绝大多数都会采用RTP(实时传输协议)标准。H.264视频作为当前应用最广泛的视频编码标准,其传输协议也会首选RTP标准。在设计实现H.264的实时传输时,H.264协议基于RTP的打包和解包定义于IETF标准-RFC6184,RTC系统需要遵循这个标准来设计打包和解包处理模块。在通信理论中,这个过程可以被认为是基于传输的信道编码。本篇技术文章带你了解H.264在RTP中的基本格式和技术实践。

TCP 才不傻!
本文回答了读者对TCP在3次握手和4次挥手的一些疑问,这些问题都是关于TCP是如何处理这些异常场景的,我们在学TCP连接建立和断开的时候,总是以为这些过程能如期完成。可惜理想很丰满,现实很骨感,事实预料呀。但TCP才不傻,对以上这些异常场景都是有做处理的。

开启生成式视频压缩:谷歌基于GAN来实现,性能与HEVC相当

来自谷歌的研究者提出了一种基于生成对抗网络 (GAN) 的神经视频压缩方法,该方法优于以前的神经视频压缩方法,并且在用户研究中与 HEVC 性能相当。

论文推介:语音增强模型DCCRN+—基于SNR估计的子带DCCRN
DCCRN+是基于DCCRN的改进,提出了一种结合SNR估计和子带处理的语音增强方法,可以在模型降噪能力和人声质量两个方面做较好的权衡,模型的前向推理速度也得到了一定的提升。

ICASSP2021:基于显著性进行目标检测的VVC编码
本文论文基于VVC提出了面向显著性的编码框架用于处理机器任务。为了在编码前获取显著性区域,论文使用YOLO进行目标检测。为了验证编码对于机器处理的效果,论文对解码图像使用Mask R-CNN进行目标分割。

惊艳的NeRF算法,可用于视图合成的神经辐射场技术

2020和2021年,最火的计算机视觉技术非Transformer莫属。而除Transformer之外,最受欢迎也最有趣的技术我想应该是ECCV 2020的神经辐射场 (Neural Radiance Field, NERF) ,其核心点在于非显式地将一个复杂的静态场景用一个神经网络来建模。在网络训练完成后,可以从任意角度渲染出清晰的场景图片。

BEBLID:增强的高效局部图像特征描述符

作者提出了一种有效的图像描述符BELID。其有效性的关键是对一组图像特征进行有区别的选择,且计算量要求非常低。实验是在电脑和智能手机上进行,BELID的精确度与SIFT相似,执行时间与最快的算法ORB相当。

为什么VR视频的清晰度不高?
VR内容的清晰度一直以来广受关注,也是提升用户沉浸感体验的重要因素。不过,体验过VR视频的不少用户都会抱怨:我们看的明明是4K甚至是8K内容,可实际观感还不如手机1080P的画质。是我买了个假VR设备?还是看了个假4k内容?

基于深度学习的视觉三维重建研究总结
三维重建作为环境感知的关键技术之一,可用于自动驾驶、虚拟现实、运动目标监测、行为分析、安防监控和重点人群监护等。现在每个人都在研究识别,但识别只是计算机视觉的一部分。真正意义上的计算机视觉要超越识别,感知三维环境。我们活在三维空间里,要做到交互和感知,就必须将世界恢复到三维。所以,在识别的基础上,计算机视觉下一步必须走向三维重建。本文笔者将带大家初步了解三维重建的相关内容以及算法。

Road-SLAM:基于道路标线车道级精度SLAM
在本文中,我们提出了基于道路标记SLAM算法,该算法充分利用了从相机图像中获取的道路标记,道路标记物分类良好,信息丰富,用来实现全局定位。


活动推荐

【免费活动】字节跳动背后的音视频技术揭秘

10月29日 | 北京 LiveVideoStack将联合火山引擎的5位技术专家在本专题中,展示字节跳动背后的音视频技术,以及如何利用这些技术支撑业务发展并满足合作伙伴的需求。本次分享将从音视频编解码开始,回顾音视频编码技术并进行展望,介绍编码的优化与评估;随后,将介绍音视频在直播方面的应用和如何通过音视频支持业务的增长;最后,将以抖音为例,介绍RTC技术是如何追求极致的体验。

⏰ 活动时间:2021/10/29 14:00-18:00

???? 参与方式:线下参与

???? 报名方式:点击链接

http://livevideostack.mikecrm.com/j2buNlt 免费报名:)


【公开课预告】GVoice 千万在线语音传输的那些事

本期的主题GVoice,它为腾讯旗下的主流游戏提供低延迟语音通话服务,其特点是高并发、覆盖全球。本次分享的嘉宾许路平是GVoice后台负责人,他会详细介绍游戏业务的特点,以及GVoice针对性的架构与协议的设计原则和方法,高可用保障与成本控制,重点性能突破和未来展望等。

讲师信息:

许路平 腾讯游戏后台研发高级工程师。主要从事游戏多媒体网络传输技术,游戏对战网络传输技术,游戏网络传输优化等设计开发工作。参与王者荣耀对战网络传输,多链路通信设计开发,负责腾讯游戏语音GVoice后台架构设计和开发,成功服务于王者荣耀、和平精英,PubgM,LOL等腾讯所有自研,代理游戏,并支撑行业2000多款游戏, 构筑全球千万在线语音通信平台。在确保高并发,低延时的前提下给游戏带来低成本高音质的语音体验。

⏰ 活动时间:2021. 08. 17 | 19:30

???? 观看方式
1. 扫描上图二维码加LiveVideoStack小秘书,进群与嘉宾交流
2. 关注LiveVideoStack视频号,记得预约:)


插图源自Pexels

音视频技术开发周刊 | 208相关推荐

  1. 音视频技术开发周刊 94期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第94期内容,祝您阅读愉快. 架构 衡量视频质量有 ...

  2. 音视频技术开发周刊 93期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第93期内容,祝您阅读愉快. 架构 Nodejs+ ...

  3. 音视频技术开发周刊 92期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第92期内容,祝您阅读愉快. 架构 从通信到AI ...

  4. 音视频技术开发周刊 91期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第91期内容,祝您阅读愉快. 架构 从头到脚撸一个 ...

  5. 音视频技术开发周刊 90期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第90期内容,祝您阅读愉快. 架构 刘歧:让人生不 ...

  6. 音视频技术开发周刊 88期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第88期内容,祝您阅读愉快. 架构 思科:2022 ...

  7. 音视频技术开发周刊 87期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第87期内容,祝您阅读愉快. 架构 如何优化Web ...

  8. 音视频技术开发周刊 86期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第86期内容,祝您阅读愉快. 架构 2019年低延 ...

  9. 音视频技术开发周刊 84期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第84期内容,祝您阅读愉快. 架构 手机K歌的人声 ...

最新文章

  1. ecos 编译时无法找到 tclConfig.sh 和 tkConfig.sh
  2. 第十五届全国大学生智能汽车竞赛-室外光电ROS组预赛方案
  3. 45个纯 CSS 实现的精美边框效果【附演示和源码】【上篇】
  4. python中unique函数_正在计算unique()的返回值
  5. ct检查床的移动精度是指_炮塔铣床、数控铣床导轨平行度(扭曲)的检验
  6. SecureCRT无法登录Ubuntu
  7. PS教程第十七课:放大看 缩小看
  8. Q96:PT(3.3):大理石纹理(Marble Texture)
  9. word插入目录右边对不齐
  10. 你还在使用xshell绿色破解版?
  11. c语言保留三位小数用float,float保留三位小数
  12. java毕业设计对外汉语教学辅助平台Mybatis+系统+数据库+调试部署
  13. eNSP模拟不同用户无线上网实验(AC+AP)
  14. PageHelper.startPage的使用
  15. 如何对客户行为进行数据分析?
  16. RMXP脚本解析(二十):Game_Actors
  17. 终于懂得孤独是躲不开的单行道
  18. java代码实现流程中的会签_一个简单的会签实例
  19. Android增强现实(三)-3D模型展示器
  20. SpringBoot与MongoDB的集成使用

热门文章

  1. 【报错笔记】eclipse运行tomcat程序时报错
  2. 利用 Python / R 对数据集进行「长」「宽」转换
  3. React版本更新及升级须知(持续更新)
  4. mysql 编码和汉字存储占用字节问题的探索
  5. Android后台保活实践总结:即时通讯应用无法根治的“顽疾”
  6. Spring3 MVC Login Interceptor(Spring 拦截器)
  7. 有向图的邻接表表示法
  8. 网络服务器预防dos***的层次
  9. 系统分析师考试结束了
  10. 扩展欧几里得求解ax+by=c的特殊解(模板)