每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。

小提示:链接跳转仅支持公众号相关链接

WebRTC诞生记

距离谷歌正式开源WebRTC实时通信项目,已经有10年时间,这10年中,WebRTC的重要性日益凸显,应用场景也越来越广泛。那么10年以前呢?WebRTC是怎样开发出来的?开发过程中遇到了哪些挑战?背后又有哪些幕后英雄?

全球多媒体视频内容保护最佳实践

随着后疫情时代教育全面转向线上、短视频和影视剧市场需求增加,音视频平台对于内容保护的重视更是前所未有。国内,5G的加持下,视频的消费蓬勃发展,用户付费习惯养成,如何增加和保护收益,成为各视频平台和在线教育平台的关注热点。本文来自爱迪德亚太区产品总监 施广在LiveVideoStack线上分享的演讲内容,从不同视频内容盗版手段出发和大家一同探讨了如何实现视频内容创作、分发和消费端到端的保护。

ffplay 播放器源代码分析

本文对 ffplay 源码进行分析,试图用更基础而系统的方法,来尝试解开播放器的音视频同步,以及播放/暂停、快进/后退的控制原理。

视频 QoE 的平衡之道

互联网发展迅猛,实时通信(Real Time Communication,简称 RTC)需求与日俱增。如何在各种复杂网络服务质量 (Quality of Serverice,简称 QoS)下,以及参差不齐的硬件终端上取得最佳的视频体验质量 (Quality of Experience,简称 QoE) ,是 RTC 技术的重要一环。本文从视频质量控制系统 (Video Quality Controller,简称 VQC)模块出发,介绍网易云信 NERTC 在提升视频 QoE 方面做的一些工作。

AOM Summit:拥抱开源,引领新技术创新

开放媒体联盟是由亚马逊、思科、谷歌、英特尔、微软、Mozilla以及Netflix等互联网巨头于2015年9月2日正式宣布成立。该联盟旨在通过制定全新、开放、免版权费的视频编码标准和视频格式,为下一代多多媒体体验创造新的机遇。目前的中国有许多企业已经加入了开放媒体联盟,并且与之有紧密的合作,以及共同开发。

论文推介:可控对话语音合成技术

论文实现了一种上下文感知的可控对话合成技术(Controllable Conversational TTS),也就是可以根据输入的两人之间对话文本,有效利用对话上下文,合成出逼真的自然口语对话(双方语音都是合成出来的),同时可以控制口语化语音的流利程度。

探索使用 VideoToolbox 进行低延迟视频编码

低延迟编码对于很多视频app来说都很重要,特别是对实时音视频场景。苹果在 WWDC 2021 在 VideoToolbox 里推出了一种新的低延迟编码模式。低延迟编码模式的主要目的是为实时通讯场景优化现有的编码流程。

https://joey.blue/2021/07/01/Low-Latency-Encoding-with-VideoToolbox/

Spin Digital 发布 VVC 8K 解码器和媒体播放器

2021 年 6 月 21 日 — 高端视频编码解决方案提供商 Spin Digital 宣布推出支持多功能视频编码 (VVC) 标准的 8K 实时软件解码器和媒体播放器。

https://spin-digital.com/announcements/vvc-player/

传统编码新突破-适配复杂优化准则的自动编码优化框架

本文主要介绍了适配复杂优化准则的自动编码优化框架。这也是首个利用强化学习网络实现智能分析任务的通用编码框架。

ICME2021:基于CNN的HEVC帧内编码块快速划分

本文来自ICME2021论文《CNN-BASED DEPTH MAP PREDICTION FOR FAST BLOCK PARTITIONING IN HEVC INTRA CODING  》在HM中,通过递归调用RDO来选择最优的划分模式,整个过程计算复杂度很高且硬件实现不友好。论文使用CNN为HEVC的帧内编码生产深度图来进行快速划分。

CVPR2021最佳论文:当GAN遇到3D场景,无需监督就学会“动态抠图”、360度展示对象

GAN又又又有新玩法了!人脸?NO,NO,NO~这回,开发者利用「3D+GAN」生成了汽车大片,还是能360度展示、随手换背景那种。

技术的真相 | 提高照片清晰度的黑魔法竟然是..

影像已经成为我们记录生活的重要方式之一。那些难忘和美好的时刻通过照片被保留。然而有些回忆却因为画质的模糊不清,被蒙上了一层纱,或受限于当时的镜头缺陷,或是相机抖动导致,有什么办法可以解决这一难题吗?本期技术的真相将给大家详细解析让图片变清晰的技术。

隐秘的印记:暗水印实践技术分享

广义来说,暗水印可以理解为,在一些载体数据中添加隐藏标记,这些标记在人类和机器可轻易感知的范围之外。相较于常见的明水印,比如图片和视频中的公司logo、纸币中的水印纹理等。暗水印对大部分感知系统来说是透明的,不可见的。

微软VR手柄研究:如何用两个独立的体感手柄模拟跳绳?

近期,微软与韩国科学技术院KAIST合作,研发了一种利用两个独立的手柄来模拟跳绳等连续物体的方案:GamesBond。与此前的手柄研究相比,GamesBond更适合集成于VR手柄中,而且可用于健身、培训模拟等实际场景。

对话扎克伯格:未来AR/VR将取代线下活动和艺术展

早在Facebook首次公布AR眼镜计划时,就曾提出用虚拟内容来替代电视等硬件,将各种不同的硬件变成基于AR的app。而近期,Facebook CEO在欧洲Viva Tech峰会上与Viva联合创始人Maurice Levy对话时,再次强调AR/VR的多样化应用场景,他还表示:AR将推动创意经济,成为创作者谋生的工具。

可模拟金属动态光影,苹果研发移动端HDR AR渲染方案

近期,苹果计算机视觉科研部门研发了一种基于HDR图像技术的AR渲染方案,其特点是无需重复训练,即可在各种新场景中动态渲染AR模型表面的反光/光影效果,逼真模拟金属等自然纹理。

自动驾驶汽车真的比人驾驶汽车更安全吗?

自动驾驶汽车是人工智能技术最令人兴奋和最具影响力的应用场景之一。仅在美国,每年就有超过 35,000 人死于车祸。由于自动驾驶汽车理论上可以比人类司机更快做出反应,并且不会醉酒驾驶、不会边开车边发短信或感到疲倦,所以它们应该能够显著提高车辆安全性。这种技术还承诺让老年人和其他不能轻松驾车的人们更加独立,出行更方便。在过去三年中,自动驾驶汽车行业获得的投资超过 2500 亿美元。

自动驾驶汽车的伪激光雷达-双目立体视觉

双目立体视觉(Binocular Stereo Vision)是机器视觉的一种重要形式,它是基于视差原理并利用成像设备从不同的位置获取被测物体的两幅图像,通过计算图像对应点间的位置偏差,来获取物体三维几何信息的方法。

主流激光雷达分类及原理

激光雷达分类多种多样比如按发射波形可分为脉冲型和连续型,按探测方式可分为直接探测和相干探测,按线束可分为单线和多线等,本文将按扫描方式将雷达进行分类介绍。

新闻资讯

W3C将Web Audio API纳入官方标准,用于在Web浏览器中直接创建、操作音乐和声音

Web Audio API 专注于声音创建(而不仅仅是播放录制的音频),它提供了一组丰富的模块,Web 和应用程序开发人员可以将这些模块结合起来开发各种音频相关的应用程序,包括乐器、娱乐和游戏的音轨、AR/VR空间音频以及音频的在线分析和编辑等。

https://www.w3.org/2021/06/pressrelease-webaudio.html.en

活动推荐

在后疫情时代,随着技术的急速更迭,社会上对于线上化工具的普遍态度产生了从被动接纳走向积极应用的转变。其中,视频会议也迎来了发展的黄金时代。但与此同时,来自社会的压力也使得视频会议技术正面临着决定性的挑战。外部市场的竞争与饱和以及内部技术的生产力等等,都成为了视频会议将进一步赋能与渗透更多行业的过程中需要考虑的问题。

7月8日 19:30,我们分别邀请到了来自科天云研发中心总经理张军二六三企业通信音视频架构师 贺晓敏微软(中国)Microsoft Teams 高级产品市场经理 段旭东以及腾讯会议产品部高级研究员 许景禧四位视频会议技术专家,以视频会议存量时代为背景,进一步讨论在视频会议技术发展的过程中有关底层技术难点、端到端加密以及现代化办公和行业前沿技术等议题,引发大家对于视频会议技术未来创新全方位的思考。

7月10日,“Imagine”——2021阿里云视频云全景创新峰会暨全球视频云创新挑战赛决赛颁奖典礼将在北京举行。本届峰会,以全景化的创新视角,深入探索这个超视频化时代的图景与能量,思考视频云技术在时代的想象空间。就行业场景赋能,洞察视频云新应用场景链路中的盲点、痛点、机会点、创新点,覆盖互娱、电商、教育、传媒、协同等众行业。同时,阿里云将重磅发布一系列新洞察、新技术、新计划,联合各界一同创造新视界、新体验、新未来。

插图源自Pexels

音视频技术开发周刊 | 202相关推荐

  1. 音视频技术开发周刊 94期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第94期内容,祝您阅读愉快. 架构 衡量视频质量有 ...

  2. 音视频技术开发周刊 93期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第93期内容,祝您阅读愉快. 架构 Nodejs+ ...

  3. 音视频技术开发周刊 92期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第92期内容,祝您阅读愉快. 架构 从通信到AI ...

  4. 音视频技术开发周刊 91期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第91期内容,祝您阅读愉快. 架构 从头到脚撸一个 ...

  5. 音视频技术开发周刊 90期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第90期内容,祝您阅读愉快. 架构 刘歧:让人生不 ...

  6. 音视频技术开发周刊 88期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第88期内容,祝您阅读愉快. 架构 思科:2022 ...

  7. 音视频技术开发周刊 87期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第87期内容,祝您阅读愉快. 架构 如何优化Web ...

  8. 音视频技术开发周刊 86期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第86期内容,祝您阅读愉快. 架构 2019年低延 ...

  9. 音视频技术开发周刊 84期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第84期内容,祝您阅读愉快. 架构 手机K歌的人声 ...

最新文章

  1. 大触教你如何调节python内置函数
  2. a,b为2个整型变量,在不引入第三个变量的前提下写一个算法实现 a与b的值互换...
  3. SAS 2.0:中端理想“零距离”?
  4. play mysql_play framework 2.0 使用 mysql
  5. C#中readonly, const 和 in型参数使用
  6. tvar julia pca_景德镇品种多样PCA牛卡纸追求品质
  7. wireshark 抓包iphone 4g_比4G下续航短2小时,苹果回应iPhone12用5G耗电快:与运营商一道做更多优化工作...
  8. python基础之类的属性方法、魔术方法普通方法
  9. 微服务升级_SpringCloud Alibaba工作笔记0027---Nacos集群配置上
  10. SQL报错信息(3001-6999)
  11. Spark RDD概念学习系列之Pair RDD的分区控制
  12. [文档]CSS中文字体对照表
  13. 黑客入侵WinXP常用七个技巧
  14. ET框架---ClientFrameComponent学习笔记
  15. java-map(世界杯)
  16. 《机器学习实战》笔记-介绍
  17. Pytorch中BatchNorm中running_mean和running_var的计算方法
  18. 购买古筝琴弦常见10个问题
  19. SSD固态硬盘怎么选?选对接口是关键
  20. 企业经营数据的质量及其八个指标

热门文章

  1. 嵌入式系统开发设计——按键控制LED灯实现
  2. 熵(Entropy)、信息熵增益、信息熵增率和基尼(Gini)指数
  3. 使用C#播放MP3/WAV文件的四种方式
  4. OutLook 2010 设置MSN邮箱
  5. 题解 CF1100E 【Andrew and Taxi】
  6. ISO三体系认证有哪些意义和好处?
  7. ZBrush软件这些实用小技巧,你知道几个?
  8. 2016四川省省赛总结
  9. eeGeo的Recce地图-----换个方式发现世界
  10. 【TensorBoard】如何启动tensorboard的详尽步骤