音视频技术开发周刊

每周一期，纵览音视频技术领域的干货。

新闻投稿：contribute@livevideostack.com。

「紧急通知」LiveVideoStackCon 2022 音视频技术大会北京站改期
各位LVSer们：
因疫情影响，北京近期不再允许举办大型线下活动，我们无奈且抱歉的通知大家LiveVideoStackCon 2022音视频技术大会北京站大会将暂停举办，延期至2023年第一季度召开，具体时间待疫情稳定允许后再另行通知。我们感谢所有为此次大会付出时间和努力的伙伴们，相见是肯定的，非常情况下，好事更多磨吧！因此给大家带来的不便，我们深表歉意。

LiveVideoStack会务组

2022年11月24日

流媒体服务新手入门教程01--什么是流媒体服务及m7s介绍
流媒体是指采用流式传输的方式传播多媒体文件。比如现在常见的直播应用抖音、快手以及视频网站，它们的背后都是流媒体服务支撑着。
https://juejin.cn/post/6988659336457240590

一看就懂的 OpenGL 基础概念（3）：各种 O 之 VBO、EBO、VAO丨音视频基础
在前面的文章里，我们介绍了 OpenGL 在图形渲染应用中的角色，OpenGL 的渲染架构、状态机、渲染管线，以及 OpenGL 要在设备上实现渲染的桥梁 EDL 等内容，接下来我们来介绍一下在 OpenGL 开发中帮助我们提升渲染性能的几种数据对象。

一种自适应边缘增强的颜色插值处理器的VLSI实现
这篇文章介绍了一种面向实时视频应用的、基于自适应边缘增强的去马赛克模块的VLSI实现，在保持低复杂度的同时，提高了图像质量。

使用 OpenCV 和 Python 在直播中模糊人脸
本文将学习如何使用 OpenCV 和 Python 在直播中模糊人脸。这将是一个非常有趣的博客，让我们开始吧！

FFmpeg filter浅析--下篇
在之前的两篇文章中，我们熟悉了FFmpeg filter的基本概念，命令行用法和关键结构体、API使用流程，本篇文章我们在之前的Demo演示工程中通过调用libavfilter相关API来实现drawgrid filter效果。

音视频开发之旅（39)- 高斯模糊实现与优化
我们在平时开发中模糊是非常常用的技能，在android中有java的开源方案，也有RenderScript方案，今天我们来学习实践通过OpenGL如何实现高斯模糊。

语音前处理技术在会议场景中的应用及挑战
随着在线会议的普及，用户已经不再满足于能听到，而是要有更为极致的听感体验，如何能够在复杂多变的应用场景中依旧保证声音清晰流畅是对会议系统的极大挑战。

INTERSPEECH 2022｜FS-CANet: 基于全带子带交叉注意力机制的语音增强
本文提出了一个全带-子带交叉注意模块来交互融合全局信息和局部信息，并将其应用于FullSubNet，提出了新的语音增强方法FS-CANet。通过FS-CANet，我们在全带-子带语音增强模型内有效交互融合全带与子带信息，在降低参数量的情况下进一步提升了原有语音增强模型在复杂声学环境下的降噪性能。

流式语音识别的大厦已经落成，天空中只漂浮着两朵乌云
在本文中，我们发现了解决尖峰漂移还有一种新的视角：那就是“ 数据 ”。深度学习的奥秘，绝大部分隐藏在数据中，我们深信：模型的潜能上限不在于模型结构/训练技巧，而在于数据。

苹果AirPods Max新专利 | 用于隐私的骨传导换能器
近日，美国专利和商标局正式授予苹果一项专利，该专利与保护隐私的骨传导换能器有关。更具体地说，该专利涵盖了一种在苹果AirPods Max等无线头戴式耳机上执行的方法。

Dirac Virtuo音频解决方案概览
Dirac Virtuo通过精确的声音定位，打造一个宽敞、自然的声景，超越用户音响系统的物理限制，以实现具有空间感的沉浸式声音体验。

被“白嫖”拖垮的开源维护者，缺的从来就不只是钱......
在开源领域，有一个存在很久但始终难以解决的问题——开源维护者全力维护开源项目，却没有稳定资金来源，而“用爱发电”注定难以为继，各种开源项目开始 Bug 频出。对此，很多人呼吁要对开源维护者提供资助，但这真的能彻底解决问题吗？

BEV常见的开源算法系列一 | BEV空间的生成
本篇将从BEV空间的生成算法开始，介绍BEV算法的发展历史，并且重点介绍基于Transformer的BEV空间生成算法。这些算法开创性地使用Transformer更高效，更精确地生成BEV空间。

声纹识别开源工具 ASV-Subtools
今天我分享的主要有5个部分的内容，分别是背景介绍、工具介绍、实验结果、Subtools工程化、总结与展望。其中Subtools工程化是我这次报告的一个重点。

这个懂中文的 AI 高手，画出的高山明月太惊艳！中英双语 AltDiffusion 模型已开源
日前，智源研究院大模型研究团队开源最新双语 AltDiffusion 模型，为中文世界带来专业级 AI 文图创作的强劲动力。AltDiffusion 和 AltCLIP 模型均为多语言模型，中英双语为第一阶段工作，代码与模型已开源。

开源大盘点 | 各国车牌识别开源数据集汇总
本文整理了11个车牌检测识别相关的开源数据集资源，一起来看看吧。

CVPR 2022 | CLIP-NeRF: 文字-图像驱动的 NeRF 操作
本文提出了 CLIP-NeRF，一种用于神经辐射场的多模态 3D 对象操作方法。通过利用最近的对比语言-图像预训练 (CLIP) 模型的联合语言-图像嵌入空间提出了一个统一的框架，允许使用短文本提示或示例图像以用户友好的方式操作 NeRF。

数字图像处理：边缘检测
在之前的文章中，我介绍了傅里叶变换，这次我将介绍另一种图像处理方法，边缘检测。在openCV中，有很多函数可以让我们找到图像的边缘，在这篇文章中，我将挑选出比较有代表性的Sobal算子和Laplacian算子进行介绍。

12个常用的图像数据增强技术总结
本文总结了图像增强常用的一些方法，并附相关实现代码。图像本身的变化将有助于模型对未见数据的泛化，从而不会对数据进行过拟合。

深度学习在图像处理中的应用一览
计算机视觉的底层，图像处理，根本上讲是基于一定假设条件下的信号重建。这个重建不是3-D结构重建，是指恢复信号的原始信息，比如去噪声。

淘宝拍立淘iOS相册架构设计小结
这篇文章从系统权限、API 调用、架构设计等角度，生动演示了一个设计友好、模块独立、易拓展以及用户体验优秀的相册是如何开发出来的。除此之外，作者针对各种小细节也做了优化和解析，使得功能实现更加的丰满。

【RTSCon 2022】实时通信与价值赋能
初雪将至，万众期待的一年一度RTSCon再次来袭，本次RTSCon 2022由RTS社区和LiveVideoStack社区联合出品。本次大会主题围绕“实时通信与价值赋能”开展，届时我们为大家准备了业内大咖主题演讲以及圆桌会议两个模块，欢迎报名参会收看。

⏰ 时间：2022年12月3日 9:00-19:00

音视频技术开发周刊 | 273相关推荐

音视频技术开发周刊 94期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第94期内容,祝您阅读愉快. 架构衡量视频质量有 ...
音视频技术开发周刊 93期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第93期内容,祝您阅读愉快. 架构 Nodejs+ ...
音视频技术开发周刊 92期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第92期内容,祝您阅读愉快. 架构从通信到AI ...
音视频技术开发周刊 91期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第91期内容,祝您阅读愉快. 架构从头到脚撸一个 ...
音视频技术开发周刊 90期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第90期内容,祝您阅读愉快. 架构刘歧:让人生不 ...
音视频技术开发周刊 88期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第88期内容,祝您阅读愉快. 架构思科:2022 ...
音视频技术开发周刊 87期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第87期内容,祝您阅读愉快. 架构如何优化Web ...
音视频技术开发周刊 86期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第86期内容,祝您阅读愉快. 架构 2019年低延 ...
音视频技术开发周刊 84期
『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第84期内容,祝您阅读愉快. 架构手机K歌的人声 ...

音视频技术开发周刊 | 273

音视频技术开发周刊 | 273相关推荐

最新文章

热门文章