每周一期,纵览音视频技术领域的干货。

新闻投稿:contribute@livevideostack.com。


「紧急通知」LiveVideoStackCon 2022 音视频技术大会北京站改期
各位LVSer们:
因疫情影响,北京近期不再允许举办大型线下活动,我们无奈且抱歉的通知大家LiveVideoStackCon 2022音视频技术大会北京站大会将暂停举办,延期至2023年第一季度召开,具体时间待疫情稳定允许后再另行通知。我们感谢所有为此次大会付出时间和努力的伙伴们,相见是肯定的,非常情况下,好事更多磨吧!因此给大家带来的不便,我们深表歉意。

LiveVideoStack会务组

2022年11月24日

流媒体服务新手入门教程01--什么是流媒体服务及m7s介绍
流媒体是指采用流式传输的方式传播多媒体文件。比如现在常见的直播应用抖音、快手以及视频网站,它们的背后都是流媒体服务支撑着。
https://juejin.cn/post/6988659336457240590

一看就懂的 OpenGL 基础概念(3):各种 O 之 VBO、EBO、VAO丨音视频基础
在前面的文章里,我们介绍了 OpenGL 在图形渲染应用中的角色,OpenGL 的渲染架构、状态机、渲染管线,以及 OpenGL 要在设备上实现渲染的桥梁 EDL 等内容,接下来我们来介绍一下在 OpenGL 开发中帮助我们提升渲染性能的几种数据对象。

一种自适应边缘增强的颜色插值处理器的VLSI实现
这篇文章介绍了一种面向实时视频应用的、基于自适应边缘增强的去马赛克模块的VLSI实现,在保持低复杂度的同时,提高了图像质量。

使用 OpenCV 和 Python 在直播中模糊人脸
本文将学习如何使用 OpenCV 和 Python 在直播中模糊人脸。这将是一个非常有趣的博客,让我们开始吧!

FFmpeg filter浅析--下篇
在之前的两篇文章中,我们熟悉了FFmpeg filter的基本概念,命令行用法和关键结构体、API使用流程,本篇文章我们在之前的Demo演示工程中通过调用libavfilter相关API来实现drawgrid filter效果。

音视频开发之旅(39)- 高斯模糊实现与优化
我们在平时开发中模糊是非常常用的技能,在android中有java的开源方案,也有RenderScript方案,今天我们来学习实践通过OpenGL如何实现高斯模糊。

语音前处理技术在会议场景中的应用及挑战
随着在线会议的普及,用户已经不再满足于能听到,而是要有更为极致的听感体验,如何能够在复杂多变的应用场景中依旧保证声音清晰流畅是对会议系统的极大挑战。

INTERSPEECH 2022|FS-CANet: 基于全带子带交叉注意力机制的语音增强
本文提出了一个全带-子带交叉注意模块来交互融合全局信息和局部信息,并将其应用于FullSubNet,提出了新的语音增强方法FS-CANet。通过FS-CANet,我们在全带-子带语音增强模型内有效交互融合全带与子带信息,在降低参数量的情况下进一步提升了原有语音增强模型在复杂声学环境下的降噪性能。

流式语音识别的大厦已经落成,天空中只漂浮着两朵乌云
在本文中,我们发现了解决尖峰漂移还有一种新的视角:那就是“ 数据 ”。深度学习的奥秘,绝大部分隐藏在数据中,我们深信:模型的潜能上限不在于模型结构/训练技巧,而在于数据。

苹果AirPods Max新专利 | 用于隐私的骨传导换能器
近日,美国专利和商标局正式授予苹果一项专利,该专利与保护隐私的骨传导换能器有关。更具体地说,该专利涵盖了一种在苹果AirPods Max等无线头戴式耳机上执行的方法。

Dirac Virtuo音频解决方案概览
Dirac Virtuo通过精确的声音定位,打造一个宽敞、自然的声景,超越用户音响系统的物理限制,以实现具有空间感的沉浸式声音体验。

被“白嫖”拖垮的开源维护者,缺的从来就不只是钱......
在开源领域,有一个存在很久但始终难以解决的问题——开源维护者全力维护开源项目,却没有稳定资金来源,而“用爱发电”注定难以为继,各种开源项目开始 Bug 频出。对此,很多人呼吁要对开源维护者提供资助,但这真的能彻底解决问题吗?

BEV常见的开源算法系列一 | BEV空间的生成
本篇将从BEV空间的生成算法开始,介绍BEV算法的发展历史,并且重点介绍基于Transformer的BEV空间生成算法。这些算法开创性地使用Transformer更高效,更精确地生成BEV空间。

声纹识别开源工具 ASV-Subtools
今天我分享的主要有5个部分的内容,分别是背景介绍、工具介绍、实验结果、Subtools工程化、总结与展望。其中Subtools工程化是我这次报告的一个重点。

这个懂中文的 AI 高手,画出的高山明月太惊艳!中英双语 AltDiffusion 模型已开源
日前,智源研究院大模型研究团队开源最新双语 AltDiffusion 模型,为中文世界带来专业级 AI 文图创作的强劲动力。AltDiffusion 和 AltCLIP 模型均为多语言模型,中英双语为第一阶段工作,代码与模型已开源。

开源大盘点 | 各国车牌识别开源数据集汇总
本文整理了11个车牌检测识别相关的开源数据集资源,一起来看看吧。

CVPR 2022 | CLIP-NeRF: 文字-图像驱动的 NeRF 操作
本文提出了 CLIP-NeRF,一种用于神经辐射场的多模态 3D 对象操作方法。通过利用最近的对比语言-图像预训练 (CLIP) 模型的联合语言-图像嵌入空间提出了一个统一的框架,允许使用短文本提示或示例图像以用户友好的方式操作 NeRF。

数字图像处理:边缘检测
在之前的文章中,我介绍了傅里叶变换,这次我将介绍另一种图像处理方法,边缘检测。在openCV中,有很多函数可以让我们找到图像的边缘,在这篇文章中,我将挑选出比较有代表性的Sobal算子和Laplacian算子进行介绍。

12个常用的图像数据增强技术总结
本文总结了图像增强常用的一些方法,并附相关实现代码。图像本身的变化将有助于模型对未见数据的泛化,从而不会对数据进行过拟合。

深度学习在图像处理中的应用一览
计算机视觉的底层,图像处理,根本上讲是基于一定假设条件下的信号重建。这个重建不是3-D结构重建,是指恢复信号的原始信息,比如去噪声。

淘宝拍立淘iOS相册架构设计小结
这篇文章从系统权限、API 调用、架构设计等角度,生动演示了一个设计友好、模块独立、易拓展以及用户体验优秀的相册是如何开发出来的。除此之外,作者针对各种小细节也做了优化和解析,使得功能实现更加的丰满。


【RTSCon 2022】实时通信与价值赋能
初雪将至,万众期待的一年一度RTSCon再次来袭,本次RTSCon 2022由RTS社区和LiveVideoStack社区联合出品。本次大会主题围绕“实时通信与价值赋能”开展,届时我们为大家准备了业内大咖主题演讲以及圆桌会议两个模块,欢迎报名参会收看。

⏰ 时间:2022年12月3日 9:00-19:00

音视频技术开发周刊 | 273相关推荐

  1. 音视频技术开发周刊 94期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第94期内容,祝您阅读愉快. 架构 衡量视频质量有 ...

  2. 音视频技术开发周刊 93期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第93期内容,祝您阅读愉快. 架构 Nodejs+ ...

  3. 音视频技术开发周刊 92期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第92期内容,祝您阅读愉快. 架构 从通信到AI ...

  4. 音视频技术开发周刊 91期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第91期内容,祝您阅读愉快. 架构 从头到脚撸一个 ...

  5. 音视频技术开发周刊 90期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第90期内容,祝您阅读愉快. 架构 刘歧:让人生不 ...

  6. 音视频技术开发周刊 88期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第88期内容,祝您阅读愉快. 架构 思科:2022 ...

  7. 音视频技术开发周刊 87期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第87期内容,祝您阅读愉快. 架构 如何优化Web ...

  8. 音视频技术开发周刊 86期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第86期内容,祝您阅读愉快. 架构 2019年低延 ...

  9. 音视频技术开发周刊 84期

    『音视频技术开发周刊』由LiveVideoStack团队出品,专注在音视频技术领域,纵览相关技术领域的干货和新闻投稿,每周一期.点击『阅读原文』,浏览第84期内容,祝您阅读愉快. 架构 手机K歌的人声 ...

最新文章

  1. 深度学习之反向传播算法
  2. 什么是同源策略及限制
  3. 旧文重发:做人、做事,做架构师——架构师能力模型解析
  4. 【一句日历】2019年6月
  5. 使用Testcontainers和PostgreSQL,MySQL或MariaDB的Spring Boot测试
  6. 【插件发布】JAVA微服务框架,Jeecg-P3-Biz-OA 1.0.0 插件开源发布
  7. 四则运算2扩展---c++
  8. python学习之老男孩python全栈第九期_day022作业
  9. 今天加入了OSChina,准备将我的BLOG搬到这里。
  10. 高数 | 常用求极限方法总结
  11. CEIWEI CommMonitor 串口监控精灵v12.0 串口过滤;串口监控;Serial port monitor tools
  12. SUN软件包管理的命令:pkgadd
  13. java 电子实时看板,物理看板还是电子看板?
  14. 自媒体怎么做视频搬运
  15. 用Java编程卫星坐标_2 分钟掌握卫星星座图
  16. 让老师们哭笑不得的天才学生们
  17. QT(6)-QStandardItemModel
  18. 力扣解法汇总2013-检测正方形
  19. mybatis mysql concat_在MyBatis中使用concat()方法
  20. 计算机按键会卡住,为什么电脑有时候会卡死,按键都不起作用,只能强制性关机...

热门文章

  1. 【EGE】五子棋小游戏 (鼠标控制)
  2. Smartphone--Android真机管理平台
  3. 2022管理类联考真题不含答案-文都管联院
  4. 弱加密算法有哪几种_常见的几种加密方法
  5. BZOJ1202 [HNOI2005]狡猾的商人(洛谷P2294)
  6. Easy-x的基础教程使用介绍
  7. WorkFusion智能文档处理IDP系统介绍
  8. 分数2在切片中,如果结束素引指定了一个超出字符串结尾的位置,Pyth0将使用
  9. 《思维力:高效的系统思维》读书笔记05 - 快速提升你的沟通表达能力
  10. React-native android App项目搭建