“音视频+无限可能”是一扇 LiveVideoStackCon面向新兴领域开启的大门,在移动互联网红利消失、内卷的局面下,智能车、制造、金融、医疗、出海等新兴领域还在迫切追寻新技术带来的增值。在“音视频+无限可能”,提前看到新机会、新案例、新实践。

6月24日-25日LiveVideoStackCon 2022 上海站,和你一同开启通向未来的大门。

声临其境 — 音频沉浸体验

具有仿生效果的全景听觉体验让多媒体音视频信息变得更加丰富立体,声色俱佳。在移动互联网内容为王的时代下,在远程教育、远程办公、在线娱乐等场景中,空间音频、声场还原、高保真高还原立体声音质、高清语音、智能语音增强等技术,使内容服务的信息和元素更加多姿多彩。本专题将从沉浸式声学/音频技术所面临的挑战、场景应用探索与实践等方面和大家一同探讨更加真实的“声临其境”体验。

出品人

邓滨

Publisher

广州迷听科技有限公司

创始人、董事长兼CEO

邓滨先生毕业于清华大学,获计算机硕士学位。拥有通信行业、移动互联网行业、智能硬件行业二十年从业经验,曾供职华为、UTStarcom、Nortel、百度等大型科技公司,曾率队打通全球第一个TD-LTE video streaming call,是20余项国际及中国发明专利发明人。邓滨先生曾任小鱼在家首席音频科学家及运营商业务负责人,由零到壹,实现运营商市场累计销售小度智能屏产品达千万台,达到同品类产品销量世界第一。邓滨先生作为连续创业者,近年来重点关注领域为产业互联网方向,关注人工智能等前沿技术对传统产业/行业的升级和变革性机会,传统产业上下游全链条的网络生态场景,对行业互联网的音视频技术应用、数据服务等领域,关注数据驱动产品迭代以及商业运营的长期价值。邓滨先生现为广州迷听科技有限公司创始人、董事长兼CEO。


讲师与议题

冯建元

Speaker

声网Agora

音频算法负责人

美国伊利诺伊理工学院博士,伊利诺伊大学芝加哥分校特聘研究员,声网Agora音频体验算法专家,拥有十年算法研究从业经验。先后主导过多个实时音频通讯领域的开发项目,包括AI降噪、盲源分离、实时美声音效系统等领域的产品研发。目前负责声网Agora超高音质音频系统的设计与研发。

Topic

3D在线互动场景中空间音频的实时渲染

沉浸式的在线互动,无论是游戏、社交还是会议等在线互动场景都希望能够拥有“声临其境”的体验。在现实中人们可以随意移动位置、扭头改变朝向。而我们感受到的声音也同样更随我们移步换景动态变化。但在3D在线互动场景中要实现高音质、多音源、可移动、低延迟的空间音频实时渲染是一件极具挑战的事情。

本次演讲会从如何让人们在3D在线互动场景中有更为真实、更为自然的音频体验出发探讨想要在实现“声临其境”有哪些是必备的体验需求。以及实现这些体验需求的同时如何解决算力、延迟、音质等技术挑战。

内容大纲:

1.3D在线互动场景需要哪些空间音频实时渲染来实现“声临其境”

2. 端云结合的空间音频实时渲染引擎的设计

3. 空间音频实时渲染在游戏、社交等行业中的应用

李海

Speaker

爱奇艺

AI算法高级经理

李海,现任爱奇艺AI算法高级经理,中国计算机学会(CCF)语音对话与听觉专业委员会执行委员,CCF多媒体技术专业委员会执行委员,CCF YOCSEF(成都)学术委员,CCF成都分部委员。主要从事计算机视觉、音视频多模态内容理解、语音合成与识别、语音转换、音乐信息检索等相关技术的研究与技术管理工作,负责爱奇艺成都算法团队管理工作,带领团队参与了智能体育、智能拆条、智能语音等多个项目。在ICME、ICASSP、Interspeech等国际会议发表论文5篇,申请专利12项,参与多个重点项目并获得国家级奖项。

Topic

IQDubbing-面向影视剧的AI配音技术

随着长视频制作行业和消费市场的持续发展,国外越来越多优秀内容“走进来”,同时更多的国内优秀作品“走出去”,这对配音本地化提出了极大的挑战。作为国内长视频的领导者爱奇艺在自有的海量内容优势下,基于Voice Conversion,MDX,Denoise等AI技术,研发了面向影视剧场景的AI配音技术IQDubbing,有效地缓解了影视剧配音本地化的问题。

本次分享将分为三部分:第一部分从配音知识和相关的背景展开,介绍传统配音的工作流程和遇到的问题,以及当前Voice Conversion技术的发展概况;第二部分将介绍爱奇艺IQDubbing技术,如Voice Conversion,MDX等,以及相关创新点等,同时介绍IQDubbing配音技术在实际业务中的应用效果;第三部分介绍IQDubbing遇到的问题以及未来的计划。

内容大纲:

1. 现代影视剧配音面临的挑战

2. IQDubbing智能配音技术及应用

3. IQDubbing面临的挑战及未来计划

李勤

Speaker

广州迈聆科技

CTO

李勤,广州迈聆科技CTO,兼视源股份中央研究院科学家,长期在音视频通信及声学领域耕耘。曾在美国微软工作10年,任Lync/Skype音频团队负责人,主导Lync/Skype音频算法的开发和音频测试标准的制定。2015年回国先后在小鱼易连,出门问问任职,于2020年加入视源股份。

Topic

空间音频在远程会议场景中的应用

空间音频(Spatial Audio)在影院、游戏、虚拟现实、舞台录音等场景中得到了广泛的应用,它提供给用户更加接近于真实的听觉感受。空间音频的实现方式主要有多通道扬声器(muti-channel speakers)和双耳音频(binaural audio)。其中双耳音频对于嘈杂环境下语言的理解起到关键的作用,对于交互体验和语音可懂度的提升都有帮助,但是到目前为止空间音频在远程会议场景中的应用还非常少。

本次演讲主要探讨空间音频在远程会场场景中应用的技术挑战和实现方式。从系统的角度探讨如何在远程会议中提供给用户更好的听觉体验。

内容大纲:

1. 空间音频对于语音交互和语言理解的重要性

2. 空间音频在远程会议场景中的技术挑战和难点

3. 空间音频在远程会议中的实现和摸索

顾骋

Speaker

全时

音视频研发部经理

顾骋,目前担任全时音视频研发部经理,负责全时云会议的音频技术架构。在长期的实践中积累了大量关于噪声抑制、回音消除等方面的工作经验,搭建过RTC场景的音频架构并应用于视频会议、在线教育等系统中。

Topic

语音前处理技术在会议场景中的应用与挑战

随着在线会议的普及,用户已经不再满足于能听到,而是要有更为极致的听感体验,如何能够在复杂多变的应用场景中依旧保证声音清晰流畅是对会议系统的极大挑战。本次分享共分为三个部分,第一部分介绍影响会议声音质量的因素及应对方法;第二部分介绍语音前处理技术在会议中的应用及传统数字信号处理所面临的困境;第三部分介绍语音前处理与深度学习技术的结合及效果。通过上述三部分希望可以让大家对会议场景中的语音前处理技术有所了解。

内容大纲:

1. 如何保障会议中的声音质量

2. 语音前处理在会议中的应用

3. 拥抱深度学习追求极致音质

【专题介绍】声临其境 — 音频沉浸体验相关推荐

  1. 声网3D在线互动场景空间音频的实时渲染——如何把“声临其境”推向极致

    编者按: 千人有千耳,不同的人耳对于声音方位的适应已形成习惯,但在Meta RTC场景中如何让不同人也能畅想"身临其境"的感觉?3D在线互动场景空间音频的实时渲染又有哪些应用?Li ...

  2. Flutter之声网Agora实现音频体验记录

    一.前言 今天用声网提供的Flutter插件声网Agore来简单实现体验音视频功能.首先前往声网官网看看大致介绍: 可以看到声网sdk支持语音通话,视频通话和互动直播,接着点击立即体验注册账号和创建项 ...

  3. 声临其境,百度大脑语音合成助力得间小说提供优质听书体验

    价值成果 1,得间小说APP在接入百度语音合成技术后为用户实现听书体验,不仅脱离了用眼看小说的传统方式,还满足了不同用户在个性阅读方面的诉求,让看书更护眼.更健康. 2, 百度语音合成技术提供针对不同 ...

  4. 报名丨“眼界大开 声临其境”网易首届音视频技术大会倒计时!

    视觉是万物感知的主要信息来源,听觉让沉默的信息更进一步,变得"有声有色". 移动互联网时代下,"声色俱佳"的在线学习.工作.娱乐方式广受欢迎,互动直播.视频会议 ...

  5. 声声入耳:音频新体验

    LiveVideoStackCon 2022 音视频技术大会 北京站将于11月25日至26日在北京丽亭华苑酒店召开,本次大会将延续[音视频+无限可能]的主题,邀请业内众多企业及专家学者,将他们在过去一 ...

  6. 眼界大开 声临其境丨胡宜峰:视频深度伪造检测技术在内容安全领域的探索与实践

    导读:「眼界大开 声临其境」技术系列课第三期.网易易盾资深计算机视觉算法工程师胡宜峰带来了主题为<视频深度伪造检测技术在内容安全领域的探索与实践>技术分享. 讲师简介:胡宜峰,网易易盾资深 ...

  7. 【声入人心:音频新体验】

    在过去的一年中,我们可以看到多媒体特别是音视频技术的能力在严峻的挑战下,为各行各业带来了巨大的变化.疫情过后,又会有哪些多媒体新技术.新实践呈现在大众的视野当中?为行业的发展与应用带来哪些新的趋势与机 ...

  8. 科视Christie集成式视听方案升级“飞行影院”全景沉浸体验

    科视Christie集成式视听方案升级"飞行影院"全景沉浸体验 飞行影院是一种大型悬空式球幕影院,是集刺激性.趣味性.娱乐性和科普性等特点于一体的大型沉浸式室内娱乐体验项目.其独特 ...

  9. 业界首个声纹识别与音频检索系统上线,10分钟搭建产业级应用

    随着深度学习技术的升级与产业的发展,智能语音交互已成为了我们日常生活中一个重要的组成部分,并广泛应用在地图导航播报.智能客服回访.手机语音输入以及各类智能助手等应用场景中,可以说语音已成为了人与机器之 ...

最新文章

  1. Magento 如何在注册页面调出Address Information
  2. ajax图书管理案例
  3. C#导入Excel2010出现加载DLL失败或者类库未注册的问题,0x8002801D或者0x80029C4A .
  4. Struts2 action之间相互跳转传递参数
  5. go导入私有仓库中的包配置方法
  6. c语言运行时更入下一行,C语言高级语言程序设计(一)_第二章 C程序设计基础(二).ppt...
  7. 教程系列——用模板快速上线一个HR 服务中心
  8. nginx+memcache实现页面缓存应用
  9. LSTM block和cell区别
  10. 在Visual Studio Code运行单个js文件需要用到插件
  11. 西班牙打掉一黑客集团 曾千万台肉鸡
  12. 数组是逻辑结构还是存储结构_逻辑结构?存储结构?傻傻分不清……
  13. 浏览器访问局域网共享文件服务器,局域网文件共享:Filezilla-IE 轻松解决(图)...
  14. plc组态编程需要学多少c语言,快速学习PLC编程,其实很简单!
  15. python合并单元格出现:‘MergedCell‘ object attribute ‘value‘ is read-only 如何处理
  16. 什么是情感化设计?UI设计中情感化设计的目的
  17. 360免费WiFi连接不上了
  18. PCIe LTSSM 之 Detect 状态
  19. CSS基础(6)- 属性值的计算过程
  20. mysql库表散列_数据库表--hash clustered table

热门文章

  1. OPPO和华为哪个好一点?比较之后被OPPO细节实力圈粉
  2. 阿里云GPU服务器NVIDIA驱动安装与更新
  3. java后台获取桌面路径的方法
  4. 小妲己智能机器人要连接wifi吗_科沃斯扫地机器人怎么连接wifi
  5. bash: /usr/bin/ls: 参数或环境列表太长
  6. C#读写EXCEL源码提示“office检测到此文件存在一个问题。为帮助保护您的计算机,不能打开此文件。 ”的解决
  7. UVA - 11624 - Fire!
  8. which ,whereis命令
  9. win10 mysql初始化失败_win10电脑中windows通信端口初始化失败的解决教程
  10. 运营商掀窄带物联网投资热 智慧城市商机涌动