近日,全球语音顶会INTERSPEECH 2020 公布了论文接收结果,云知声联合上海师范大学、安徽大学等高校发表多篇论文成功入选。分别在中英文混合语音识别、大词汇量连续语音识别和多模态虚拟形象生成等领域取得突破,代表着云知声在语音及多模态交互领域持续的底层技术创新。同时,云知声也是今年会议的金牌赞助商,致力于加强工业界和学术界的技术协作,支持会议顺利举行。

INTERSPEECH 是世界上规模最大、最全面的顶级语音领域会议,由国际语音通信协会 ISCA(International Speech Communication Association)组织。该会议每年举办一次,今年大会是第 21 届 INTERSPEECH 会议,也是第二次在中国举办。本届会议以“Cognitive Intelligence for Speech Processing”为主题,内容涵盖信号处理、语音识别、自然语言处理、神经机器翻译等领域,收到超过 2100 篇投稿论文。会议研究成果代表着语音相关领域的最新研究水平和未来的技术发展趋势。

作为 INTERSPEECH 会议的一部分,国际语音合成比赛 Blizzard Challenge 2020 研讨会将于 10 月 30 日举行。Blizzard Challenge 是当今全球规模最大、最具影响力的语音合成领域顶尖赛事,在今年的 Blizzard Challenge 比赛中,由云知声-上海师范大学自然人机交互联合实验室申报的系统在强敌环伺的赛场中突出重围,首次参赛即斩获中文普通话、上海话多项关键指标第一。在 10 月 30 日的研讨会上,研究团队会通过 live online oral presentation 的形式对参赛系统进行详细解读,欢迎参与和讨论。

中英文混合语音识别

在中英文混合语音识别方向,针对混合语言语音 (code-switching) 场景,研究团队提出了一个基于Transformer模型的多编码器-解码器结构的语码转换混合语音识别方案(Multi-Encoder-Decoder Transformer for Code-Switching Speech Recognition),该结构具有两个对称的与特定语言相关的编码器,以捕获各种语言的特有属性,从而改善每种语言的深度声学表示。这些深度表示被进一步在解码器模块中使用特定于语言的多头注意力机制进行有效整合,以最终提升整个端到端识别系统的性能。同时,团队还使用了大规模单语言语料库对每个编码器及其相应的注意力模块进行了预训练,旨在减轻语码转换训练数据不足的影响。借助预训练方式,研究团队的模型分别在 SEAME 中以中文和英文为主的评估集上达到 16.7% 和 23.1% 的词错误率,刷新了在此数据集上的最好成绩,相对之前论文的最佳成绩提升了12.5%的性能。

语码转换语音实例及多编码器的输出

大词汇量连续语音识别

研究团队提出了一种新颖的带深度声学结构和 Self-and-Mixed 注意力解码器结构(Self-and-Mixed Attention Decoder with Deep Acoustic Structure for Transformer-based LVCSR),其利用具有深度声学结构的 Self-and-Mixed 注意力解码器,以改善基于 Transformer 的大词汇量连续语音识别的声学表示。具体来说,研究团队引入一种自注意力机制,以获取深层的声学表征。研究团队还设计了一种混合注意力机制,该机制可以在共享的特征空间中同时学习不同层次的声学表征及其对应的语言信息之间的对齐关系。本项研究工作在 AIShell-1 数据集上曾刷新最佳成绩,字符错误率降低至 5.1%,相对之前的最佳成绩提升了 24% 的性能,显著提升了识别效果。

多模态虚拟形象生成

如何在提高虚拟人面部动作的丰富和自然度,是目前虚拟人生成的热点问题。研究团队提出了一种基于面部关键点和改进的 GAN 模型的两级模型生成方案,实现从语音到虚拟人形象的生成,在本方案中,利用面部关键点作为语音特征到视频生成之间的信息表达中介,同时引入 attention 机制,解决在虚拟人生成过程中不同区域因子对视频效果质量的影响。实验生成的视频结果表明本方法保持了丰富的面部细节、精确的嘴部动作和自然的头动效果。在娱乐应用、拟人化交互等领域有广泛的应用和落地场景。

人工智能成功的关键在应用,而所有应用皆源自底层技术。为不断拓宽自身基础能力边界,云知声深入布局了语音、语言、视觉图像、机器翻译、AI芯片等诸多方向,形成丰富的具备全球领先的原创技术积累,相关研究成果多次在 NIPS、NIST、WMT、ACL 等全球顶会与赛事中得以印证。

本次在 INTERSPEECH 2020 大会上这些原创技术的提出,也将进一步夯实云知声全栈+硬核的人工智能技术“底座”,提高云知声在智能语音和多模态人机交互领域的技术领先性,推动人工智能系统以更人性化、高效的方式服务于千行百业,为用户带来更好的交互体验。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

云知声原创技术再获肯定:多篇论文被国际语音顶会 INTERSPEECH 2020 收录相关推荐

  1. 再获肯定,云畅科技旗下腾云畅翼入榜2021腾讯云启创新生态企业年度榜单

    文章来源:云畅科技 2022年伊始,云畅科技喜获捷报.近日,2021腾讯云启创新生态「产业新势力」年度榜单正式出炉,云畅科技旗下浙江腾云畅翼科技有限公司(后文简称:腾云畅翼)作为腾讯云启产业基地(宁波 ...

  2. 华为云GaussDB创新技术再发力

    12月27日,由中国电子信息行业联合会和盐城市人民政府联合主办的2021年度中国电子信息行业发展大会在盐城顺利召开.会上,华为云数据库GaussDB(for openGauss)以显著的优势脱颖而出, ...

  3. 喜讯+1!袋鼠云数栈技术团队获“2022年度优秀开源技术团队”

    近日,在"开源中国(OSCHINA)"开展的年度评选中,袋鼠云数栈技术团队凭借在2022年间的技术分享频率及质量.运营积极性等多方面的表现,荣获"2022年度优秀开源技术 ...

  4. 【论文推荐】了解《点云补全》必看的6篇论文(附打包下载地址)

    论文推荐 "SFFAI122期来自伊利诺伊大学厄巴纳香槟分校计算机系的谢楚琳推荐的文章主要关注于计算机视觉的点云处理领域,你可以认真阅读讲者推荐的论文,来与讲者及同行线上交流哦." ...

  5. 三篇论文入选国际顶会SIGMOD,厉害了腾讯云数据库

    好消息!6月13日,腾讯云数据库三篇论文再次入选数据库行业顶会SIGMOD,被SIGMOD 2022 Research Full Paper(研究类长文)收录. 本次被收录的研究成果中,新型数据结构设 ...

  6. 巨杉数据库入选2020年度信创产业领军企业100强,信创工作再获肯定

    12月21日,由中国科学院主管.科学出版社主办的商业期刊<互联网周刊>与eNet研究院共同发布2020年度信创产业领军企业100强名单,巨杉数据库作为信创生态中领先的国产分布式数据库成功入 ...

  7. 快商通AI技术再获殊荣,荣膺厦门市“科学技术进步奖”

    近日,快商通AI科研项目荣获厦门市"科学技术进步奖",这是对快商通AI技术研究成果的高度肯定,也是快商通在人工智能领域的又一重大突破. 快商通作为一家技术领先的企业,始终坚持 核心 ...

  8. 金融级安全“零失分”,腾讯云IT管理水平再获国际认可

    近日,新加坡银行业协会公布了新一批的金融行业外包服务审计报告(Outsourced Service Provider Audit Report ,简称OSPAR).腾讯云多项服务和新加坡站点以&quo ...

  9. 企企通SRM项目再获肯定,助力迈金科技一站式数字化采购平台成功上线

    近日,国内智能骑行赛道"领骑者"[青岛迈金智能科技股份有限公司](以下简称"迈金科技")携手企企通打造的一站式数字化采购平台成功上线.系统上线后,实现了迈金科技 ...

最新文章

  1. Datawhale组队学习周报(第010周)
  2. 利用Matlab优化工具箱解数独问题
  3. [转载]内容首页设计经验
  4. python使用指南(part1)--去重
  5. 关于Anaconda的环境和包管理
  6. python中的文件读取注意事项
  7. server精简版代理意外终止 sql_来自阿里巴巴内部JAVA面试宝典意外流出
  8. 普通人怎么样才能存到钱?
  9. 对象转json忽略空参
  10. opencore 0.6.3 华硕_Apex英雄支持NVIDIA Reflex 华硕显卡低延迟利器_
  11. mmd动作:Fukayomi
  12. float转int 四舍五入问题
  13. 小红书可以赚钱吗?通过小红书赚钱的几种方式!
  14. 阿里天池“水果店小系统”的python实现
  15. 禁用Windows Defender Antivirus Service,让你文件正常运行
  16. linux删除指定的行
  17. 基于FPGA的ASK/FSK调制
  18. flash air for ios 静音开关
  19. js 破解,爬取淘鲜达,盒马商品sign参数破解
  20. 【深度学习】半监督学习入门:伪标签学习和无监督SVM

热门文章

  1. Sublime Text 3安装与使用
  2. win 8.1 安装framework3.5
  3. Java多线程间的数据共享
  4. Bailian2854 点和正方形的关系【水题】
  5. HDU1328 ZOJ1240 IBM Minus One【水题】
  6. HDU2107 Founding of HDU【序列处理+最大值】
  7. UVA10625 GNU = GNU'sNotUnix【字符统计】
  8. Bailian2733 判断闰年【入门】(POJ NOI0104-17)
  9. visual studio 高级选项及配置
  10. gcc/g++ 的参数总结(二)