近日,奇富科技机器人团队论文《Eden-TTS:一种简单高效的非自回归“端到端可微分”神经网络的语音合成架构》(Eden-TTS: A Simple and Efficient Parallel Text-to-speech Architecture with Collaborative Duration-alignment Learning)被全球语音与声学顶级会议INTERSPEECH 2023接收。此次自研成果入选,代表着国际学术界对奇富科技在语音信号领域研究实力的极高认可。

INTERSPEECH是由国际语音通讯协会(International Speech Communication Association, ISCA)创办的语音信号处理领域顶级旗舰国际会议,是全球最大的综合性语音信号处理盛会,在国际上享有盛誉并具有广泛的学术影响力。历届INTERSPEECH会议都备受全球各地语音语言领域人士的广泛关注。

TTS技术当前主要应用于电销机器人、视频面审机器人、智能客服等人机交互场景和语音合成场景,它能把文本内容快速地转化为高质量、流畅自然的语音,从而实现更加智能、更有人性化的人机交互。文本音素和音频帧之间的对齐(alignment)学习是非自归TTS模型的最关键技术之一。现有的非自回归语音合成模型大多数需要引入外部alignment信息作为学习目标。在实际应用场景中,文本与语音的alignment是很难准确获得的,甚至是不能获得的,这极大地限制了此类方法的应用。另外,也有少数无需外部alignment的方法提出,然而这些方法大多不是端到端可微分的神经网络模型,存在构建困难,训练过程复杂,训练效率低等问题。

奇富科技的论文研究成果为需要文本转语音的应用场景提供了创新的解决方案,提出了一种端到端可微的非自回归神经网络语音合成模型架构。基于文本音素时长与alignment的密切关系,论文提出了一种简单高效的alignment学习方式:首先采用一种新的energy-modulated 注意力机制得到guided alignment,然后利用guided alignment计算音素的时长信息,最后通过音素的时长信息构建monotonic alignment。本方法无需外部的alignment信息,无需引入额外的alignment损失函数。

对业务提效而言,奇富科技的研究成果具有易训易用、音质高超、合成快速的优势。

这种端到端可微的方法使得各个模块可以方便地替换为各种类型的神经网络模块,从而具有良好的扩展性和稳定性。相比于主流的自回归模型,推理速度提升了10倍以上,能够满足实时语音合成的需求。

该方法也令合成语音更好听、更生动、更像真人,大大提升了语音交互的听觉感受。根据进行的多人MOS评测,该方法的MOS分值达到了4.32分(满分为5分),合成语音的自然流畅程度接近于目前最优的自回归模型,显著优于同类型的非自回归模型。

此外,与同类型方法相比,该方法可以节约50%以上的训练时间,显著提升模型训练效率。

奇富科技在对话机器人领域有着和业务同步的先发优势,在语音技术上,一直坚持投入、坚持自研。就在两个月前,奇富科技另一篇音频论文《基于多粒度Transformer的多模态情绪识别》(Multilevel Transformer for Multimodal Emotion Recognition)被第48届IEEE声学、语音与信号处理国际会议(IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2023)接收。

“我们很高兴在理解用户、优化表达方面取得了关键性的成果。随着奇富GPT对于公司各业务层的重构,我们已经极大提升了对于用户在文本上的理解能力,从语音到文本,再从文本回到语音,更好的识别是为了更好的表达和输出,我们将持续投入,用前沿技术重塑用户体验。”奇富科技首席算法科学家费浩峻表示。

奇富科技语音论文入选国际顶会INTERSPEECH 2023相关推荐

  1. 标贝科技语音论文入选全球顶级语音学术大会INTERSPEECH2019

    全球知名语音学术大会INTERSPEECH2019于9月15日至19日在奥地利格拉茨城市举行. 作为全球智能语音及AI数据发展的推动者,标贝科技受邀成为大会黄金级赞助厂商亮相现场.其中,由标贝语音团队 ...

  2. INTERSPEECH 2022 | 钉钉蜂鸣鸟音频实验室论文入选国际顶会,创新提出窄带滤波网络架构

    利用深度学习来提升语音增强效果和鲁棒性,已成为实时音视频通信领域研究的热点之一.钉钉蜂鸣鸟音频实验室提出了一种新的窄带滤波网络架构,可大幅提升去噪和去混响联合语音增强效果,提升音频质量,相关论文已被语 ...

  3. 学术顶会再突破!计算平台MaxCompute论文入选国际顶会VLDB 2021

    简介: VLDB 2021上,阿里云计算平台MaxCompute参与的论文入选,核心分布式调度执行引擎Fangorn.基于TVR Cost模型的通用增量计算优化器框架Tempura等分别被Indust ...

  4. 学术顶会再突破!计算平台 MaxCompute 论文入选国际顶会VLDB 2021

    一.顶会概览 VLDB 2021上,阿里云计算平台MaxCompute参与的论文入选,核心分布式调度执行引擎Fangorn.基于TVR Cost模型的通用增量计算优化器框架Tempura等分别被Ind ...

  5. 机器学题平台PAI论文入选国际顶会KDD-构建端到端的大规模AI工程能力

    一.顶会概览 KDD 2021上,阿里云机器学习平台PAI参与的论文入选,大规模可扩展文本分类框架MeLL.大规模推荐模型推理系统FleetRec.自动特征生成的方法FIVES分别被录取. KDD大会 ...

  6. 三篇论文入选国际顶会SIGMOD,厉害了腾讯云数据库

    好消息!6月13日,腾讯云数据库三篇论文再次入选数据库行业顶会SIGMOD,被SIGMOD 2022 Research Full Paper(研究类长文)收录. 本次被收录的研究成果中,新型数据结构设 ...

  7. 阿里 AI 研究成果入选国际顶会 ICML 2020,AI 推理速度提升 3 倍

    近日,人工智能国际顶会ICML 2020公布了论文收录结果,阿里巴巴7篇论文入选,是入选论文数量最多的中国科技公司.ICML是机器学习领域全球最具影响力的学术会议之一,今年接受率仅为21.8%. 根据 ...

  8. 奇富科技技术委员会聚焦大模型研发,助力金融机构数字化升级

    近日,奇富科技技术委员会召开公司更名后首次会议,旨在整合全公司技术力量,探索研究大模型对于金融业务的提质增效,帮助金融机构实现数字化转型升级. 在这次会议上,奇富科技的技术专家深入讨论了大模型为金融行 ...

  9. 京东科技集团21篇论文高票入选国际顶会AAAI 2021

    近日,国际人工智能领域顶级学术会议AAAI 2021(第35届AAAI)正式开始.在国内AI阵营前列的京东科技集团以高达21篇论文的入选量成为本届AAAI的一大黑马.其研究方向包含了计算机视觉.联邦学 ...

最新文章

  1. (CV方向)精通C++,该如何学?
  2. 学习笔记:数据分析和处理(ML计算模型前的预处理)——持续更新
  3. java_jdbc_spring框架查询操作简例
  4. django html 模板继承,Django模板的继承
  5. rsync的原理和安装使用及配制详解(三)(转)
  6. Spring4.2+quartz2.2集群
  7. Ajax Control Toolkit--Slider:有朝一日倒过来
  8. 英特尔首推异构编程神器 oneAPI,可让程序员少加班!
  9. 内容联盟程序_英雄联盟可以偷看你的网页?你的账号密码还安全吗?
  10. Matlab图像处理系列1———线性变换和直方图均衡
  11. c语言ds12c887,ds12c887引脚图 DS12C887中文资料.doc
  12. csv转vcf格式网页工具-快速导入手机通讯录
  13. 2020.2.22基于L大源码的Lede x86 软路由精简版固件
  14. 汇编版|电子印章在各类业务文件中的应用
  15. 关于vector在类中的声明用法
  16. 【蓝桥杯】枚举,模拟,排序专题 (一)
  17. Android整合网上资源以及个人对GreenDao数据库框架的理解与使用(android-studio开发)
  18. 文档管理软件在线编辑和协同
  19. 微机原理与接口技术:并行接口
  20. java list 随机获取n个_java – 从列表中取n个随机元素?

热门文章

  1. 启动3Dmax2020到初始化..界面卡住然后闪退解决办法
  2. validates resource references inside Android XML files
  3. 统一身份认证登录详细介绍-identity4
  4. 计算网络地址和广播地址
  5. Windows Server 2022 安装Intel I219V 服务器网卡
  6. python 今有物不知其数!
  7. linux 误删grub引导文件,如何恢复
  8. 整理1994-2019年各省统计指标面板数据(汇总成1张EXCEL)
  9. 「你是砍柴的,人家是放羊的,你们聊一天,人家羊吃饱了,你的柴怎么办?」这段话可以解读成哪些含义?
  10. 【从AWS亚马逊平台上的s3存储桶上下载文件到win10电脑上】