ICASSP 2021将于2021年6月6日-11日在加拿大多伦多拉开序幕,凭借在语音技术领域的扎实积累和前沿创新,京东科技集团的3篇论文已经被 ICASSP 2021接收。

ICASSP全称International Conference on Acoustics, Speech and Signal Processing(国际声学、语音与信号处理会议),是由IEEE主办的全世界最大的,也是最全面的信号处理及其应用方面的顶级学术会议。京东科技集团此次的入选论文,在国际舞台全方位展示了自身在语音增强、语音合成、多轮对话方面的实力。

01

Neural Kalman Filtering for Speech Enhancement

基于神经卡尔曼滤波的语音增强算法研究

*论文链接:https://arxiv.org/abs/2007.13962

由于复杂环境噪声的存在,语音增强在人机语音交互系统中扮演重要的角色。基于统计机器学习的语音增强算法通常采用机器学习领域现有的常用模块(如全连接网络、递归神经网络、卷积神经网络等)构建增强系统。然而,如何将传统语音信号处理中基于专家知识的最优化滤波器设计理论,有效地应用到基于机器学习的语音增强系统中仍是一个仍未解决的问题。

京东科技集团入选论文《Neural Kalman Filtering for Speech Enhancement基于神经卡尔曼滤波的语音增强算法研究》提出了神经卡尔曼滤波的语音增强框架,将神经网络和最优滤波器理论有机结合,并采用监督学习方法训练得到卡尔曼滤波的最优权重。

▲图1:神经卡尔曼滤波模型示意图▲

研究人员首先构建了基于递归神经网络的语音时序变化模型。和传统的卡尔曼滤波器相比,该模型摒除了语音变化服从线性预测模型的非合理假设,可以针对实际语音的非线性变化进行建模。一方面,基于该时序模型和卡尔曼隐状态向量信息,算法首先得到语音长时包络预测。另一方面,通过融合当前时刻的观测信息,系统进一步求解基于传统信号处理的维纳滤波的语音频谱预测。系统最终输出是语音长时包络预测和维纳滤波预测的线性组合。基于传统卡尔曼滤波器理论,本系统直接得到线性组合权重的最优解,通过设计端到端系统,可以同步更新语音时变网络、和维纳滤波器相关的噪声估计网络的权重。本研究基于Librispeech语音集PNL-100Nonspeech-SoundsMUSAN噪声集的实验结果表明,所提算法在信噪比增益、语音感知质量(PESQ)和语音可懂度(STOI)指标上均取得了比传统基于UNET和CRNN框架的语音增强算法更好的性能。

02

Improving Prosody Modelling with Cross-Utterance Bert Embeddings for End-to-End Speech Synthesis

基于跨句信息的端到端语音合成韵律建模

*论文链接:

https://www.zhuanzhi.ai/paper/92135c7f518e7cda63f7fcb4b940a4c1

尽管目前基于端到端的语音合成技术已经实现了比较自然,韵律相对丰富的语音合成效果,但是并没有采用篇章结构信息而是只采用了当前句的语言学特征进行语音合成。通常,韵律信息是和上下文的篇章结构强烈相关的,同样的一句文本在不同的上下文语境下会有完全不同的韵律表现,因此只用当前句子文本特征进行语音合成的端到端系统在合成一段文本的时候,很难根据上下文信息将一段文本转换为自然的、韵律表现丰富的语音。

京东科技集团入选论文《Improving Prosody Modelling with Cross-Utterance Bert Embeddings for End-to-End Speech Synthesis基于跨句信息的端到端语音合成韵律建模》采用了目前主流的BERT模型来提取待合成文本的跨句特征向量,然后利用该上下文向量改善基于端到端的语音合成模型的韵律效果。

▲图2:模型结构示意图▲

研究人员没有采用任何显示的韵律控制信息,而是通过BERT语言模型提取了待合成句子的上下文句子的跨句特征表征,并且将该特征表示作为了目前主流的端到端的语音合成算法的额外输入。论文探讨了两种不同跨句特征的使用方式,第一种是将所有的上下文句子的跨句特征拼接起来用来作为端到端的语音合成系统的一个整体的输入,第二种方式是将所有的上下文句子的跨句特征作为一个序列,然后用待合成文本的每个语音单元和这个序列进行注意力计算,然后可以通过计算得到的注意力进行对上下文句子的跨句特征进行加权求和计算得到每个语音单元对应的跨句特征。第二种跨句特征使用方式,可以让每个发音单元得到一个细粒度的、对当前单元发音有帮助的跨句特征。

实验结果表明,本研究在端到端的语音合成系统中结合跨句特征之后,可以有效的改善合成段落文本自然度和表现力。本研究分别在中文和英文有声读物的数据集上验证了这一实验结果。并且,在对比测试结果中,相比我们的基于端到端的基线模型,绝大部分测试者更加喜欢本研究中结合了跨句向量表征的语音合成算法合成出的音频。

03

Conversational Query Rewriting with Self-supervised Learning 

基于自监督学习的对话Query改写

*论文链接:

https://github.com/note-lh/paper/blob/main/Conversational_Query_Rewriting_with_Self-supervised_Learning.pdf

在多轮对话系统中,用户倾向于简短、口语化的表达,表述中存在着大量信息缺失和指代的现象。这些现象导致了对话机器人难以理解用户的真实意图,大大增加了系统应答的难度。为提高对话系统的水平,Query改写根据用户的历史会话,补全用户的话语,以恢复所有省略和指代的信息。然而,目前存在的Query改写技术均采用监督的学习方法,模型的效果严重受限于标注数据的规模,对技术在真实业务场景的落地产生了较大的阻碍。另外,用户问题在发生改写后,意图是否发生变化并没有受到已有工作的关注,如何保证用户问题在改写后的意图一致性仍是一个亟待解决的问题。京东科技集团入选论文《Conversational Query Rewriting with Self-supervised Learning 基于自监督学习的对话Query改写》提出了自监督的Query改写方法。当用户问题与历史会话出现共现词语时,会以特定地概率删除共现词或者采用代词进行替换,最后Query改写模型根据历史会话还原出用户的原始问题。相较于监督学习方法,自监督的学习方式可低成本的获取大量训练数据,充分发挥模型的表征学习能力。

京东研究人员还进一步提出改进模型Teresa, 从两个方面提高改写模型的质量和准确性。一是在Transformer编码层引入关键词检测模块,提取关键词指导句子生成。首先对历史会话(context)的编码输出构建自注意力图,得到历史会话中词语之间的关联度;然后利用Text Rank算法计算词语的重要性得分;最后词语的重要性得分作为先验信息融入解码器,指导模型生成含有更多关键信息的问句。二是提出意图一致性模块,在Transformer编码器的输入文本中增加一个特殊标签[CLS], 获取文本内容的意图分布,通过约束意图分布保持意图一致性。原始会话(Context, Query)与生成的句子(Target)共享Transformer编码器,分别得到改写前后的意图分布,我们将两者的分布保持一致,进而保证生成句子的意图一致性。

京东科技集团作为京东对外提供技术服务的核心板块,一直致力于前沿研究探索,并持续以科技引领,助力城市和产业实现数智化升级。截至目前,京东科技集团在AAAI、IJCAI、CVPR、KDD、NeurIPS、ICML、ACL、ICASSP等国际AI顶级会议上共发表相关论文近350+篇,并在多项国际性学术赛事中斩获19项世界第一。相信未来,京东科技集团将持续在语音语义、计算机视觉、机器学习等领域发力,以科技助力实体经济,切实改变每个人的生活。

产业实践推动科技创新,京东科技集团3篇论文入选ICASSP 2021相关推荐

  1. 16篇论文入选AAAI 2021,京东数科AI都在关注什么?(附论文下载)

    近日,国际人工智能领域顶级学术会议AAAI2021(第35届AAAI)论文收录结果出炉.在国内AI阵营前列的京东数科以高达16篇论文的入选量成为本届AAAI的一大黑马.其研究方向包含了联邦学习.对抗学 ...

  2. 京东探索研究院 34 篇论文入选 CVPR 2022

    关注公众号,发现CV技术之美 国际计算机视觉与模式识别会议(CVPR)是IEEE一年一度的学术性会议,是计算机视觉和模式识别领域的顶级会议.根据最新2021谷歌学术指标,CVPR在所有学术期刊和会议影 ...

  3. AAAI 2021 京东科技集团21篇论文

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:AI科技评论 AI博士笔记系列推荐 周志华<机器学习& ...

  4. 京东科技集团21篇论文高票入选国际顶会AAAI 2021

    近日,国际人工智能领域顶级学术会议AAAI 2021(第35届AAAI)正式开始.在国内AI阵营前列的京东科技集团以高达21篇论文的入选量成为本届AAAI的一大黑马.其研究方向包含了计算机视觉.联邦学 ...

  5. ICCV 2019 | 商汤科技57篇论文入选,13项竞赛夺冠

    点击我爱计算机视觉标星,更快获取CVML新技术 本文转载自商汤科技SenseTime. 商汤科技及联合实验室共有57篇论文入选ICCV 2019(包含11篇Oral),同时在Open Images.C ...

  6. 重磅!京东21篇论文入选AI顶会AAAI 2021

    点击上方"CVer",选择加"星标"置顶 重磅干货,第一时间送达 本文转载自:AI科技评论 近日,国际人工智能领域顶级学术会议AAAI 2021(第35届AAA ...

  7. 京东AI研究院8篇论文被AAAI 2019收录,国际顶会彰显京东科技实力

    https://www.toutiao.com/a6651795835203879432/ 2019-01-29 20:55:00 美国时间1月27日,AAAI 2019大会在夏威夷正式拉开序幕,AA ...

  8. 倚澜科技与京东科技达成战略合作

    2023年4月27日,杭州倚澜科技有限公司和京东科技在北京举行了战略合作签约仪式,倚澜科技总经理戴翘楚.联合创始人于涛.产品总监吴翼天.销售总监姚向阳.京东科技智能服务与产品部相关负责人.京东集团高级 ...

  9. 国拨经费约31.48亿!科技部发布科技创新2030 —“脑科学与类脑研究”重大项目2021年度项目申报指南

    来源:科技部 科技部关于发布科技创新 2030 -"脑科学与类脑研究"重大项目 2021年度项目申报指南的通知 国科发资[2021]265号 各省.自治区.直辖市及计划单列市科技厅 ...

最新文章

  1. 牛客练习赛61 C 四个选项(并查集、DP、排列组合)难度⭐⭐⭐
  2. asp.net控件开发基础(1)
  3. 使用下列 else-if 排列来处理多个条件:
  4. android 网络通信方式,Android中基于TCP协议的网络通信
  5. alpine linux安装ftp,如何在Alpine Linux上安装GLPK?
  6. Android Build.VERSION.SDK_INT兼容介绍
  7. Eigen(8)实例最小二乘法
  8. C++boost Class named_condition翻译
  9. contenttype添加field
  10. 使用ffmpeg步骤
  11. Android APP 稳定性测试工具—Fastboot使用教程
  12. android 系统打印服务,调用Android本地服务,实现打印pdf文件
  13. 分享一个qt实现的登录界面模板
  14. unity期末个人作品-落笔洞寻宝探险之旅(寻宝游戏)
  15. 利用Python破解隔壁老王家的WiFi密码,学习到了!
  16. html 中数字一直往上加的动态效果,CSS动画:数字增量效果
  17. 句子改写器在线转换v.1.2.3
  18. 除中国中医药数据库官网外-必备5个其它常用中国中医药数据库
  19. 如何给自己打造好的“口碑”?
  20. 【工具】VSCode无法正常启动Terminal窗口

热门文章

  1. Qt界面中如何嵌入网页?
  2. 甘肃省计算机二级考试试题,2013甘肃省计算机等级考试二级理论考试试题及答案...
  3. 每日启程——2019.12.11日(草木有本心,何求美人折)
  4. 中科红旗倒下,谁来挑战windows
  5. 微软证实10月25日正式发布Windows8系统
  6. (转)美国金融科技监管框架
  7. mtl文件的简要说明
  8. autojs之excel
  9. c++实验2:6-4 求余弦函数近似值
  10. 背景渐变色,兼容IE