论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计。统计过程难免存在疏漏,因此统计结果仅供参考。所有文章语音合成领域统计列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。开源语音数据查询 http://yqli.tech/page/data.html。

如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。读者有什么建议可以直接给我发消息,我将不断修改该统计。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。


一 语音合成篇

表一给出具体分类说明。2022年5月的语音合成相关的文章有22篇,相比4月份下降一半详情参见图1。图1中的蓝色为2021年的情况,红色为本年度的文章情况,其文章趋势跟去年相同,5月份大幅减少。表二和图2是语音合成的具体方向文章的情况。这个月的文章在每个方向的热度都相当。另外,Diffusion Probabilistic Model已经成为研究的热点,去年在组内我做过该专题的分享,有兴趣的读者可阅读我列举的几篇早期的代表作文章 https://mp.weixin.qq.com/s/Msy9FCD68qjy868wN-8SIQ。

表一  语音合成分类说明

分类

说明

前端

多音字,韵律,g2p等等。

声学模型

语言特征转声学特征,attention工作,多说话人以及双重学习

声码器

波形生成

个性化

少数据,脏数据应用等自适应

多语言

多语言模型

歌唱合成

歌唱和音乐合成

情感

风格和情感

多模态

主要搜集talking head文章

声音转换

基于GAN方案和特征解耦方案

S2S

speech-to-speech

其它

基于EEG合成,开源数据,MOS评测以及语音合成的应用

图1 语音合成论文总数

表二  语音合成论文分布情况

1月 2月 3月 4月 5月
前端 2 0 3 0

‍​0

声学模型 4 5 17 8 2
声码器 1 5 7 5 3
个性化 1 2 4 3 3
多语言 1 1 0 3 0
歌唱合成 5 3 5 2 2
情感风格 2 2 1 3 2
多模态 4 3 2 5 3
声音转换 4 2 11 3 2
s2s 1 0 2 1 2
其它 2 0 4 12 3

图2 语音合成论文分布情况柱状图

语音合成的文章列表请访问http://yqli.tech/page/tts_paper.html

2022.05月份的文章

二 语音识别篇

语音识别的文章分类参照表三说明,添加了两个方向speech translation和multimodal,其中speech translation的总结资料可参见https://st-tutorial.github.io/assets/slides/eacl2021_st_tutorial.pdf。图3是语音识别文章总数,其数量也下降一半。语音识别的研究方向具体情况参见表4和图4,很明显,无监督学习依然是最热门的方向,而且本月有篇无监督系统的总结,推荐大家阅读该篇文章https://arxiv.org/pdf/2205.10643.pdf。

表三  语音识别分类说明

分类

说明

general

包括传统、混合语音识别,以及对asr的优化

ctc

ctc优化

rnn-t

rnn-t的优化

aed

aed优化

dataset

开源数据库

data aug

数据增广

lm

语言模型研究

multilingual

多语音系统以及code-switch

personal

少数据量自适应以及个性化ASR

rescoring

多种模型联合打分

unsupervised

无监督或者自监督学习

accent ,dialect

口音和方言

other

其它方向研究,包括系统评价标准等等

robust 鲁棒性
speaker diarization speaker diarization

multichannel

多通道
speech translation 语音翻译
multi-modal 多模态

图3  语音识别文章数量统计(单位:篇)

表4 语音识别研究方向分布情况

1月 2月 3月 4月 5月
general 12 10 13 9 6
ctc 1 0 2 5 1
rnn-t 3 1 2 3 0
aed 1 1 1 1 0
dataset 3 0 3 2 1
data augmentation 1 1 1 2 2
lm 2 2 4 3 0
multilingual 2 1 2 1 2
personal | adaptation 0 7 3 1 2
rescoring 1 1 2 0 0
unsupervised 2 3 17 19 7
accent 1 0 0 2 2
multichannel 0 4 1 1 0
robust 0 0 5 2 2
other 6 13 22 13 9
speaker diarization 0 3 4 5 2
speech translation - - - - 6
multimodal - - - - 3

图4 语音识别研究方向柱状图

语音识别的文章列表请访问http://yqli.tech/page/asr_paper.html

2022.05月份语音识别具体文章

2022年5月语音合成(TTS)和语音识别(ASR)论文月报相关推荐

  1. 2022年1月语音合成(TTS)和语音识别(ASR)论文月报

    ​ 论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://y ...

  2. 2022年6月语音合成(TTS)和语音识别(ASR)论文月报

    论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://yql ...

  3. 2022年1~7月语音合成(TTS)和语音识别(ASR)论文月报

    论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.如何查找语音资料请参考文章https://mp.wei ...

  4. 2022年1~10月语音合成(TTS)和语音识别(ASR)论文月报

    论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://yql ...

  5. 2022年3月语音合成(TTS)和语音识别(ASR)论文月报

    论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://yql ...

  6. 2022年4月语音合成(TTS)和语音识别(ASR)论文月报

    论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://yql ...

  7. 2022年1~8月语音合成(TTS)和语音识别(ASR)论文月报

    论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://yql ...

  8. 2022年2月语音合成(TTS)和语音识别(ASR)论文月报

    论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://yql ...

  9. 2022年语音合成(TTS)和语音识别(ASR)年度总结

    论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://yql ...

最新文章

  1. Linux中Iptable防火墙规则的应用
  2. 究竟什么是POJO?(转载)
  3. 优秀学生是如何高效利用时间的?
  4. nopi 的使用记录
  5. ThinkPhp学习12
  6. 云安全趋势下脚踏实地力拼网络危胁
  7. 没有这项技术,《赛博朋克2077》就算残废?
  8. PLM中BOM核心技术的研究[转]
  9. python 爬取贝壳网小区名称_Python爬虫实战:爬取贝壳网二手房40000条数据
  10. 基于阿里云MaxCompute实现游戏数据运营
  11. 网易容器云平台的微服务化实践
  12. IntelliJ IDEA下载插件超时--解决方法
  13. java函数void返回值是,Java中main()函数的返回值是什么( )。A、StringB、intC、c......
  14. 付忠庆的练习小笔记-Codeforces #276 Div2 C
  15. pytorch: nn.Sequential(func1,func2,func3)
  16. java -- 对Map按键排序、按值排序
  17. java winform程序_重拾JAVA之WinForm实战之(四)
  18. c语言二维指针类型转换,二维数组和指针(C语言)
  19. 在AI里怎么把一行字拆成单个的字,并且可编辑
  20. 【UEFI基础】EDK编译生成的二进制的结构

热门文章

  1. Linux下gdb(插件pwndbg、pead、gef)安装及调试常用指令
  2. 基于arduino的ESP32 学习笔记(一) 基于ESP32的智能花盆
  3. 【系统篇 / 配置】❀ 06. 添加桌面图标 ❀ Windows Server 2016
  4. 秒懂云通信:如何使用阿里云号码认证服务(小白指南)
  5. 在chrome中f12控制自动刷新页面增加阅读量方法
  6. 切比雪夫插值多项式在非线性电路中的应用与比较
  7. android ADB 模拟手机点击事件
  8. Grafana可视化工具-之数字映射字符串
  9. 电子邮件客户端:Mail Pilot 3 for Mac
  10. library netcdf 路径_科学网—NetCDF安装记录 - 丁鹏基的博文