论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计。统计过程难免存在疏漏,因此统计结果仅供参考。所有文章语音合成领域统计列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。读者有什么建议可以直接给我发消息,我将不断修改该统计。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。


(等两天将会对语音合成论文进行年度总结~)

一 语音合成篇

首先,看一下语音合成每月的文章数量情况。语音合成在12月只有14篇文章,相比10和11月份下降很多。我本以为统计错了,就重新搜索一次,本月的​合成文章的确很少。

接下来,看一下每个方向的具体情况。表一给出具体分类说明。由表二以及折线图和柱状图可知,语音合成前端研究依然很少,当前在产业界对前端投入的也越来越少。合成领域在本月的声学模型设计和优化方向竟然为0,文章相对较多的方向包括音乐、vc和多模态都有三篇文章。

表一  语音合成分类说明

分类

说明

前端

多音字,韵律,g2p等等。

声学模型

语言特征转声学特征,attention工作,多说话人以及双重学习

声码器

波形生成

个性化

少数据,脏数据应用等自适应

多语言

多语言模型

歌唱合成

歌唱和音乐合成

情感

风格和情感

多模态

talking head等等

声音转换

基于GAN方案和特征解耦方案

S2S

speech-to-speech

其它

基于EEG合成,数据,MOS评测以及语音合成的应用

表二 语音合成文章情况表(单位:篇)

接下来是相关的柱状图和折线图

语音合成的文章列表请访问http://yqli.tech/page/tts_paper.html

12月份的文章

二 语音识别篇

语音识别的文章分类统计依然在调整中,目前具体分类参照表三说明,本次添加robust和multichannel分类。表四为每个方向的具体文章数据量和本月的文章总量,其中12月份ASR相关的文章有34篇,跟11月份差不多。

表三  语音识别分类说明

分类

说明

general

包括传统、混合语音识别,以及对asr的优化

ctc

ctc优化

rnn-t

rnn-t的优化

aed

aed优化

dataset

开源数据库

data aug

数据增广

lm

语言模型研究

multilingual

多语音系统以及code-switch

personal

少数据量以及个性化ASR

rescoring

多种模型联合打分

unsupervised

无监督或者自监督学习

accent ,dialect

口音和方言

other

其它方向研究,包括系统评价标准等等

robust 鲁棒性
multichannel 多通道

表四  语音识别文章数量统计(单位:篇)

语音识别的文章列表请访问http://yqli.tech/page/asr_paper.html

12月份语音识别具体文章

2021年1~12月语音合成和语音识别论文月报相关推荐

  1. 2021年1~11月语音合成和语音识别论文月报

    论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://yql ...

  2. 2021年10月语音合成和语音识别论文月报

    ​ 论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://y ...

  3. 【论文合集】2022年12月医学影像期刊论文合集

    ★ 本月IEEE Transactions on Medical Imaging(1区 top if 11.037) 共41篇, 本月无MIA. " 标题高频词汇 ('learning', ...

  4. 2019年12月 视觉顶会论文收集

    最新视觉顶会论文收集 – 细粒度分类,也包含部分目标检测论文,可能会对细粒度分类有启发 CVPR 2019 细粒度分类 Zheng H, Fu J, Zha Z J, et al. Looking f ...

  5. 语音合成和语音识别资料查询说明

    文章转载请标明出处:微信公众号 低调奋进 个人网站http://yqli.tech/本来整理语音合成相关的文章.数据以及相关的开源工具​等等.现在,我对资料进行整理,添加了语音识别模块,在这里分享给大 ...

  6. TcaplusDB君 · 行业新闻汇编(12月20号)

    TcaplusDB君一直密切关注着游戏行业和数据库行业的动态.以下是TcaplusDB君收集的近期的游戏行业和数据库行业的新闻,汇编整理,献给大家观看. (本篇文章部分内容来自网络) TGA 2021 ...

  7. gta5在线模式服务器暂停使用,R星官网放出《GTAOL》停服公告,12月16日正式关闭线上服务器!...

    R星官网在前天就放出了GTAOL即将停服的公告,不知道大家有没有看到这则消息,在首页就可以看到清晰的几个大字,R星官网现在自带翻译功能,所以点进去就可以阅读哦,不过PC玩家完全不需要担心,因为此次停服 ...

  8. 2022年6月语音合成(TTS)和语音识别(ASR)论文月报

    论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://yql ...

  9. 2022年5月语音合成(TTS)和语音识别(ASR)论文月报

    ​ 论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://y ...

最新文章

  1. Python-字符串操作方法 [转]
  2. threejs加载模型挤压变形_【技研】挤压铸造铝合金转向节开发
  3. 2018年计算机相关学术会议,2018年信息与计算机技术国际学术会议(IEEE出版)
  4. leetcode 1052. 爱生气的书店老板(滑动窗口)
  5. fastapi 响应模型 / 响应状态码 / 表单参数
  6. 【数据校验杂谈】循环冗余检验 (CRC) 算法原理
  7. 训练史上最佳GAN用了512块TPU,一作自述:这不是算法进步,是算力进步
  8. Android Bitmap 开源图片框架分析(精华四)
  9. 交易系统开发(七)——交易延迟分析
  10. 联想服务器告警信息分析,联想服务器mib分析
  11. 2022年最新版初级商业数字营销师直通车题库
  12. win10开卓越性能模式方法
  13. 对讲机有哪些?如何选购对讲机?
  14. 这才叫高颜值的Markdown编辑神器!
  15. Excel2003工作簿密码和工作表保护的加密和解密
  16. 记录: 问题:/usr/bin/ld: main.o: Relocations in generic ELF (EM: 183)
  17. html网页宽度自动适应手机屏幕
  18. 通达信玩转庄家追击反转指标源码,带MACD顶背离底背离,不错。
  19. 删除链接到WLW清单文件
  20. 案件精灵9判断坐标颜色变化发出提示音(按键精灵9接收通知必备)

热门文章

  1. 谁将烟焚散,散了纵横的牵绊
  2. 1.函数的结构,调用,传参,形参,实参,args,kwargs,名称空间,高阶函数
  3. 计算机网络学习笔记 01(更新)
  4. 【毕业设计】图像检索算法(以图搜图)
  5. 关于RTL8192CU
  6. 抢红包: 红包过期失效案例
  7. Huawei 华为云 机器翻译调用 详解
  8. Neo4j 图数据库高级应用系列 / 服务器扩展指南 APOC 8.8 - 图生成 完全图
  9. 【用于图像修复、数据增强等】结合官方代码教程,在Windows 10下运行pix2pix-tensorflow(tensorflow==1.4.0 python=3.6)
  10. 6月26日日志-消费记录界面实现