2021年1~12月语音合成和语音识别论文月报
论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计。统计过程难免存在疏漏,因此统计结果仅供参考。所有文章语音合成领域统计列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html。如何查找语音资料请参考文章https://mp.weixin.qq.com/s/eJcpsfs3OuhrccJ7_BvKOg)。读者有什么建议可以直接给我发消息,我将不断修改该统计。如有转载,请注明出处。欢迎关注微信公众号:低调奋进。
(等两天将会对语音合成论文进行年度总结~)
一 语音合成篇
首先,看一下语音合成每月的文章数量情况。语音合成在12月只有14篇文章,相比10和11月份下降很多。我本以为统计错了,就重新搜索一次,本月的合成文章的确很少。
接下来,看一下每个方向的具体情况。表一给出具体分类说明。由表二以及折线图和柱状图可知,语音合成前端研究依然很少,当前在产业界对前端投入的也越来越少。合成领域在本月的声学模型设计和优化方向竟然为0,文章相对较多的方向包括音乐、vc和多模态都有三篇文章。
表一 语音合成分类说明
分类 |
说明 |
前端 |
多音字,韵律,g2p等等。 |
声学模型 |
语言特征转声学特征,attention工作,多说话人以及双重学习 |
声码器 |
波形生成 |
个性化 |
少数据,脏数据应用等自适应 |
多语言 |
多语言模型 |
歌唱合成 |
歌唱和音乐合成 |
情感 |
风格和情感 |
多模态 |
talking head等等 |
声音转换 |
基于GAN方案和特征解耦方案 |
S2S |
speech-to-speech |
其它 |
基于EEG合成,数据,MOS评测以及语音合成的应用 |
表二 语音合成文章情况表(单位:篇)
接下来是相关的柱状图和折线图
语音合成的文章列表请访问http://yqli.tech/page/tts_paper.html
12月份的文章
二 语音识别篇
语音识别的文章分类统计依然在调整中,目前具体分类参照表三说明,本次添加robust和multichannel分类。表四为每个方向的具体文章数据量和本月的文章总量,其中12月份ASR相关的文章有34篇,跟11月份差不多。
表三 语音识别分类说明
分类 |
说明 |
general |
包括传统、混合语音识别,以及对asr的优化 |
ctc |
ctc优化 |
rnn-t |
rnn-t的优化 |
aed |
aed优化 |
dataset |
开源数据库 |
data aug |
数据增广 |
lm |
语言模型研究 |
multilingual |
多语音系统以及code-switch |
personal |
少数据量以及个性化ASR |
rescoring |
多种模型联合打分 |
unsupervised |
无监督或者自监督学习 |
accent ,dialect |
口音和方言 |
other |
其它方向研究,包括系统评价标准等等 |
robust | 鲁棒性 |
multichannel | 多通道 |
表四 语音识别文章数量统计(单位:篇)
语音识别的文章列表请访问http://yqli.tech/page/asr_paper.html
12月份语音识别具体文章
2021年1~12月语音合成和语音识别论文月报相关推荐
- 2021年1~11月语音合成和语音识别论文月报
论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://yql ...
- 2021年10月语音合成和语音识别论文月报
论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://y ...
- 【论文合集】2022年12月医学影像期刊论文合集
★ 本月IEEE Transactions on Medical Imaging(1区 top if 11.037) 共41篇, 本月无MIA. " 标题高频词汇 ('learning', ...
- 2019年12月 视觉顶会论文收集
最新视觉顶会论文收集 – 细粒度分类,也包含部分目标检测论文,可能会对细粒度分类有启发 CVPR 2019 细粒度分类 Zheng H, Fu J, Zha Z J, et al. Looking f ...
- 语音合成和语音识别资料查询说明
文章转载请标明出处:微信公众号 低调奋进 个人网站http://yqli.tech/本来整理语音合成相关的文章.数据以及相关的开源工具等等.现在,我对资料进行整理,添加了语音识别模块,在这里分享给大 ...
- TcaplusDB君 · 行业新闻汇编(12月20号)
TcaplusDB君一直密切关注着游戏行业和数据库行业的动态.以下是TcaplusDB君收集的近期的游戏行业和数据库行业的新闻,汇编整理,献给大家观看. (本篇文章部分内容来自网络) TGA 2021 ...
- gta5在线模式服务器暂停使用,R星官网放出《GTAOL》停服公告,12月16日正式关闭线上服务器!...
R星官网在前天就放出了GTAOL即将停服的公告,不知道大家有没有看到这则消息,在首页就可以看到清晰的几个大字,R星官网现在自带翻译功能,所以点进去就可以阅读哦,不过PC玩家完全不需要担心,因为此次停服 ...
- 2022年6月语音合成(TTS)和语音识别(ASR)论文月报
论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://yql ...
- 2022年5月语音合成(TTS)和语音识别(ASR)论文月报
论文统计每月更新一次,主要跟踪语音合成和语音识别的发展状况(很多文章都是在会议后才发出,但不影响统计.统计过程难免存在疏漏,因此统计结果仅供参考.所有文章语音合成领域统计列表请访问http://y ...
最新文章
- Python-字符串操作方法 [转]
- threejs加载模型挤压变形_【技研】挤压铸造铝合金转向节开发
- 2018年计算机相关学术会议,2018年信息与计算机技术国际学术会议(IEEE出版)
- leetcode 1052. 爱生气的书店老板(滑动窗口)
- fastapi 响应模型 / 响应状态码 / 表单参数
- 【数据校验杂谈】循环冗余检验 (CRC) 算法原理
- 训练史上最佳GAN用了512块TPU,一作自述:这不是算法进步,是算力进步
- Android Bitmap 开源图片框架分析(精华四)
- 交易系统开发(七)——交易延迟分析
- 联想服务器告警信息分析,联想服务器mib分析
- 2022年最新版初级商业数字营销师直通车题库
- win10开卓越性能模式方法
- 对讲机有哪些?如何选购对讲机?
- 这才叫高颜值的Markdown编辑神器!
- Excel2003工作簿密码和工作表保护的加密和解密
- 记录: 问题:/usr/bin/ld: main.o: Relocations in generic ELF (EM: 183)
- html网页宽度自动适应手机屏幕
- 通达信玩转庄家追击反转指标源码,带MACD顶背离底背离,不错。
- 删除链接到WLW清单文件
- 案件精灵9判断坐标颜色变化发出提示音(按键精灵9接收通知必备)
热门文章
- 谁将烟焚散,散了纵横的牵绊
- 1.函数的结构,调用,传参,形参,实参,args,kwargs,名称空间,高阶函数
- 计算机网络学习笔记 01(更新)
- 【毕业设计】图像检索算法(以图搜图)
- 关于RTL8192CU
- 抢红包: 红包过期失效案例
- Huawei 华为云 机器翻译调用 详解
- Neo4j 图数据库高级应用系列 / 服务器扩展指南 APOC 8.8 - 图生成 完全图
- 【用于图像修复、数据增强等】结合官方代码教程,在Windows 10下运行pix2pix-tensorflow(tensorflow==1.4.0 python=3.6)
- 6月26日日志-消费记录界面实现