[数字人]TTS(1)
现在处于已经处于功能开发的TTS阶段,第一阶段的'First-Order_mortation'基于SadTalker实现,晚些补上这块的内容。
定义:
Text-to-Speach(额…这还需要怎么解释啊)
要求:
1. 语音质量:
能够产生自然、清晰、流畅的语音,让人感觉像人类发音一样;
2. 发音准确性:
按照正确的发音规则,发出清晰准确的语音;
3. 声音变化:
准确地模拟人类语音中的声调、重音、语气和情感变化等;
4. 多语言支持:
支持多种语言的发音,以满足全球化的需求;
5. 速度和流畅性:
快速生成语音,并保持流畅性;
6. 连续性和自然性:
保证语音的连续性和自然性,以产生更加真实的人类语音;
7. 可定制化和可扩展性:
可以根据用户的需求进行个性化设置,并支持后续扩展和升级。
注:3、4和6比较难实现。模型的训练是有针对性的,泛化性好的模型需要模型本身具有足够的参数量描述对象,同时需要足够多的样本量训练参数;做好TTS,关注7是可行的方案,在用户使用上和模型大小(各种指标)上做取舍。
应用场景:
1. 短文本在线合成
基于深度神经网络技术,提供高度拟人、流畅自然的语音合成服务,让应用、设备开口说话,更具个性;
2. 长文本在线合成
将超长文本快速转换成稳定流畅、饱满真实的音频。支持长文本一次性合成,提供多种优质音库选择,广泛应用于阅读听书、新闻播报等场景;
3. 离线语音合成
在无网或弱网环境下,可在手机APP或故事机、机器人等智能硬件设备终端进行语音播报,将文字合成为声音,提供稳定一致、流畅自然的合成体验;
4. 语音合成定制音库
基于深度学习技术,提供高还原度的音库定制服务,让业务拥有独一无二的专属音库,助力提升产品特色、打造个性化的品牌营销与市场推广活动。
市场现状:
百度、科大讯飞、迅捷、阿里云、字节、微软,亚马逊云服务…
没有每一个都去试用,现状…输出都是比较机械的语音。如果只是个人兴趣爱好使用,考虑百度飞桨和迅捷;科大讯飞有很对落地的案例(高德、滴滴和QQ阅读等等),看着就靠谱,不过直接提供封装好的SDK;自身比较中意阿里云的方案,Github有源码,配备了详细的接口介绍,适合二次开发;其他的…以后再体验。
Github项目参考
So-vits-svc:通过学习一个人的声音,对另一首歌做音色替换。所需的样本量较少,且少量的训练时间就可以得到不错的效果。训练很麻烦,不过有人提供的整包,用来体验很nice。
Diff-SVC:中国民间歌声合成爱好者 prophesier 基于 DiffSinger、DiffSinger (openvpi 维护版)、soft-svc 等项目开发的一款开源免费 AI 语音转换软件。22.10创建文件夹,现已停更。
DDSP-SVC:在训练推理速度和配置优势。一张2G以上显存的N卡 and 一两个小时的训练,实际情况…效果不佳(是我打开的方式不对嘛)。
以上三种是声音合成,好处在于容易定制音色,语调…有待改进。下面是正经TTS。
Suno Bark:生成高度逼真的多语言语音以及其他音频 - 包括音乐、背景噪音和简单的音效。该模型还可以产生非语言交流,如大笑、叹息和哭泣。实测体验效果很棒,唯一的不足在于中文的效果不太好(英式中文,手动滑稽),这是通病,下面不赘述;
ElevenLabs、Myvocal、DiffSinger、SV2TTS。这几个模型中影响最深刻的是DiffSinger,官方提供了网页端接口,需要录25段英文语音,有单词不认得,尴尬了好一阵。
模型的底层原理需要看一下源码和资料,有时间…有时间再补上。
[数字人]TTS(1)相关推荐
- 元宇宙iwemeta:元宇宙数字人实践落地应用场景
把虚拟数字人装进你的手机!百度.腾讯.讯飞盯准这条新赛道. 短短三个月内,几乎每一家拥有智能语音技术能力的大厂都在采取行动布局虚拟数字人. 百度.华为.阿里等都纷纷引入AI数字人入职,担任技术宣讲员. ...
- 未来已来?走进元宇宙入口 - 虚拟数字人
2022 年 2 月 4 日,冬奥会正式开幕.在开幕式及冬奥会赛事进程中,人工智能.5G.AR.裸眼 3D 和云等多种硬科技大显神通.其中,作为元宇宙场景入口和连接纽带的虚拟数字人技术尤为引人注目.本 ...
- 一文搞懂华为ML Kit数字人,超简单集成
一.数字人介绍 虚拟数字人是综合多模态AI能力,结合图像视觉.情绪生成.语音克隆.语义理解等多种AI技术,广泛应用于媒体新闻主播.金融客服.虚拟游戏等众多场景. 数字人在行业中的应用: 二.HMS M ...
- 底层软硬件及物联网传感技术决定数字人系统“进化”水平
2021 年是元宇宙元年,随着元宇宙概念的火爆也一同带动了数字人市场的快速升温.据计算全球平均每天都会 诞生一个数字人.数字人正成为一股潮流,涌入人们的日常生活--会"捉妖" ...
- 虚拟数字人行业现状和技术研究
本文为金擘(渚薰) 在第十六届D2前端技术论坛上的分享,为你讲述当前业界的现状,包括不同行业中的showcase和优秀的技术/创作平台,引出近几年比较火热的数字人,包含多个核心技术点,同时畅想数字人在 ...
- 从冬奥看中国科技(三):数字人的觉醒与进化
冬奥赛事已过半,我们的情绪也在酣畅淋漓的竞技中跌宕起伏.在谷爱凌自由式滑雪的比赛中,武大靖代表的短道速滑团体赛的金牌中激昂:也为年轻单板滑雪小将苏翊鸣的银牌成绩判罚不停争论,为顶级花滑运动员羽生结弦的 ...
- 「国际科技信息中心SCITIC论坛」从ChatGPT、流浪地球、虚拟数字人、AIGC探索数字化创意,展望人类与AI的共创...
点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 2023年2月24日,由国际科技信息中心主办,AI TIME承办的SCITIC论坛--数字化创意探索,从流浪地球说起完美收官.SCITI ...
- 虚拟邓丽君,歌声合成真的可以如此逼真吗?数字人技术系列
虚拟邓丽君 - 数字王国 2022年江苏卫视跨年晚会上,一身优雅深蓝色旗袍的邓丽君与周深一起演绎了<小城故事>,<漫步人生路>,<大鱼>3首歌,让不少观众直呼感动. ...
- 虚拟数字人厂商内卷元宇宙
一直以来,"虚拟数字人"都被视为另一个更大的概念"元宇宙"的重要组成部分,而受到广泛关注.而且,在元宇宙被某些厂商不时拿出来翻炒的时候,虚拟数字人的应用其实是走 ...
最新文章
- Lambda表达式(简单解析)
- 吸墨网iPhone手机客户端界面设计
- java 字母图形_Java字母图形
- 编写简单的发布者和订阅者(C++)---ROS学习第9篇
- vn.py 2.0.1 发布,全功能交易程序开发框架
- 使用intellij查看scala变量的具体类型
- 一种移动端自适应屏幕的方法
- Highcharts隐藏网格线
- 原创|我以为我对Mysql索引很了解,直到我遇到了阿里的面试官
- DailyWallpaper v1.02 released
- elasticsearch-7.15.2 配置IK中文分词器+拼音分词
- 英尺、英寸和厘米的换算
- 计算机消极影响英语作文,关于手机的消极影响高中英语作文
- 博主的EMNLP2021合作工作已公开:TransPrompt——基于Prompt和迁移学习的小样本文本分类,欢迎阅读与引用
- 怎么把图片格式转换成PDF呢?
- 区块链全球社区协作工具,就用超级表格!
- ViewPager系列之ViewPager无限循环滑动
- docker基本操作小结
- 五问目标检测Anchor
- ARP局域网断网攻击