导读

要说生活里最常见的AI应用场景,语音合成与识别当属大家最为耳熟能详的场景之一了。

寻常到平时地图导航的播报、微信语音转文字、手机语音输入,以及小度智能音箱,都离不开语音技术的加持。

语音技术到底是怎么实现的?有哪些现成可用的开源代码可以快速集成到项目里?可以说是每一名开发者非常关心的问题。

那么,福利时间到了,今天这个集成了中英文语音识别、语音翻译、语音合成、声音分类能力,而且一行代码轻松试验效果的开源项目,你一定不能错过!

项目介绍

话不多说,先来看项目中给出的效果展示。

语音识别

输入音频 1

识别结果 1

I knocked at the door on the ancient side of the building.


输入音频 2

识别结果 2

我认为跑步最重要的就是给我带来了身体健康。

语音翻译(英译中)

输入音频

识别结果

我 在 这栋 建筑 的 古老 门上 敲门。

语音合成

输入文本 1

Life was like a box of chocolates, you never know what you're gonna get.

合成音频 1


输入文本 2

早上好,今天是2020/10/29,最低温度是-3°C。

合成音频 2

可以看到,无论是中英文的识别,还是中英文的合成,这个开源项目都有不错的效果,特别的,项目中还包含了语音翻译能力,可以实现英文语音同传翻译为中文字幕,这个确实太强大了。

传送门:

GitHub 地址:

https://github.com/PaddlePaddle/PaddleSpeech

有读者肯定想问,这么强大的语音能力,是不是想要用起来比较麻烦?

不得不说,这个项目在易用性上真的也是考虑得非常周到。

安装测试效果

我们按照首页的引导:

一行命令安装:

一行命令快速开始使用:

这里,小编抱着试一试的态度,在本机上安装了这个项目,安装完成之后,先使用语音合成试一下。

生成的效果大家可以听一下~

然后,带着好奇心,我们再把合成的结果送到语音识别试一下,看看效果:

最终输出结果:

可以看到,这一套循环下来,效果非常不错!

除了出色的效果,易用的体验,我们再看看这个项目中还有什么宝藏可以挖掘,果然我们发现项目中还包含丰富的预训练模型,并且语音识别和语音合成均支持自定义训练。

丰富的预训练模型

语音识别包含声学模型和语言模型, 详情如下:

语音合成主要包含三个模块:文本前端、声学模型和声码器。声学模型和声码器模型如下:

完善的文档教程

并且开源以来,收到开发者的广泛关注,已经有大量开发者投入到项目的建设中并且贡献内容。

真·干货满满!

别的不需要多说了,请大家访问GitHub亲自体验吧:

https://github.com/PaddlePaddle/PaddleSpeech

如果大家满意的话,欢迎点个小星星鼓励下我们的工程师!

直播课程,大牛带学

为了帮助大家了解更多语音技术前沿进展,玩转开源项目,12月21日-24日每晚20:15-21:30,由百度研究院深度学习实验室(美研)主任黄亮老师领衔,多位语音领域资深工程师为大家带来一套精品技术直播课,详解语音方向的核心技术。

扫码报名直播课,加入技术交流群

精彩内容抢先看

PaddleSpeech项目地址:

GitHub: https://github.com/PaddlePaddle/PaddleSpeech

Gitee: https://gitee.com/paddlepaddle/PaddleSpeech

重磅!百度飞桨开源语音基础模型库|中英文语音识别、语音翻译、语音合成、声音分类通通一行代码轻松搞定...相关推荐

  1. python基础入门大作业怎么做_【百度飞桨】零基础Python课程大作业

    转眼间百度飞桨的零基础python课程马上就要结束了,所谓年前学python,年后来上号,通过本次课程可以对python有一个基础的认知和掌握,以下是大作业的个人代码,仅供参考. [作业一] #创建S ...

  2. 百度飞桨开源Open Images Dataset V5目标检测比赛最好单模型MSF-DET

    目标检测是计算机视觉领域中的核心任务.Open Images Dataset V5(OIDV5)是目前规模最大的目标检测公开数据集[1].基于飞桨(PaddlePaddle)的PaddleDetect ...

  3. 重磅!一行代码轻松搞定中英文语音识别与语音合成|代码开源!

    导读 要说生活里最常见的 AI 应用场景,语音合成与识别当属大家最为耳熟能详的场景之一了. 寻常到平时地图导航的播报.微信语音转文字.手机语音输入,以及小度智能音箱,都离不开语音技术的加持. 语音技术 ...

  4. 首次开源!一行代码轻松搞定中英文语音识别、合成、翻译核心功能!

    导读 要说生活里最常见的AI应用场景,语音合成与识别当属大家最为耳熟能详的场景之一了. 寻常到平时地图导航的播报.微信语音转文字.手机语音输入,以及小度智能音箱,都离不开语音技术的加持. 语音技术到底 ...

  5. 机器学习建模神器PyCaret已开源!提升效率,几行代码轻松搞定模型

    Datawhale干货 编译:张峰,Datawhale成员 寄语:PyCaret,是一款 Python中的开源低代码(low-code)机器学习库,支持在「低代码」环境中训练和部署有监督以及无监督的机 ...

  6. 百度飞桨亮相2019 AIIA,四大领先技术剑指落地引开发者点赞

    深度学习技术能让文化底蕴浓厚的老茶馆换上科技的"新装",也能让原本1周的工作量缩短为1个小时,且效果更佳--这些看似稀奇的事已经随着深度学习技术的发展成熟逐渐普及. 11月1-2日 ...

  7. 百度飞桨中国行南京站开启!共研AI赋能产业新模式

    面对未来发展,以人工智能为代表的新一代技术逐渐成为产业转型的核心驱动力之一,人工智能的发展离不开创新和人才.在这一大背景下,百度推出"飞桨中国行"活动,计划走入全国多个 AI 重点 ...

  8. CCF-百度松果基金闭门研讨会成功举办,百度飞桨提供基金平台支持

    2020年10月23日下午,首届CCF-百度松果基金(以下简称"松果基金")闭门研讨交流会在京举行,作为2020年中国计算机大会的分论坛之一,研讨会受到了业内广泛关注.在会上,20 ...

  9. ​“国产”AI框架争相开源,“领头羊”百度飞桨将扔重磅炸弹?

    3月末,国产深度学习开源框架迎来高光时刻. 在短短8天时间里,来自中国业界和学界的AI开源框架"你方唱罢我登台",向AI开源框架领域的霸主TensorFlow.Pytorch亮剑. ...

最新文章

  1. mysql 使用位运算
  2. esp32 camera_利用Phyphox和ESP32蓝牙制作欧姆表测电阻
  3. java通过JDBC链接SQLServer2012
  4. Windows Mobile Incoming Call View Custom
  5. 强化学习(三)用动态规划(DP)求解
  6. Google单季度,营收超过753亿美元
  7. CentOS7 编译安装golang和rpm安装golang
  8. LeetCode算法入门- Remove Nth Node From End of List -day17
  9. python-演练-输出一个等腰三角形-
  10. ASP.NET通过OLE DB操作Excel
  11. 关于QT中的音频通信问题
  12. ACL20 - Don‘t stop pretraining: adapt language models to domains and tasks
  13. 中国奶茶成海外消费者“囤货标配”;SK海力士将推进对英特尔大连芯片厂收购 | 美通企业日报...
  14. 51单片机学习笔记【五】——1602液晶屏
  15. 删除的微信好友可以恢复吗?不小心把微信好友删了怎么找回
  16. <Zhuuu_ZZ>Map接口和equals重写
  17. linux文件操作命令入门笔记(tar,cp,mv,zip,scp)
  18. 曲线曲面的基本理论3之曲线的参数表示
  19. Java面试题(六)腾讯Spring夺命7连问(灵魂拷问)
  20. 数据库表赋权给指定用户

热门文章

  1. Oracle 11g Dataguard 物理备库配置(三)之Dataguard broker配置
  2. 9.9递归和动态规划(十二)——小鸡吃米
  3. HTML5 中的 canvas 画布(二)
  4. 【Android游戏开发二十】物理游戏之重力系统开发,让你的游戏变得有质有量!...
  5. nginx linux下载文件,linux – 从nginx缓慢下载大型静态文件
  6. java sbt二叉树,Treap——堆和二叉树的完美结合,性价比极值的搜索树
  7. 软件测试人员进阶必读的八大书籍
  8. 请输入30名同学的c语言成绩,求大神帮忙做这几道结构体的c语言!今天就要交实验报告!急啊急!!!!! (1)一个班级共有30名学...
  9. 使用 Autofill 插件快速提交BUG
  10. webrtc java api_java – 使用WebSockets实现WebRTC信令