7月4日,百度AI开发者大会(Baidu Create 2018)盛大召开,在下午的百度大脑论坛上,百度语音技术部总监高亮公布了百度基于远场的语音语义一体化技术的三项重大突破,包括基于远场的语音语义一体化、多语种混合声学建模、以及融合拼接与WaveNet技术的全新语音合成技术等。此外,远场语音技术低成本解决方案“度小云”正式发布,将百度顶尖的合成、识别、交互、远程、唤醒等各项技术,全面开放给开发者。

在上午的百度AI开发者大会主论坛上,百度大脑3.0正式发布,核心是“多模态深度语义理解”。“多模态深度语义理解”是指对文字、声音、图片、视频等多模态的数据和信息进行深层次多维度的语义理解,不仅能让机器听清、看清,更能深入理解它背后的含义,深度地理解真实世界,进而更好地支撑各种应用。此次语音技术上的三项升级正是百度大脑3.0深度理解世界的具体体现。

语音识别的准确率是语音技术的基础,此次百度升级的基于远场的语音语义一体化技术,能提高远场交互中高频Query的识别率,让机器更好地听懂世界。

据高亮介绍,在智能设备的语音交互中,用户交互的内容高度集中,用户1%的Query覆盖了40%的PV,10%的Query带来了70%的PV,因此百度为提高分辨高频Query的准确率进行了技术优化和创新。

传统的语音识别框架是通过声学模型、语音模型,解码输出语义结果,百度对语义识别的技术和框架进行了重新设计,专门为高频Query建构解码空间,且对高频Query和普通Query两套架构并行解码。在动态解码阶段,百度引入了声学置信度、语义特征、用户特征等更多的语义特征,对这些特征进行Ranking综合排序,以保证高频Query的高权重。

百度基于高频Query的识别架构,目前能够将高频Query的准确性提升10个点,并能保证普通Query的识别率不降。

多语种混合Query的识别是语音技术中攻克的难点,百度发布的基于Deep Peak2采用的多语种音素组合建模,突破了以音素为基本建模单元的传统,对中英文统一建模,大大提高了中英文混合Query的识别准确率。

传统的建模以音素作为基本的建模单元,建模时要考虑音素的前后音连和上下文,建模单元要上万个之多。百度基于深度尖峰第二代技术,将音素建模改成了上下文无关的音素组合建模,不再需要上下文和音连,可以将元音、单辅音、双辅音等音素有机组合,也能将中英文发音单元统一建模。这项突破,不仅能将建模单元减少至一千多、将解码速度加快、解码效率增高,且因为模型对训练数据极高的多样性和包容性,模型能积累更多的训练数据,进而大大提高对中英文混合Query的识别准确率。

现场高亮也为开发者们展示了几个案例,当一个孩童对机器说“o-f-c-o-u-r-s-e Ican的中文”这段英文字母拼音+英文单词+中文的Query时,机器准确识别了对话的意义;对于对话中出现的“就是build一个非常strong、healthy的朋友圈”的中英文混杂问题,机器也能准确识别。

目前,基于中文Deep Peak2的多语种音素组合模型已在百度多个产品上线,相对错误率比业界最好竞品降低了20%。

技术质量与成本最优化是技术追求的目标,百度创新的WaveNet+拼接技术不仅能大幅提升流畅度和自然度,而且成本更低,能让技术得到更大规模的落地和运用。

传统的拼接技术,需要找一个非常好的发言人,录制海量数据组成一个音库,然后将人工录制的音库进行切分与组合,拼接技术因为将声音整段切分成很多快,所以能保留人说话时的抑扬顿挫和情感特征,但同时它需要录制大量的音库,且音库合成的质量不易控制。业界最近常用的WaveNet技术,则是一个基于端到端的神经网络深度学习技术,它合成的声音较平稳,且对数据的需求比较小,但需要耗费大量的计算资源,功耗和使用成本非常高。

百度将传统的拼接技术和最新的WaveNet技术有机结合在一起,使两项技术的优势都能得到发挥。既保证了合成声音的情感,保证了输出声音的稳定性,同时降低了需要使用的数据和成本,全新的语音合成技术的经济适用性,覆盖了更多的聊天场景,也让该技术能得到大规模的工业应用。

结合以上三项技术,百度专门打造了EtoE DuerOS整体语音解决方案,它结合了百度最新的语音技术,包括麦克风阵列技术、声源定位技术、超低功耗DSP解决方案等。

除了公布创新技术,百度还现场发布了远场语音技术低成本的解决方案“度小云”,它集成了百度在合成、识别、交互、远程、唤醒等各方面的技术,包括语音语义一体化技术、多语种混合声学建模、全新的语音合成技术,还包括深度学习语音切分技术、业界领先的五级唤醒技术、远场优化的音频通讯技术等,是远场语音技术的集大成者,这些技术都已开放在百度AI开放平台,供开发者们免费使用。

百度的语音技术发展至今,已经在各个领域得到广泛运用,不仅在百度系产品中接入了入口,也为基于DuerOS的合作伙伴、为所有使用百度AI开放平台的开发者们提供了一个平等获取AI的机会。(作者:陈蕊)

百度AI语音语义一体化技术 识别的同时进行语义分析相关推荐

  1. 调用百度ai接口实现图片文字识别详解

    调用百度ai接口实现图片文字识别详解 首先先介绍一下这篇博文是干嘛的,为了不浪费大家时间.公司最近和短视频公司合作,需要监控app的截图上的文字是否符合规范,也就是确保其没有违规的文字.到网上找了一些 ...

  2. 调用百度AI平台API进行文字识别和图片识别

    写在前面 这应该是本年度的最后一篇技术博客了,今年在CSDN上总共发表了20篇博客,除掉几篇LeetCode的博客,都是个人工作的总结,总体来说,收获不少,随手记录的习惯也养成了.希望来年持之以恒. ...

  3. 【语音之家】AI产业沙龙—京东在AI语音方向的技术探索与实践

    由CCF语音对话与听觉专委会 .中国人工智能产业发展联盟(AIIA)评估组.京东科技.语音之家.希尔贝壳共同主办的[语音之家]AI产业沙龙-京东在AI语音方向的技术探索与实践,将于2022年11月29 ...

  4. Python——调用百度AI实现图片上文字识别

    Python--调用百度AI实现图片上文字识别 简介 步骤 安装百度AI库 注册百度AI开放平台 调用glob库 调用AipOcr库识别文字 可能会遇到的问题 批量操作 简介 Python免费调用百度 ...

  5. React native 接入百度AI活体检测、人脸识别 iOS版本

    前期准备工作参考:React native 接入百度AI活体检测.人脸识别 Android版本 iOS配置 1.将FaceSDK里面的文件导入到iOS项目 添加完之后是这样的 2.选择链接C++标准库 ...

  6. 【应用】Python调用百度AI实现图片上表格识别

    [应用]Python调用百度AI实现图片上表格识别 简介 步骤 安装百度AI库 注册百度AI开放平台 调用AipOcr库识别表格文字 可能遇到的问题 批量操作 简介 Python免费调用百度AI实现图 ...

  7. asp身份证识别代码,asp+百度ai实现身份证正反两面识别

    还是昨天那个朋友,让我帮忙写asp实现姓名与身份证的真假查询的那个朋友,今天又让我帮忙写个asp+百度ai实现身份证正反两面识别代码,有了昨天的百度api开发经验后,今天稍作研究就成功了,asp连接百 ...

  8. 基于百度AI开放平台的人脸识别

    文章目录 前言 人脸识别流程图 一.注册账号 二.创建应用 三.下载SDK文件 四.创建工具类 五.创建用于人脸识别的网页 1.引入css文件 2.创建注册按钮 3.创建模态框,用于捕捉人脸 4.引入 ...

  9. 基于百度AI开放平台的人脸识别及语音合成

    基于百度AI的人脸识别及语音合成课题 课题需求 (1)人脸识别 在Web界面上传人的照片,后台使用Java技术接收图片,然后对图片进行解码,调用云平台接口识别人脸特征,接收平台返回的人员年龄.性别.颜 ...

最新文章

  1. 若依前后端分离如何写移动端接口_前后端分离实践的架构设计
  2. L2TPV3---以太网端口到端口手动配置
  3. JSP/Servlet基础语法
  4. 【我的Android进阶之旅】如何快速寻找Android第三方开源库在Jcenter上的最新版本...
  5. FineUI控件集合
  6. C++Strand Sort链排序的实现算法(附完整源码)
  7. leetcode 138. Copy List with Random Pointer | 138. 复制带随机指针的链表(复杂链表的复制)
  8. css中一些必要的公共样式
  9. 查看照片的指定位置的像素点值,并在照片中绘制一条指定像素颜色的线段
  10. [UVA 10891] Game of Sum
  11. ffmpeg基本知识
  12. 有关asp.net技术的外文文献_医学科技论文写作中参考文献的标准格式及常见问题...
  13. SpringBoot之解决一对一、多对一、多对多等关联实体在JSON序列化/输出时产生的无限递归死循环问题(infinite recursion)
  14. 知秋源码解读分享系列
  15. python经典程序-python经典程序
  16. 什么是AsHelper
  17. 复杂网络社区划分方法综述
  18. 苹果ppt_苹果发布会PPT,为何总能惊艳到你
  19. discuz代码阅读-核心类-class_core.php
  20. Allegro Pad Designer焊盘制作指南

热门文章

  1. Membership三步曲之入门篇 - Membership基础示例
  2. [转]Kali-linux安装之后的简单设置
  3. 很实用的一个ext表格,具有很好的分页功能。
  4. C#多屏幕显示器编程
  5. 深入学习.NET Web Services概念
  6. 第45届国际大学生程序设计竞赛(ICPC)银川站太原理工大学收获4枚奖牌
  7. JSK-390 计负均正【入门】
  8. UVA10608 Friends【并查集】
  9. Bailian2729 求12以内n的阶乘 Bailian2730 求20以内n的阶乘【递推】
  10. matlab 局部特征检测与提取(问题与特征)