实时语音场景下的智能对话
目录:
语音对话机器人: 热线小蜜
语音特色的文本驱动对话
语音语义驱动的双工对话
1.语音对话机器人: 热线小蜜
实时语音对话的挑战:
口语化:用户的表述呈现出含糊、冗长、不连续、并存在ASR噪声。
多模态:语音对话相比文本蕴含了更多的信息, 如语气、情绪、背景环境等。
双工化:不局限于一问一答的形式,会出现静默、等待、互相打断等复杂的交互行为。呈现出低延时(人人对话rt < 400ms),强交互(turn- taking频繁)的特点。
实时语音对话的挑战:
对话:从文本驱动到语音语义驱动
缺少针对性的算法模型,基于在线QA构建的问答模型对口语化的语料适配性差,影响NLU准确性
语音和语义模块割裂,NLU/DM仅能基于ASR的结果进行处理,丢失语音模态信息,同时ASR带来误差传播
语音控制能力简单,基于固定VAD时长的收音断句、原子化的放音无法满足精细化的双工控制。
无法对用户的全部turn-taking行为进行响应,造成“高延迟、弱交互”的用户体感,进一步会影响对话完成率
2.语音特色的文本驱动对话
面向ASR的SLU
场景:口语化订单匹配
热线采用基于自然语言描述的方式来进行订单的确认;
由于方言口音、噪声、和领域专有名词的影响,ASR结果包含一定比例的错误;
由于关键信息(品类、品牌、修饰词)的错误,导致无法匹配到正确的订单。
ASR-Robust SLU
ASR-Robust SLU:WCN
ASR-Robust SLU 结果:
语音情绪检测
背景:
热线呼入:用户一般不会对机器人进行辱骂,因此在文字上体现的负面情绪case不多(约10%),因而我们需要对用户在沟通中的语气语调中,呈现出的焦急、不耐烦等情绪需要进行针对性的识别的应对。
热线人工质检:热线质检一般是针对人工小二的服务红线,一般来讲人工小二直接辱骂客户的情况是很少的,我们同样需要对人工服务中的语气和异常情绪进行检测。
挑战:
数据质量差:学术界现有音频情绪数据集(IEMOCAP、RAVDESS、CASIA)基本采用表演方式收集,表演痕迹重,和真实讲话有很大差异。
标注和建模方式不合理:目前主流语音情绪标注采用分类打标(委屈、恐惧、着急、失望、愤怒、辱骂、感谢等),仅仅通过语音难以区分上述场景, 导致打标主观性极强,一致率低。
方案:
采用真实录音进行标注,通过上下文对话筛选出疑似含有情绪的候选,通过多位众包投票方式打标,根据标注方差过滤噪音样本。
结合业务场景,仅针对负面情绪强弱进行分数标注。模型采用回归式的训练方式,降低噪声影响。
口语化表达
语音特色的文本驱动对话
语音语义驱动的双工对话
双工对话定义:
双工对话的特点:
语音对话对通信双方具有独占性 -> 响应时延敏感。
基于语音的信息传递具有持续性、非瞬时、非原子 -> 边听边想、边想边说。
不完全博弈,通话双方并不准确的知道对方下一刻要做什么 -> 误判。
双工对话决策:
双工对话的表示:
双工:更短的响应时长
人际对话的特点:
边听边想:接受对方语音输入的同时进行理解和回答的构思。
边想边说:构思回答语言的同时,一边逐步的将回答讲出(有时还会加入一些承接语气)。
边听边想:
利用Micro-turn,基于当前接收到的用户表述, 提前理解并生成答案及TTS。
核心技术:提前理解播放策略、语义完整性模 型、语义差异性模型。
边想边说:
利用Micro-turn,在声音停止较短时间内直接判断当前是否句尾,并且在生成最终的答案之前先播放一个符合上下文的简短承接语。
核心技术:多模态句尾检测模型、承接策略模型。
双工:语义化打断
语义化打断:
在重叠发声的情况下,判断用户是否有意的打 断当前对话,并且提前结束播音。
常见的打断场景:提前回答当前问题、补充前 一轮的回复、无意义的回答、
双工状态特征:当前TTS的已经播放的时长、 当前Query距离前一轮的时长等等。
核心技术:语义化打断模型,双工状态相关的打断策略。
双工:交互式数字收集
背景:
对于一些复杂信息且精度要求较高的槽位(例如长数字、复杂地址、精确时间等),通常难以通过单轮对话完成 (即使能完成,体验也很差)。
需要快速的多轮交互,turn-based无法满足。
以数字为例,会存在表述多样性(如“幺三个零”或 “一千”),修改澄清(“幺三五,哦不对幺三六”),表述含糊(“幺零零零零”)等难点。
技术方案:
基于单链路的Duplex DM,仅依赖micro-turn作为输入, 输出完整的对话策略。
针对长数字收集的优化:数字意图识别、数字改写、micro-turn DST & Decoder。
端到端优化学习。
相比按键式交互,收集完成率提高20%以上。
总结:
实时语音场景下的智能对话相关推荐
- 搜索场景下的智能推荐演变之路
摘要:传统的推荐手段主要还是深度挖掘用户行为和内容本身相似性的价值,包括但不限于协同过滤,内容表征+向量召回,以及各式各样的点击率预估模型,然后这样的推荐行为缺乏内在的逻辑性和可解释性,有一种知其然, ...
- 搜索场景下的智能实体推荐
省时查报告-专业.及时.全面的行研报告库 省时查方案-专业.及时.全面的营销策划方案库 [免费下载]2022年2月份热门报告盘点 知识图谱在美团推荐场景中的应用实践 机器学习在B站推荐系统中的应用实践 ...
- 安华金和技术副总裁杨海峰:金融行业数据实时共享场景下的动态脱敏技术
在信息化大潮愈演愈烈的当下,数据和信息不啻为一种"新型资本",尤其对于数据资产量巨大,操作复杂程度高.系统性能要求高的金融领域来说,数据资产发挥着越来越突出的价值,和传统资本具有的 ...
- 【智能合约】编写复杂业务场景下的智能合约——可升级的智能合约设计模式(附Demo)
可升级的以太坊智能合约设计模式 目录 可升级的以太坊智能合约设计模式 智能合约的现状 智能合约的局限 智能合约目前的发展方向 如何利用智能合约实现复杂的业务场景 智能合约设计模式的技术点 智能合约设计 ...
- 网易实战分享|实时音视频会议场景下QoS策略
文|网易云信资深流媒体开发工程师 背 景 科技的进步以及通讯基建的高速发展,使得人们对交流的模式要求越来越即时,对交流内容要求越来越具象,这些要求催化着内容交换模式的不断发展,从传统的信件,到短 ...
- 实时音视频会议场景下QoS策略
文|网易智慧企业资深流媒体开发工程师 背 景 科技的进步以及通讯基建的高速发展,使得人们对交流的模式要求越来越即时,对交流内容要求越来越具象,这些要求催化着内容交换模式的不断发展,从传统的信件, ...
- 最佳实践 | 用腾讯云智能语音打造智能对话机器人
在AI技术的推动下,智能对话机器人逐渐成为我们工作.生活中的重要效率工具,乃至是伙伴,特别是为企业带来最原始最直观的"降本增效"落地实现. 作为开发者,你是否有想过基于语音技术打造 ...
- 复杂场景下智能汽车目标检测心得体会
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 引言 一.复杂背景目标检测的复杂是什么? 二.目标检测环境的复杂性包含哪些? 三.复杂场景目标检测的目标复杂性包含哪些? 四 ...
- 蚂蚁金服崔恒斌:金融智能——对话机器人新形态
文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 | 中国人工智能学会 本篇整理自蚂蚁金服人工智能部高级算法专家崔恒斌主题为<金融智能--对 ...
最新文章
- WPF的消息机制(二)- WPF内部的5个窗口之隐藏消息窗口
- python装饰器作用-python 装饰器
- 如何采集病变脏器照片和处理图像?
- 程序员删数据库事件引发的个人思考
- js 上下箭头滚动_JS中的this完全讲解,再也不会被this搞晕了
- jedis开发过程中遇到的问题及其解决方法
- android 勿扰模式代码,android机勿扰模式代码是什么
- Tensorlfow的可视化工具TensorBoard
- 为什么 Kubernetes 是微服务发展的必然产物?
- IOS-UISearchBar
- 神经网络画图-ConvNetDraw(简单实用)
- Photoshop 入门教程「6」如何更改图像大小?
- 凸集、锥、凸锥、正常锥的辨析
- IT架构的本质--我的五点感悟
- SwiftyJSON源码分析
- 斗战神 琵琶之怨获取攻略
- 论述嵌入式linux根文件系统6,嵌入式linux根文件系统制作,大神手把手教你
- 这次经历给我埋下了学理财的种子
- SEO工作前景如何?
- linux androidx86双系统,实用教程:PC实现Windows/原生安卓双系统
热门文章
- 由注意力机制中scaled sqrt(dk)操作联想到期望与方差的本质推导
- 《白鲤助手》抖音所有功能操作说明
- 2015,了不起的邮件创意!
- spring-day04_JdbcTemplate声明式事务
- 微信小程序调用update更新数据库数据无效
- 雨课堂同济大学《知识产权法》袁秀挺 章节练习答案
- EPICS简单实例2 -- subroutine记录(sub)介绍与使用
- 百位数,十位数,个位数的求法
- ubuntu 双屏显示的设置
- python后端工程师简历_【社招】字节跳动 - 后端开发工程师( Python Golang)-懂车帝...