实时语音场景下的智能对话

1.语音对话机器人：热线小蜜

实时语音对话的挑战：

口语化：用户的表述呈现出含糊、冗长、不连续、并存在ASR噪声。
多模态：语音对话相比文本蕴含了更多的信息，如语气、情绪、背景环境等。
双工化：不局限于一问一答的形式，会出现静默、等待、互相打断等复杂的交互行为。呈现出低延时（人人对话rt < 400ms），强交互（turn- taking频繁）的特点。

实时语音对话的挑战：

对话：从文本驱动到语音语义驱动

缺少针对性的算法模型，基于在线QA构建的问答模型对口语化的语料适配性差，影响NLU准确性
语音和语义模块割裂，NLU/DM仅能基于ASR的结果进行处理，丢失语音模态信息，同时ASR带来误差传播
语音控制能力简单，基于固定VAD时长的收音断句、原子化的放音无法满足精细化的双工控制。
无法对用户的全部turn-taking行为进行响应，造成“高延迟、弱交互”的用户体感，进一步会影响对话完成率

2.语音特色的文本驱动对话

面向ASR的SLU
场景：口语化订单匹配

热线采用基于自然语言描述的方式来进行订单的确认；
由于方言口音、噪声、和领域专有名词的影响，ASR结果包含一定比例的错误；
由于关键信息（品类、品牌、修饰词）的错误，导致无法匹配到正确的订单。

ASR-Robust SLU

ASR-Robust SLU：WCN

ASR-Robust SLU 结果：

语音情绪检测
背景：

热线呼入：用户一般不会对机器人进行辱骂，因此在文字上体现的负面情绪case不多（约10%），因而我们需要对用户在沟通中的语气语调中，呈现出的焦急、不耐烦等情绪需要进行针对性的识别的应对。
热线人工质检：热线质检一般是针对人工小二的服务红线，一般来讲人工小二直接辱骂客户的情况是很少的，我们同样需要对人工服务中的语气和异常情绪进行检测。

挑战：

数据质量差：学术界现有音频情绪数据集（IEMOCAP、RAVDESS、CASIA）基本采用表演方式收集，表演痕迹重，和真实讲话有很大差异。
标注和建模方式不合理：目前主流语音情绪标注采用分类打标（委屈、恐惧、着急、失望、愤怒、辱骂、感谢等），仅仅通过语音难以区分上述场景，导致打标主观性极强，一致率低。

方案：

采用真实录音进行标注，通过上下文对话筛选出疑似含有情绪的候选，通过多位众包投票方式打标，根据标注方差过滤噪音样本。
结合业务场景，仅针对负面情绪强弱进行分数标注。模型采用回归式的训练方式，降低噪声影响。

口语化表达

语音特色的文本驱动对话

语音语义驱动的双工对话
双工对话定义：

双工对话的特点：

语音对话对通信双方具有独占性 -> 响应时延敏感。
基于语音的信息传递具有持续性、非瞬时、非原子 -> 边听边想、边想边说。
不完全博弈，通话双方并不准确的知道对方下一刻要做什么 -> 误判。

双工对话决策：

双工对话的表示：

双工：更短的响应时长

人际对话的特点：

边听边想：接受对方语音输入的同时进行理解和回答的构思。
边想边说：构思回答语言的同时，一边逐步的将回答讲出（有时还会加入一些承接语气）。

边听边想：

利用Micro-turn，基于当前接收到的用户表述，提前理解并生成答案及TTS。
核心技术：提前理解播放策略、语义完整性模型、语义差异性模型。

边想边说：

利用Micro-turn，在声音停止较短时间内直接判断当前是否句尾，并且在生成最终的答案之前先播放一个符合上下文的简短承接语。
核心技术：多模态句尾检测模型、承接策略模型。

双工：语义化打断

语义化打断：

在重叠发声的情况下，判断用户是否有意的打断当前对话，并且提前结束播音。
常见的打断场景：提前回答当前问题、补充前一轮的回复、无意义的回答、
双工状态特征：当前TTS的已经播放的时长、当前Query距离前一轮的时长等等。
核心技术：语义化打断模型，双工状态相关的打断策略。

双工：交互式数字收集
背景：

对于一些复杂信息且精度要求较高的槽位（例如长数字、复杂地址、精确时间等），通常难以通过单轮对话完成（即使能完成，体验也很差）。
需要快速的多轮交互，turn-based无法满足。
以数字为例，会存在表述多样性（如“幺三个零”或 “一千”），修改澄清（“幺三五，哦不对幺三六”），表述含糊（“幺零零零零”）等难点。

技术方案：

基于单链路的Duplex DM，仅依赖micro-turn作为输入，输出完整的对话策略。
针对长数字收集的优化：数字意图识别、数字改写、micro-turn DST & Decoder。
端到端优化学习。
相比按键式交互，收集完成率提高20%以上。

总结：