作者:张庆林、陈谦、刘嘉庆、王雯、邓憧

数智化浪潮下,越来越多的企业开始将现代信息网络作为数据资源的主要载体,并通过网络通信技术进行数据传输;网络作为主要的信息交流和分享的方式,海量不同源的网络信息,使得企业与个人消化信息的成本越来越高。音视频数据作为其中重要的信息来源之一,也随着远程视频会议、在线课堂、直播教学、电话销售等领域有了爆炸性的增长。

为了帮助用户提升信息获取及信息加工的效率,阿里巴巴达摩院语音实验室的口语语言处理团队实践了一系列针对音视频转写结果的长文本语义理解能力。

本文主要围绕其中的信息结构化段落分割相关能力进行介绍。

▎研究背景

随着在线教学、会议等技术的扩展,口语文档的数量以会议记录、讲座、采访等形式不断增加。然而,经过自动语音识别(ASR)系统生成的长篇章口语文字记录缺乏段落等结构化信息,会显著降低文本的可读性,十分影响用户的阅读和信息获取效率。

此外,缺乏结构化分割信息对于语音转写稿下游自然语言处理(NLP)任务的性能也有较大影响。比如文本摘要和机器阅读理解之类的下游 NLP 应用通常在带有段落分割、格式良好的文本上进行训练和使用才能保证较好的效果和用户体验。

图一  未分段ASR输出文本和分段之后的结果展示

段落或章节通常指语义连贯的子文档单元,通常对应单篇文章内的单一主题或子主题文本片段。文档分割被定义为自动预测文档的段(段落或章节)边界。已有的文档分割工作主要集中在书面文本上,主要包括无监督和有监督两大类方法。

近年来,诸多研究者提出了许多基于神经网络的文本分割算法。比如,当前文本分割的 state of the art (SOTA) 是 Lukasik 等[1]提出的基于 BERT 的 cross-segment 模型,将文本分割定义为逐句的文本分类任务。同时,他们也提出使用两个 BERT 模型分别编码句子和文档,从而利用更长上下文的分层 BERT 模型 (Hier.BERT)。

然而,文档分割是一个强依赖长文本篇章信息的任务,逐句分类模型在利用长文本的语义信息时,容易面临模型性能的阻碍。而层次模型也存在计算量大,推理速度慢等问题。

我们的目标是探索如何有效利用足够的上下文信息以进行准确分割以及在高效推理效率之间找到良好的平衡。此外,针对口语 ASR 转写稿的数据特性,比如 ASR 识别错误等,我们也进行了一部分针对性优化的工作。接下来,将主要从三个方面展开描述我们的工作,分别是方法介绍、实验结果和分析以及总结展望。

▎研究方法

No.1 基于句级序列标注的文本分割模型

图二 SeqModel 模型结构

我们提出的 SeqModel 模型[2]将文档分割建模为句子级序列标记任务。该模型结构如图二所示。

首先对输入文档进行分句,每个句子通过分词器分词并添加一个特殊标记。分割后的字符序列通过输入表示获得字向量,并与位置向量和段向量进行元素求和获取最终的字符表征。紧接着,将该字符表征输入到 BERT 编码器,并将编码器输出的字符表征映射到每个句子,对应于每个句子的 k 个字符输出表征通过均值池化操作来获得最终的句子表征。最后,每个句子编码通过输出层以及 softmax 层映射,从而分类每个句子是否是段落边界。该模型的训练目标为最小化交叉熵损失。

相比 cross-segment 模型,我们的 SeqModel 可以同时处理更多句子,通过自注意力机制建模更长上下文和句子间的依赖关系。因此,在强依赖长文篇章信息的分段任务上,seqModel 建模更长文本的语义信息可以有效地提高分割精度。

此外,将分割任务建模为句级的长序列标注任务,可以同时对多个句子同时进行预测,有效提高了模型的推理速度,相比层次模型也有明显的效率优势。

No.2 基于自适应滑窗提升模型推理效率和性能

图三 自适应滑窗

为了进一步提升模型的推理效率和效果,我们还提出了一种自适应滑动窗口方法[2],该方法可以在不降低模型效果的基础上进一步加快推理速度,如图三所示。

以往的方法,在面对超过模型处理长度的超长文本输入时,通常用于使用固定步长的滑窗逻辑。然而固定步长的滑窗逻辑会极大地降低模型的推理效率,同时也会轻微影响模型的性能。

在我们提出的自适应滑动窗口方法中,模型前向推理时,从前一个窗口中的最后一句开始往前滑动,找到模型预测的分割点做为下一次模型预测推理的起始点(有最大步数约束)。

考虑到已有段落分割点的历史文本信息对下一个分割点预测的影响相对较小,这个策略有助于减少滑动窗口内不相关的文本信息对于分段点预测的影响。因此,自适应滑动窗口既可以加快推理速度,又可以提高分割精度。

No.3 结合发音信息的口语文本分割优化

在口语场景下,输入分割模型的文本通常是由 ASR 系统给出的转写稿。受限于 ASR 系统在某些场景下的识别效果问题,该转写稿经常存在较多的 ASR 错误,比如发音相似但含义不同的声学混淆词等。

为了提高存在 ASR 错误情况的文本分割性能,我们提出通过使用发音信息来增强文本分割模型输入的表征向量,从而提高文本分割模型在口语场景下的鲁棒性[2]。具体细节如图二中的输入嵌入层以及左侧放大的 “Phone Component“ 所示。

▎实验结果

No.1 实验数据和指标

我们主要使用三个数据集来验证我们方法的有效性,包括英文维基数据 (Wiki-727K)、中文维基数据 (Wiki-zh) 以及内部中文口语数据(包括多说话人口语数据 SD-zh-MP 和单说话人口语数据 SD-zh-SP)。

其中,由于学术界缺乏中文书面化文档段落分割的 benchmark, 我们参照英文维基段落分割数据集的构造方式,构造了中文维基段落分割数据集,并且公开发布[2]。

数据集的统计特性如表一所示,#S/doc 表示每篇文档的平均句子数。SLen 表示平均句长。#P/doc 表示每篇文档的平均段落数。#S/P表示每段的平均句子数。

表一   实验数据的统计特性

我们选择 positive precision、positive recall、 positive F1作为客观评价指标。

No.2 实验结果和分析

如表二、表三所示,相比每个表格里面第一组的基线模型,SeqModel 模型在中英文数据上都有着明显性能优势。同样的模型参数下,SeqModel 在英文数据集上有 F1 绝对提升 4.2 的性能优势;在中文维基数据上有 F1 绝对提升 4.3 的性能优势。

口语数据下,SeqModel 相比 cross-segment 模型相比有着更明显的性能优势,在单人数据和多人数据下,F1 绝对提升分别有 8.8 和 10.1。

表二 英文数据实验结果(SeqModel:XX 表示使用XX作为SeqModel 的预训练模型)

表三 中文数据实验结果一, SeqModel和Cross-segment 模型的性能对比

在中文数据上,我们探究发音信息对文本分割性能的影响,实验结果如表四所示。从表上我们可以看出,发音信息(+phone) 有助于提升文本分割任务的性能,提升在口语场景下文本分割模型的鲁棒性。

表四 中文数据实验结果二,发音信息对于文本分割性能的影响

自适应滑窗对文本分割模型性能的影响如图四所示。分割效果方面,如图四左图所示,固定滑窗的方法随着步数的增大,分割性能受到明显的负面影响;而自适应滑窗的方法由于可以减少已分割文本对未来预测的影响,性能随着步数的增大,反而有着轻微提升。

在运行效率方面,固定滑窗随着步数的增大,效率急剧下降,而自适应滑窗方法下,推理效率受到的影响很小。同时,相比 cross-segment 模型,结合自适应滑窗的 SeqModel 模型有着显著的效率优势(只需要不超过 cross-segment 模型1/6的运行耗时)。

此外,我们的中文模型还实验了融合中文词汇信息的 pooling 结构,将模型建模的粒度从字转变为词,降低序列中长度。该方法在模型效果基本无损下,可以进一步相对提升大约 30% 的运算效率。

图四 固定滑窗和自适应滑窗的效果(左)和效率(右)对比

Future work

在本文中,我们提出了一种结合自适应滑窗的文本分割序列模型。在准确性和推理延迟方面,我们的模型在基准数据集上都显著优于当前的 SOTA。同时,我们提出了一种结合发音信息的口语文本优化方法,显著提高了 ASR 下游口语文档的分割性能。

目前,文本段落分割模型已经落地在达摩院语音实验室的听悟及其相关的扩展产品中。未来,我们计划在长篇章文本建模和口语文本处理上进行更多的研究和探索。

Reference:

[1] Lukasik M ,  Dadachev B ,  Simes G , et al. Text Segmentation by Cross Segment Attention[J].  EMNLP 2020.

[2] Zhang Q ,  Chen Q ,  Li Y , et al. Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document Segmentation[J].  IEEE ASRU 2021.

长文本口语语义理解技术系列①:段落分割实践相关推荐

  1. AI时代的文本智能化利器:百度语义理解技术与平台文心ERNIE

    阅读原文:https://mp.weixin.qq.com/s/Efs1929lxXEv7C3Up72EVg 语言与知识技术,被归类为认知智能,一直是人工智能最热门的研究与应用领域. 9月15日,百度 ...

  2. 百度孙宇:百度语义理解技术ERNIE及其应用

    不到现场,照样看最干货的学术报告! 嗨,大家好.这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频--足 ...

  3. 基于知识图谱的语义理解技术及应用

    知识图谱构建.多领域数据集.相关资料 知识图谱在人工智能应用中的重要价值日益突显.百度构建了超大规模的通用知识图谱,并在搜索.推荐.智能交互等多项产品中广泛应用.同时,随着文本.语音.视觉等智能技术的 ...

  4. 百度黄正杰:知识增强图语义理解技术

    导读:本文的题目为知识增强图语义理解技术,主要介绍: 语义理解与图:预训练模型与外部知识 ERNIESage:百度语义图理解技术 知识增强预训练:隐式与显式知识表示 工业落地应用:案例介绍 01 语义 ...

  5. 百度“知识增强的跨模态语义理解技术”获国家技术发明奖

    11月3日,2020年度国家科学技术奖励大会在京举行,百度"知识增强的跨模态语义理解关键技术及应用"获国家技术发明二等奖. 该技术旨在通过构建大规模知识图谱,关联跨模态信息,通过知 ...

  6. 基于深度学习的语义理解技术在机器翻译中的应用

    作者:禅与计算机程序设计艺术 <基于深度学习的语义理解技术在机器翻译中的应用>技术博客文章 引言 1.1. 背景介绍 随着全球化的推进,跨语言交流需求日益增长,机器翻译技术应运而生.翻译技 ...

  7. 知识增强图语义理解技术

    公众号 系统之神与我同在 本文包含四个部分: 1.语义理解与图(预训练模型与外部知识) 2.ERNIESage(语义图理解技术) 3.知识增强预训练(隐式与显式知识表示) 4.工业应用落地(案例介绍) ...

  8. 百度咋做长文本去重(一分钟系列)--转

    2016-01-19 58沈剑 架构师之路 缘起: (1)原创不易,互联网抄袭成风,很多原创内容在网上被抄来抄去,改来改去 (2)百度的网页库非常大,爬虫如何判断一个新网页是否与网页库中已有的网页重复 ...

  9. 测试语义理解技术的四个维度

    我们氖星智能提出了语义理解的四个维度:差异性.同一性.模糊性.一致性. 差异性就是理解句子之间的细微差异.比如"这是我""这是我的",差了个"的&qu ...

最新文章

  1. 简单介绍CentOS6升级glibc操作步骤
  2. PHP常用函数及其注释
  3. 以后看下try,catch在C#下面的成本
  4. 基于FPGA的HDB3编译码器设计
  5. 文本检测算法新思路:基于区域重组的文本检测
  6. ORA-12514, TNS:listener does not currently know of service requested in connect descriptor
  7. 用CSS使DIV水平居中
  8. win11系统怎么样 Windows11系统好用吗
  9. python小项目(-)图片转字符画
  10. Struts原理、开发及项目实施
  11. 百货商场数字化会员营销 购物中心私域流量运营系统
  12. python制作日历_利用Python自动化生成明星定制日历!
  13. C语言作业-小学生测验
  14. html实现学生成绩等级划分,【小学生成绩等级】_小学生成绩等级评价制度
  15. 从专辑光盘中导出音乐文件
  16. 晨枫U盘维护工具V2.0 安装教程
  17. win10调节键盘灵敏度的方法
  18. Tiny4412裸机程序之代码在DDR SDRAM中运行
  19. 周易六十四卦——明夷卦
  20. 软件——Jira是什么

热门文章

  1. matlab中的代数环问题及其消除方法,Matlab中的代数环问题及其消除方法
  2. 红黄绿小灯泡标记实现
  3. 长微博工具-长微博生成器-新浪长微博-腾讯长微博-长微博转换器
  4. linux运行程序 -sh: ./xxxxx: not found 解决办法
  5. CPU GPU设计工作原理
  6. Unsupervised Learning of Visual Features by Contrasting Cluster Assignments(SwAV)---论文阅读笔记
  7. mysql8 rank_jfinal 用mysql8.0的rank函数报错
  8. 最实用的使用idea看源码的技巧
  9. mongoose http 源码解析(1)
  10. Opencv实现停车位识别