导读

在信息时代,自动语音识别技术 (Automatic Speech Recognition, ASR) 已成为互联网领域一大典型应用,尤其是在智能手机等设备上,语音识别功能已经成为标配。同时,该技术本身还经常作为上游工具,为语音翻译、智能客服等服务提供支持。然而,现今主流的自动语音识别系统是把语音信号识别为无标点的文本块,而这种无标点的本文块往往不能有效地被下游系统利用,由此,标点恢复(punctuation restoration) 任务应运而生,旨在恢复语音识别系统输出文本的标点符号。

今天为大家介绍一篇收录于 ICASSP 2022 的论文:Unified Multimodal Punctuation Restoration Framework for Mixed-Modality Corpus,由字节跳动人工智能实验室完成。本论文提出了一套适用于标点恢复的多模态框架 UniPunc:一方面,新框架可以使用语音信息辅助标点恢复;另一方面,UniPunc 又避免了以往多模态标点恢复模型过分依赖语音信息、无法处理语音缺失文本的困境。

论文链接:https://arxiv.org/abs/2202.00468
代码链接:https://github.com/Yaoming95/UniPunc

标点恢复:从单模态到多模态

以往的标点恢复模型可以分为单模态和多模态两类:简单而言,单模态模型仅依赖纯文本信息做标点恢复,而多模态模型会同时接受文本与其对应的语音信号,联合两种输入做标点恢复。

两类标点恢复模型各自面临一定的局限性:

对于单模态模型而言,由于人类语言天然带有歧义性,许多句子可能存在多种标点断句的方式,而不同的标点会带来大相径庭的句义——对此,英国作家琳恩·特拉斯曾举过一对生动的例子:panda eats shoots and leaves(熊猫吃嫩芽和叶片)与panda eats, shoots, and leaves(熊猫吃饭、开枪、并离开)。此外,由于不涉及语音信息,单模态模型时常无法获知说话人的情感态度,这会导致模型在一些句子末尾难以抉择以句号还是问号作为结束符。

图1:琳恩·特拉斯所举的标点歧义例句,她还基于这个生动的例子写作了一本畅销书[1]以引导公众对于标点符号的重视

对于多模态模型而言,线上应用有时会面临存储空间或隐私政策等限制,导致模型不能获取语音信息,进而无法提供标点恢复后的语句。此外,与单模态模型仅使用纯文本相比,多模态系统需要收集带有语音的句子作为训练语料,而这类语音句子的获取需要更大的人力成本,因此,多模态系统可用的训练资料相对更少。

使用一个框架联合单模态和多模态语句

UniPunc 论文作者提出了一套新框架,这套框架可以同时处理混合了单模态纯文本与多模态语音文本的语料,并同时为两种语句恢复标点。具体地,该框架可以拆分为三大部分:文本编码器、声学助理器和模态融合器。图2 展示了其总架构。

图2:UniPunc 总架构

:::

文本编码器把无标点的文本句子的信息编码成句嵌入向量,并将其作为文本特征输出给下游的模块。本文作者使用了目前流行的 BERT 预训练模型[2]作为文本编码器的主干。

声学助理器则会按照句子是否带有语音信息来提供不同的音频特征。对于有音频的句子,声学助理器会通过预训练的音频表征模型[3]将其转换为神经网络可以输入的特征编码,同时,考虑到音频的长度(通常每秒16000-40000个采样点)往往远长于文本语句(通常每秒1-3词),作者还引入了一个下采样网络缩短音频特征;对于无音频的纯文本,作者则引入了一个虚拟嵌入机制来模拟其特征。

模态融合器则来完成跨模态融合,将文本特征和音频特征融合为混合特征以供下游的分类器进行标点分类。具体地,作者利用了类注意力机制的网络结构,分别引入了自注意力和交叉注意力的子网络,其中自注意力子网络用来进一步提取文本特征,交叉注意力子网络用于融合文本特征和音频特征。根据注意力网络的性质,二者输出的特征矩阵大小相同,作者对其做了加和操作。值得一提的是,模态融合器和其他类注意力机制的网络一样,可以叠加多层以加强网络效果。

在两类模态下都可以提升性能

作者在 MUST-C [4]和 Multilingual TEDx [5]两个真实环境的语音语料库上进行了实验,二者的语音及文本都来源于TED演讲集。为了分别体现 UniPunc 在单模态、多模态场景下的性能,作者利用语音语料库分别构建了两个新的数据集,分别称为 English-Audio 和 English-Mix ,其中前者所有语句包含音频,而后者的则是混合了音频语句和无音频文本。

论文选取了多个单模态(如BERT,SAPR[6]),多模态 (如MuSe[7]、TTS数据增强[8]) 的SOTA模型作为实验的比较基线,其中多模态模型仅在 English-Audio 数据集上进行训练,因为它们不支持纯文本的处理,单模态模型则在两种数据集上进行实验作为基线结果。

作者在多模态数据集 English-Audio 和混合模态数据集 English-Mix 下训练了两套 UniPunc 模型,分别记作 UniPunc-Audio 和 UniPunc-Mix ,以方便和单模态基线、多模态基线做全面对比。论文采用了句号、逗号、问号三种标点恢复的准确率、召回率以及F1分数作为评价指标。下图展示了作者的实验结果:

图3:UniPunc主实验结果

:::

主要结论有以下三点:

  1. UniPunc-Mix 能取得最后的标点恢复效果,证明了新框架的有效性;

  2. 在不引入单模态数据的情况下,仅使用 English-Audio 训练的 UniPunc-Audio 也在性能上超越了SOTA多模态基线;

  3. 在有音频的测试数据上,UniPunc-Mix 的效果略好于 UniPunc-Audio,作者调查发现,加入的单模态纯文本主要提升了 UniPunc-Mix 标点恢复的召回率。

作者还使用论述了 UniPunc 框架具有一定的普适性:通过把 UniPunc框架嫁接到传统的单模态基线 BiLSTM 上,或者是把它和 contextual dropout 方法[9]联合使用,它都可以继续提升原模型或者原方法的性能:

图4:UniPunc普适性实验结果

:::

总结

今天介绍的 ICASSP 2022 论文引入了一种新的多模态标点恢复框架 UniPunc,与传统的标点恢复模型相比,UniPunc 结合了单模态模型和多模态模型的优点,且可以在混合模态的数据上进行训练和推理。

作者在来源TED演讲集的数据上进行了实验,证明了 UniPunc 的性能优势,以及它对混合模态数据处理的普适性。

参考文献

[1]Truss, Lynne. Eats, shoots & leaves: The zero tolerance approach to punctuation. Penguin, 2004.

[2]Kenton, Jacob Devlin Ming-Wei Chang, and Lee Kristina Toutanova. “BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding.” In NAACL-HLT 2019.

[3]Baevski, Alexei, et al. “wav2vec 2.0: A framework for self-supervised learning of speech representations.” In NeurIPS 2020.

[4] Cattoni, Roldano, et al. “MuST-C: A multilingual corpus for end-to-end speech translation.” Computer Speech & Language 2021.

[5] Salesky, Elizabeth, et al. “The Multilingual TEDx Corpus for Speech Recognition and Translation.” In Interspeech 2021.

[6] Wang, Feng, et al. “Self-attention based network for punctuation restoration.” In ICPR, 2018.

[7] Sunkara, Monica, et al. “Multimodal Semi-Supervised Learning Framework for Punctuation Prediction in Conversational Speech.” In Interspeech 2020.

[8] Soboleva, Daria, et al. “Replacing human audio with synthetic audio for on-device unspoken punctuation prediction.” In ICASSP 2021.

[9] Silva, Andrew, Barry-John Theobald, and Nicholas Apostoloff. “Multimodal Punctuation Prediction with Contextual Dropout.” In ICASSP 2021.

-The End-

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门-TechBeat技术社区(https://datayi.cn/w/GR4vQ82o)以及将门创投基金。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

ICASSP 2022 | 标点恢复——一套可以同时服务单模态和多模态文本的标点恢复框架相关推荐

  1. 用友t3服务器文件丢失,用友T3软件在T3用友通标准版恢复账套时在备份的文件中找不到要恢复的文件,如何解决?-用友T3...

    文章摘要:用友T3软件在T3用友通标准版恢复账套时在备份的文件中找不到要恢复的文件,如何解决?在T3用友通标准版恢复账套时在备份的文件中找不到要恢复的文件,如何解决? 问题模块: 系统管理关键字:备份 ...

  2. 服务器备份还原找不到文件在哪,在T3用友通标准版恢复账套时在备份的文件中找不到要恢复的文件...

    用友T3软件10.1升级后提示科目行业性质不符10.1升级后提示科目行业性质不符 10.1升级后提示科目行业性质不符原因分析:经查看客户数据库,发现code表中存在资产.负债.权益.成本.费用原新会计 ...

  3. ICASSP 2022 | 前沿音视频成果分享:基于可变形卷积的压缩视频质量增强网络

    阿里云视频云视频编码与增强技术团队最新研究成果论文<基于可变形卷积的压缩视频质量增强网络>(Deformable Convolution Dense Network for Compres ...

  4. 网易云信AI音频最新研究成果获世界顶级学术会议 ICASSP 2022 认可

    近日,全球顶级音频技术会议 ICASSP 2022 公布了论文入选名单.网易云信音频实验室论文--<一种针对实时通信的基于神经网络的啸叫检测方法>(A Neural Network-bas ...

  5. ICASSP 2022 语音合成和语音识别简报

    语音合成领域统计列表请访问http://yqli.tech/page/tts_paper.html,语音识别领域论文统计请访问http://yqli.tech/page/asr_paper.html. ...

  6. 语音识别(ASR)论文优选:Icassp 2022 M2MeT方案总结

    声明:平时看些文章做些笔记分享出来,文章中难免存在错误的地方,还望大家海涵.搜集一些资料,方便查阅学习:http://yqli.tech/page/speech.html.语音合成领域论文列表请访问h ...

  7. (2022版)一套教程搞定k8s安装到实战 | Ingress

    视频来源:B站<(2022版)最新.最全.最详细的Kubernetes(K8s)教程,从K8s安装到实战一套搞定> 一边学习一边整理老师的课程内容及试验笔记,并与大家分享,侵权即删,谢谢支 ...

  8. 语音顶会 ICASSP 2022 成果分享:基于时频感知域模型的单通道语音增强算法

    近日,阿里云视频云音频技术团队与新加坡国立大学李海洲教授团队合作论文 <基于时频感知域模型的单通道语音增强算法 >(Time-Frequency Attention for Monaura ...

  9. ICASSP 2022 | 腾讯AI Lab解读14篇入选论文

    感谢阅读腾讯AI Lab微信号第146篇文章.本文介绍腾讯 AI Lab 入选 ICASSP 2022 的 14 篇论文. ICASSP (International Conference on Ac ...

最新文章

  1. Linux学习建议 学习测试环境标准化配置
  2. c语言结构体中整形数组初始化,c – 将{0,0}在结构体中初始化数组?
  3. [导入]更新:让UpdatePanel支持上传文件
  4. c语言 long 用法,C语言中long long的用法
  5. windows 2008 安装 apache + mysql + php
  6. heartbeat如何监控程序_一文看懂MyCAT 命令行监控命令,监控调优必备
  7. Mysql 索引问题-日期索引使用
  8. 中国ERP软件发展趋势
  9. 三个下载原版Windows镜像的方法
  10. php微信公众号登录
  11. java ssm商城_SSM网上购物商城系统
  12. dct变换编码研究课设实验报告_信息隐藏实验3
  13. 学习总结:Handler机制
  14. 测试之smart原则
  15. 同时存在有编号和无编号脚注(latex, footnote)
  16. Python绘制3D立体花
  17. 无需写代码,又一个数据动态图制作利器
  18. UVa 1618 弱键(Weak Key)
  19. layui 前端计算
  20. 关于开源软件的几个看法

热门文章

  1. python会使电脑变卡吗_用 Python 把电脑变钢琴
  2. ecm titanium_如何使用Titanium Backup备份和还原Android手机
  3. Softing echocollect e:连接OT和IT的多协议工业网关
  4. 基于LaTeX-OCR公式转换工具的安装与使用
  5. linux挂载光盘的命令,Linux系统下挂载光盘的教程
  6. HarmonyOS修改App图标的方法
  7. ThreeJS教程:地图案例(包围盒、正投影)
  8. HDMI_CECARC
  9. Html5 新特性——拖放、文件上传
  10. procast的linux安装教程,ProCAST2019免费版