研究背景

随着网络科技的不断进步，短视频的个性化推荐，会议的录音记录等相关的音频信息在我们的生活中扮演着越来越重要的作用。如何能在海量的语音信息中，准确的进行语音信息的分类和定位，从而减少我们获取信息的时间变得尤为重要。因而语音主题分类(Speech Topic Classification, STC)快速发展。

本文方案

目前常见的语音主题分类系统由两部分级联而成，先由自动语音识别(Automatic Speech Recognition, ASR)将语音转换成文本，再通过自然语言处理进行文本主题分类。大多数存在错误传播和全局结构缺失等问题。所以在本文中，我们提出了一种基于预训练模型和图网络的端到端新型框架。使用预训练模型提取顺序上下文的语义特征代替声学特征，并且与图网络构建的会话语境的全局特征相结合在Fisher数据集上取得了良好的效果。

图1 模型框架主要有三个部分构成：预训练特征提取层，图表示层和分类层

预训练特征提取层

由于前人的研究大多是基于语音的声学特征，然而声学特征只能够捕捉到很短时间内的局部时频信息，对于像语音主题分类这类需要理解长时间语音信息的研究存在缺陷。所以我们采用预训练模型提取具有顺序结构的高维语义特征代替声学特征。使用的是目前流行的三个预训练模型：HuBERT[1]、wav2vec2.0[2]和WavLM[3]。

图表示层

我们提出了会话语境的概念，将高维语义特征构造成图数据结构。主要从三个方面构建图表示层：一是中心节点的选择；二是感受域的大小；三是处理邻居节点的特征。首先将语义向量转化成话语向量构造成节点，其次对中心节点采用上下文滑动窗口构建边，最后通过注意力机制给与中心节点特征相识度高的邻居节点分配更大的权重使它们在空间上更聚合。最后通过图卷积神经网络[4]提取全局特征。

分类层

将通过预训练模型提取的顺序上下文的语义特征和通过图网络学习的会话语境的全局特征相结合进行分类。

实验结果分析

实验使用了Fisher数据集对上述模型方案展开训练和测试，表1列出了对比的级联形式的模型，表2列出了端到端形式的模型。

表1 不同级联形式的表现

表2 不同端到端形式的表现

通过对比可知我们提出的方法优于使用WeNet[5]转录的文本通过TFIDF+SVM的级联形式方法，也优于其他的端到端方法。同时WavlmGCN接近于真实文本分类效果（94.01%）。由此可见端到端形式的分类在一定程度上缓解了ASR的转录错误对后续分类造成的影响。同时在对长时间的语音文档理解时，既需要关注局部的顺序语义特征又需要关注会话语境的全局特征，从而使语音主题分类达到更好的效果。

小结

我们通过将预训练模型提取的具有顺序结构的语义特征和图网络提取的会话语境的全局特征相结合在语音主题分类上得到了良好的效果。据了解在该领域，我们是第一个提出会话语境的概念并且使用图网络来构建语音中这种非连续的全局结构。在以后的研究中我们将通过对语音结构信息更深入的挖掘，在语音主题分类上达到甚至超过真实文本的分类效果。

参考文献

[1]Wei-Ning Hsu, Yao-Hung Hubert Tsai, Benjamin Bolte, Ruslan Salakhutdinov, and Abdelrahman Mohamed, “Hubert: How much can a bad teacher benefit asr pre-training?,” in ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2021, pp. 6533–6537.

[2]Alexei Baevski, Yuhao Zhou, Abdelrahman Mohamed, and Michael Auli, “wav2vec 2.0: A framework for self-supervised learning of speech representations,” in Advances in Neural Information Processing Systems, H. Larochelle, M. Ranzato, R. Hadsell, M.F. Balcan, and H. Lin, Eds. 2020, vol. 33, pp. 12449–12460, Curran Associates, Inc.

[3]Sanyuan Chen, Chengyi Wang, Zhengyang Chen, Yu Wu, Shujie Liu, Zhuo Chen, Jinyu Li, Naoyuki Kanda, Takuya Yoshioka, Xiong Xiao, Jian Wu, Long Zhou, Shuo Ren, Yanmin Qian, Yao Qian, Jian Wu, Michael Zeng, Xiangzhan Yu, and Furu Wei, “Wavlm: Large-scale self-supervised pre-training for full stack speech processing,” IEEE Journal of Selected Topics in Signal Processing, vol. 16, no. 6, pp. 1505–1518, 2022.

[4]Christopher Morris, Martin Ritzert, Matthias Fey, William L Hamilton, Jan Eric Lenssen, Gaurav Rattan, and Martin Grohe, “Weisfeiler and leman go neural: Higher-order graph neural networks,” in Proceedings of the AAAI conference on artificial intelligence, 2019, vol. 33, pp. 4602–4609.

[5]Binbin Zhang, Di Wu, Chao Yang, Xiaoyu Chen, Zhendong Peng, Xiangming Wang, Zhuoyuan Yao, Xiong Wang, Fan Yu, Lei Xie, and Xin Lei, “Wenet: Production first and production ready end-to-end speech recognition toolkit,” CoRR, vol. abs/2102.01547, 2021.

IEEE ICME 2023论文|基于预训练和图网络的语音主题分类相关推荐

【文本分类】基于预训练语言模型的BERT-CNN多层级专利分类研究
·阅读摘要: 本文利用BERT的预训练数据,结合CNN,应用于专利分类.由于专利的特性,本文还提出使用多层级方法来增强模型.(文章发表在<中文信息学报>,核心期刊) ·参考文献: ...
【论文写作分析】之三《基于预训练语言模型的案件要素识别方法》
[1] 参考论文信息论文名称:<基于预训练语言模型的案件要素识别方法> 发布期刊:<中文信息学报> 期刊信息:CSCD 论文写作分析摘要:本文非常典型.首先网 ...
微软最新论文解读 | 基于预训练自然语言生成的文本摘要方法
作者丨张浩宇学校丨国防科技大学计算机学院研究方向丨自然语言生成.知识图谱问答本文解读的是一篇由国防科技大学与微软亚洲研究院共同完成的工作,文中提出一种基于预训练模型的自然语言生成方法. 摘要在 ...
NeurIPS 2022 | 清华提出P2P：基于预训练图像模型的点到像素提示学习方法
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达点击进入-> CV 微信技术交流群在这里和大家分享一下我们被NeurIPS 2022录用的点云理解工 ...
【NLP】bert4vec：一个基于预训练的句向量生成工具
一个基于预训练的句向量生成工具 bert4vec: https://github.com/zejunwang1/bert4vec 环境 transformers>=4.6.0,<5.0 ...
基于预训练语言模型的检索- 匹配式知识图谱问答系统
基于预训练语言模型的检索- 匹配式知识图谱问答系统张鸿志 , 李如寐,王思睿,黄江华美团, 北京市朝阳区 100020 {zhanghongzhi03,lirumei,wangsirui,huan ...
阿里达摩院 | 基于预训练语言模型的行业搜索
作者|谢朋峻阿里巴巴达摩院整理|DataFunTalk 大家好,这里是NewBeeNLP.本文将分享行业搜索的相关技术和应用,主要包括三大部分: 行业搜索的背景相关技术研究行业搜索应用 01 ...
基于预训练词向量的文本相似度计算-word2vec, paddle
文章目录 0. 前言 1. 余弦相似度算子 2. 示例代码并验证 3. 基于词向量的文本相似度 3.1 读取word2vec文件 3.2 定义模型 3.3 运行模型 3.4 根据分数降序排列 3.5 ...
基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践
基于朴素贝叶斯和预训练Bert模型的中文句子情感分类实践 1.任务介绍本次实践选题为AI研习社2019年9月份举办的中文对话情感分析任务,并在原任务基础上进行了拓展.任务首先给定一中文语句数据集 ...

IEEE ICME 2023论文|基于预训练和图网络的语音主题分类

研究背景

本文方案

实验结果分析

小结

参考文献

IEEE ICME 2023论文|基于预训练和图网络的语音主题分类相关推荐

最新文章

热门文章