训练大规模语音数据集后的结果分析报告

训练语音识别后的结果分析，首先经过人工观测预测结果，很多的错来自同音不同字。个人分析原因就是训练集中该意思的词出现的多少会影响，输出的结果，比如ABCD 其中BC出现的次数比较少而和其同音不同意思的词出现的非常多虽然这个同音词word 的前后不是A和D 但是也会最先预测出这个词而不是BC 故而要解决这个问题就要增加该句话的出现次数而不是单独的增加这个词语数据的出现次数，其实这就相当于你的语感是一样的其实就是出现的次数导致的。

但是，同音不同意思的词语对于中文来说肯定不止一个，所以要均衡添加就要将数据集合进行同音词的句子全部的找出来进行同样的出现次数相同处理。可以采取语音变声加噪声，（也可以采取逐一mask这样有多少序列就有多少条本句内容，这也是bert为啥能结合上下文的一个原因）等一系列操作来增多同音不同意思的数量。这样的话在相同的音的时候，神经网络就不会采取词频多的先预测。而是根据上下文来判断。

其实这也说明了我的神经网络不是直接根据上下文去推断的，更加的依赖于整个数据集总结出来的特征，而不是每句输入特征来判断。这或者是目前神经网络一个巨大问题，就是解决问题的优先级不是从当前输入本身去推理，整个数据集输入特征去辅助。而是这个数据集输入的特征作为统一规则和标准来覆盖和压制每个个体。目前来看只有过拟合才会尊重个体数据。

总结：数据量大的同时也要均衡每个词甚至是每个字出现的次数。

除了上面的数据结构的方式，如何能从神经网络本身解决这个问题才是一劳永逸的方法，毕竟平衡那些数据会增算力消耗
不经济（像bert那样的变相增加数据数量，实在是不可取）

这样我们就需要让网络以当前输入为主要分析对象
网络么有学习到这个词和这个字是只有这句话才会使用。
如何不通过数据结构或者是增加数据只改变编码或者是网络结构来告诉网络
要有一层是表达这句话彼此固定性的关系。mask层，代替数据结构上的mask。
使用卷积按照序列方向一维度卷积卷积核大小从1到序列长度或者是一定长度。
将这么多层cat到一起输入到fc层 cat到主网络。这样有可能解决数据量的问题
但是同时也增加了层数消耗算力看来要守恒啊数据量和网络只能省一个

但是如果数据量少的话可采取加mask层

其实可能还有一点原因也能证明为什么词频要相同，这是是一个分类问题故而要也就是各个类别之间要均衡

训练大规模语音数据集后的结果分析报告相关推荐

使用freemarker生成的word office无法打开_如何制作出满意的Word式分析报告？
作为 Office 套件的核心程序, Word 提供了许多易于使用的文档创建工具,同时也提供了丰富的功能集供创建复杂的文档使用.但在具体场景应用中,把Word 作为一种展示性的分析报告就存在一些不足. ...
68款大规模机器学习数据集，涵盖CV、语音、NLP | 十年资源集
参加 2019 Python开发者日,请扫码咨询 ↑↑↑ 作者 | 琥珀出品 | AI科技大本营(ID:rgznai100) 此前营长为大家分享过不少机器学习相关数据集的资源,例如 Mozilla ...
keras笔记(4)-使用Keras训练大规模数据集
简介官方提供的.flow_from_directory(directory)函数可以读取并训练大规模训练数据,基本可以满足大部分需求,可以参考我的笔记.但是在有些场合下,需要自己读取大规模数据以及对 ...
基于文本和语音的双模态情感分析
作者 | 陆昱博士追一科技来源 | DataFunTalk 今天和大家分享的主题是基于文本和语音的双模态情感分析.大家可能会从自然语言处理的角度认为情感分析已经做得比较成熟了,缺少进一步研究的方向 ...
Google图嵌入工业界最新大招，高效解决训练大规模深度图卷积神经网络问题
导读:本文主要介绍Google发表在KDD 2019的图嵌入工业界最新论文,提出Cluster-GCN,高效解决工业界训练大规模深度图卷积神经网络问题,性能大幅提升基础上依靠可训练更深层网络达到SOT ...
CN-Celeb 无约束条件说话人识别的中文语音数据集
CN-Celeb 无约束条件说话人识别的中文语音数据集数据源:http://www.openslr.org/82/ 项目源:http://cslt.riit.tsinghua.edu.cn/medi ...
【论文笔记2】基于梯形面积估计的大规模网络异常检测几何面积分析新技术
Novel Geometric Area Analysis Technique for Anomaly Detection Using Trapezoidal Area Estimation on L ...
鸢尾花数据集、月亮数据集二分类可视化分析
鸢尾花数据集.月亮数据集二分类可视化分析目录鸢尾花数据集.月亮数据集二分类可视化分析一.线性LDA算法 1.LDA算法 2.鸢尾花数据集 2.月亮数据集二.K-Means算法 1.K-Mean ...
1400小时开源语音数据集，你想要都在这儿
整理 | 一一出品 | AI科技大本营(ID:rgznai100) 3 月 1 日,由 Mozilla 基金会发起的 Common Voice 项目,发布新版语音识别数据集,包括来自 42000 名 ...

训练大规模语音数据集后的结果分析报告

训练大规模语音数据集后的结果分析报告相关推荐

最新文章

热门文章