语音识别中输入输出的可能形式有哪些

序，语音信号的前处理

1，语音数据如何转化为features?

拿到10ms的语音数据后，常会利用一定大小的window将语音数据切分成若干份（在语音识别中，由window生成的一份语音片段被称为frame)，每份语音片段在通过特定的数据转换方式（如：MFCC) 转成 feature，最后在所有这些转化后的features拼接起来作为最终输入model 的 input。
需要注意的是，window在移动时，其移动步长常小于 length of window，因此，有window切分的语音片段，其信息大量冗余，这也在一定程度上加快了数据的处理速度。

2，语音数据的标注方法

给定一个语音片段，直接将其内容转为文本信息，据此，获得一个 train sample。

一，语音识别模型的输入类型

1，直接将语音信号转为数值作为 model 的 feature 输入模型
2，在 deeplearning 流行以前，常将 MFCC 作为 model 的 feature 输入模型，其dimension为39
3，deeplearning 得到极大发展以后，常将 filter bank output 作为 model 的 feature 输入模型，其dimension为80

由原始语音信号到 filter bank 到最复杂的feature MFCC 的转化过程如下：

二，语音识别模型的输出类型

1，Phoneme：a unit of sound , 比英文英标还要小的单位

使用Phoneme作为output，需要额外建立一个词典，将 word 和 phoneme 对应起来，从而能根据输出的 Phonemes 得到对应的 word。
值得一提的是，phoneme 需要语言学的知识，phoneme词典并没有统一的规定，因此，不同的学者产生的词典不一，在使用过程中难以统一。

2，Grapheme：smallest unit of a writing system

以英文为例，其组成单元为：26个英文字母，空格，标点符号。以中文为例，其组成单元为方块字。
Grapheme存在的一个问题是：同音不同字，以英文为例，发音为/k/的字母可能为 c 也可能为 k，需要model 有很强的辨识能力才能准确辩时出来。
其优点在于，grapheme无需创建词典，只需将output串起来即可得到词。

3，word

对于英文来讲，由于不同的词之间会以空格分开，因此，分词很easy，但是，在外文中，word是可以被创造的，这也意味着 vocabulary 可能需要无限延长。
对于中文来讲，词之间没有明显的分割标志，outputs 还需近一些分词工具才能得到分词结果。

4，Morpheme：the smallest meaningful unit，在英文里，grapheme < morpheme <word。

举例说明：
unbreakable 可以由3个morpheme组成：un , break, able
rekillable 可以由3个morpheme组成：re, kill, able
Morpheme可以通过2种方式获得：
1）由语言学家给出；
2）通过统计的方式，将那些高频出现的 pattern 作为 morpheme，但是，这种结果搜集的morpheme势必会含有一些噪音。

5，Bytes：可以使用 bytes作为输出，最后将所有bytes串起来，对应到相应的vocabulary 去转为 word。

由于在计算机中，无论是中文，英文，还是其他外文，都对应着一串 bytes sequence(utf8)，采用这种形式训练模型，可以实现真正的 language independent！

在2019年时，上述output使用情况如下表所示：

三，语音数据集