NLP基础—3.文本表示

文章目录

引言
一、词袋模型—Bag of Words
二、文本相似度计算
三、词嵌入
四、句子表示

引言

文本是一类非常重要的结构化数据，如何表示文本数据是机器学习领域的一个重要研究方向。文本表示的核心在于将文本表示成后续算法可以使用的特征向量。

一、词袋模型—Bag of Words

在介绍词袋模型前，我们先引入词集模型。词集模型是指基于词典的句子的one-hot编码。词集模型只能统计这句话是否出现过这个词，而不能记录词之间的顺序，词出现的个数。因此，在词集模型的基础上出现了词袋模型。
词袋模型是最基础的文本表示模型。词袋模型是将每篇文章看成一袋子词，并忽略每个词出现的顺序。具体来说，就是将整段文本以词为单位切分开，然后每篇文章可以表示成一个长向量，向量中的每一维代表一个单词，而该维对应的权重则反映这个词在原文章中的重要程度。常用TF-IDF来计算权重，公式为：
$T F - I D F (t, d) = T F (t, d) \times I D F (t)$
其中， $T F (t, d)$ 为单词 $t$ 在文档 $d$ 中出现的频率； $I D F (t)$ 是逆文档频率，用来衡量单词 $t$ 对表达语义所起的重要性，表示为
$IDF(t)=logNN(w)+1IDF(t)=log\frac{N}{N(w)+1}$
其中，N表示语料库中的文章总数，N(w)表示词语w出现在多少个文档中
逆文档频率最直观的解释是：如果一个单词在非常多的文章里面出现，那么它很可能是一个通用词汇，对于区分某篇文章特殊语义的贡献越小，因此对权重做一定惩罚。

二、文本相似度计算

如何计算句子之间的相似复杂度？有如下指标：余弦相似度（两个向量夹角的余弦），欧式距离，Minkowski距离。
余弦相似度： $cos(A,B)=A∗B∣∣A∣∣2∣∣B∣∣2cos(A,B)=\frac{A*B}{||A||_2||B||_2}$

余弦相似度可以用于分析两个特征向量之间的相似性，在文本、图像、视频等领域，研究的对象的特征维度往往很高，余弦相似度在高维的情况下依然保持“相同时为1，正交时为0，相反时为-1”的性质，而欧式距离的数值则受维度的影响，范围不固定，并且含义也比较模糊。

欧式距离： $d=∑i=1n(xi−yi)2d=\sqrt{\sum_{i=1}^{n}(x_i-y_i)^2}$

Minkowski距离：

d=(∑i=1n∣xi−yi∣p)1pd=(\sum_{i=1}^{n}|x_i-y_i|^p)^{\frac{1}{p}}

当p=1时，为曼哈顿距离
当p=2时，为欧式距离
当p=∞时，为切比雪夫距离

三、词嵌入

词嵌入是在原来基于字典的词独热编码的一种改进。核心思想是将每个词映射成低维空间上的一个稠密向量。K维空间的每一维也可以看作是一个隐含的主题，只不过不像主题模型中的主题那样直观。
由于词嵌入将每个词映射成一个K维向量，如果一篇文档有N个词，就可以用一个N×K维的矩阵来表示这篇文档，但是这样的表示过于底层，在实际应用当中，如果仅仅把这个矩阵作为原文本的表示特征输入到机器学习模型中，通常难以得到令人满意的效果。因此，还需要在此基础上加工出更高层的特征。深度学习模型正好提供一种自动进行特征工程的方式，模型的每个隐层都可以对应着不同抽象层次的特征。
目前谷歌2013年提出的Word2Vec是目前最常用的词嵌入模型之一。Word2Vec实际上是一种浅层的神经网络，它有两种网络结构，分别是CBOW和Skip-gram。

CBOW是预测中间单词，skip-gram是预测上下文。

nlp领域并不存在空穴来风的word embedding，实际上也是一种one-hot，在one-hot基础上进行全连接进而得到word embedding。

四、句子表示

句子表示方式分为以下几种：

对齐的字符序列
依靠非常严格的字符串对齐，找到两段文本的相似性度量方式，这种相似性度量方式是编辑距离
非对齐的词向量平均
句子级别的embedding

严格对齐与非对齐的区别在于非对齐计算的是同义词之间的相似性；句子级别的embedding指的是抛弃单词级别的表示。

句子的编码方式：

one-hot编码
这是传统机器学习的方式。特点：稀疏表示、词表空间；英文中常见单词有3万，其ont-hot编码可以表示为：

ont-hot编码后可以表示句子中是否存在单词，但并不能表示每个单词的重要性，就演变出词袋模型，以TF-IDF来表示单词的重要性
词袋模型
词袋模型是最基础的文本表示模型。词袋模型是将每篇文章看成一袋子词，并忽略每个词出现的顺序。具体来说，就是将整段文本以词为单位切分开，然后每篇文章可以表示成一个长向量，向量中的每一维代表一个单词，而该维对应的权重则反映这个词在原文章中的重要程度。常用TF-IDF来计算权重，公式为：
$T F - I D F (t, d) = T F (t, d) \times I D F (t)$
其中， $T F (t, d)$ 为单词 $t$ 在文档 $d$ 中出现的频率； $I D F (t)$ 是逆文档频率，用来衡量单词 $t$ 对表达语义所起的重要性，表示为
$IDF(t)=logNN(w)+1IDF(t)=log\frac{N}{N(w)+1}$
其中，N表示语料库中的文章总数，N(w)表示词语w出现在多少个文档中
逆文档频率最直观的解释是：如果一个单词在非常多的文章里面出现，那么它很可能是一个通用词汇，对于区分某篇文章特殊语义的贡献越小，因此对权重做一定惩罚。

ont-hot模型与词袋模型是从原始的词表出发，构造加权方式，还是手动构造特征的方式；深度学习开辟了通过算法来学到特征的方式，有AR（自编码）与AE（自回归）两种方式。

自回归AR

典型的AR模型有RNN,LSTM,GRU，自回归模型是依靠历史信息监督当前信息，在这些深度模型的最后一层会有隐向量，可以得到词向量的深度表示。
自编码AE

自回归模型是依靠历史信息监督当前信息

深度学习编码：AR/AE ——> Word2Vec(CBOW和Skip-gram) ——> ELMo
seq2seq ——> transformer
seq2seq ——>GPT ——>BERT(终点)

如果对您有帮助，麻烦点赞关注，这真的对我很重要！！！如果需要互关，请评论或者私信！