常见的语言表示模型（词嵌入、句表示、篇章表示）

语言表示方法大体上可以从两个维度进行区分。一个维度是按不同粒度进行划分，语言具有一定的层次结构，语言表示可以分为字、词、句子、篇章等不同粒度的表示。另一个维度是按表示形式进行划分，可以分为离散表示和连续表示两类。离散表示是将语言看成离散的符号，而将语言表示为连续空间中的一个点，包括分布式表示和分散式表示。
一、离散表示

1、词向量
一个词可以表示为One-Hot 向量（一维为1 其余维为0
的向量），也叫局部表示。离散表示的缺点是词与词之间没有距离的概念，这和事实不符。
一种改进的方法是基于聚类的词表示。其中一个经典的方法是Brown 聚类算法，该算法是一种层次化的聚类算法。在得到层次化结构的词类簇之后，我们可以用根节点到词之间的路径来表示该词。
2、句向量
有了词的表示之后，我们可以进一步得到句子或篇章的表示。句子或篇章的离散表示通常采用词袋模型、N 元模型等。
二、连续表示——分布式表示

可以通过共现矩阵的方式来进行词的表示，这类方法也叫分布式表示（Distributional Representations）

1、词向量

潜在语义分析模型（Latent Semantic Analysis, LSA）、潜在狄利克雷分配模型（Latent Dirichlet Allocation，LDA）、随机索引（random indexing）等。

2、句向量

句子的表示方式对应于共现矩阵，另一列，在LDA中句子-词语矩阵中就是很好地句子表示方式。

三、连续表示——分散式表示

另一种连续表示是分散式表示（Distributed Representations），即将语言表示为稠密、低维、连续的向量

1、词向量
研究者最早发现学习得到词嵌入之间存在类比关系。比如apple−apples ≈ car−cars， man−woman ≈ king – queen 等。这些方法都可以直接在大规模无标注语料上进行训练。词嵌入的质量也非常依赖于上下文窗口大小的选择。通常大的上下文窗口学到的词嵌入更反映主题信息，而小的上下文窗口学到的词嵌入更反映词的功能和上下文语义信息。
2、句向量
句子编码主要研究如何有效地从词嵌入通过不同方式的组合得到句子表示。其中，比较有代表性的方法有四种。
（1）神经词袋模型
简单对文本序列中每个词嵌入进行平均/加总，作为整个序列的表示。
这种方法的缺点是丢失了词序信息。对于长文本，神经词袋模型比较有效。但是对于短文本，神经词袋模型很难捕获语义组合信息。
（2）递归神经网络（Recursive Neural Network）
按照一个给定的外部拓扑结构（比如成分句法树），不断递归得到整个序列的表示。递归神经网络的一个缺点是需要给定一个拓扑结构来确定词和词之间的依赖关系，因此限制其使用范围。
（3）循环神经网络（Recurrent Neural Network）
将文本序列看作时间序列，不断更新，最后得到整个序列的表示。
（4）卷积神经网络（Convolutional Neural Network）
通过多个卷积层和子采样层，最终得到一个固定长度的向量。
在上述四种基本方法的基础上，很多研究者综合这些方法的优点，结合具体的任务，已经提出了一些更复杂的组合模型，例如双向循环神经网络（Bi-directional Recurrent Neural Network）、长短时记忆模型（Long-Short Term Memory）等。
同时根据上面的内容，句向量的表征在RNN、CNN之间，到底哪个更好呢？
3、篇章表示
如果处理的对象是比句子更长的文本序列（比如篇章），为了降低模型复杂度，一般采用层次化的方法，先得到句子编码，然后以句子编码为输入，进一步得到篇章的表示。具体的层次化可以采用以下几种方法：
（1）层次化的卷积神经网络
即用卷积神经网络对每个句子进行建模，然后以句子为单位再进行一次卷积和池化操作，得到篇章表示。
（2）层次化的循环神经网络
即用循环神经网络对每个句子进行建模，然后再用一个循环神经网络建模以句子为单位的序列，得到篇章表示。
（3）混合模型
先用循环神经网络对每个句子进行建模，然后以句子为单位再进行一次卷积和池化操作，得到篇章表示。在上述模型中，循环神经网络因为非常适合处理文本序列，因此被广泛应用在很多自然语言处理任务上。

四、总结

基于深度学习的方法在自然语言处理中取得了很大的进展，因此，分散式表示也成为语言表示中最热门的方法，不但可以在特定的任务中端到端地学习字、词、句子、篇章的分散式表示，也可以通过大规模未标注文本自动学习。
分散式表示可以非常方便地应用在下游的各种自然语言处理任务上，并且可以端到端地学习，给研究者带来了很大的便利。但是分散式表示对以下几种情况还不能很好地处理，需要进一步解决。
语言中出现所有符号是否都需要使用统一的表示模型？比如，无意义的符号、变量、数字等。
新词以及低频词的表示学习方法。目前的表示学习方法很难对这些词进行很好的建模，而这些词都是极具信息量的，不能简单忽略。
篇章的语言表示。目前对篇章级别的文本进行建模方法比较简单，不足以表示篇章中的复杂语义。
语言表示的基础数据结构。除了目前的基于向量的数据结构之外是否有更好的表示结构，比如矩阵、队列、栈等。

句向量的表示方式
1、词向量简单相加/平均（类似神经词袋模型）
对词向量的相加/平均，但是譬如以下的两句话质心是一致的：
You are going there to teach not play.
You are going there to play not teach
这样的方式，再来求句子距离，其实是在求句子的质心距离（centroid distance）。
另外一种改良版本，用Word Movers’ Distance

相近词之间求距离，然后把这样的相近距离相加。
2、深度学习方面

以上的方法并没有关照到句子的序列信息。
1、CNN
用CNN来句子表示（paper：Convolutional Neural Networks for Sentence Classification），操作流程是：
padding句子让其长度一致 -> 使用词表示技术成为方阵 -> 使用CNN -> 使用Max-overtime pooling -> 全连接层 -> 获得句向量。

2、GRU
Dynamic Memory Networks for Visual and Textual Question Answering
通过GRU进行编码，生成上下文向量+更新记忆。
当然还有用双向GRUs（Efficient Summarization With Read-Again And Copy Mechanism）
3、fasttext表示
FastText是Facebook开发的一款快速文本分类器，提供简单而高效的文本分类和表征学习的方法。
fastText 模型输入一个词的序列（一段文本或者一句话)，输出这个词序列属于不同类别的概率。
序列中的词和词组组成特征向量，特征向量通过线性变换映射到中间层，中间层再映射到标签。
fastText 在预测标签时使用了非线性激活函数，但在中间层不使用非线性激活函数。
fastText 模型架构和 Word2Vec 中的 CBOW 模型很类似。不同之处在于，fastText 预测标签，而 CBOW 模型预测中间词。

句向量表达：Sentence 2 vec

跟词向量简单相加减类似，是通过PCA/SVD的加权得到了句向量，同时作者在实验过程中，发现这一表征方式，可以跟LSTM表征的效果媲美。

NLP 模型到底选 RNN 还是 CNN？

CNN 是分层架构，RNN 是连续结构。一般靠常规直觉来判断：
倾向于为分类类型的任务选择 CNN，例如情感分类，因为情感通常是由一些关键词来决定的；
对于顺序建模任务，我们会选择 RNN，例如语言建模任务，要求在了解上下文的基础上灵活建模。
在实践中，得到的结论：
CNN 和 RNN 为文本分类任务提供补充信息。至于哪个架构的执行效果更好一点，取决于对整个序列的语义理解的重要程度。

目前来看，RNN 在文本级别的情感分类表现得很好（Tang et al., 2015），对于LSTM，封闭的 CNN 在语言建模任务上同比 LSTM 更胜一筹

RNN 表现较好并且在大范围内的任务中都较为稳健。除了以下种情况：当前的任务本质上是一项在一些情感探测和问答匹配设置中识别关键词的任务。

隐藏层尺寸hidden size和批尺寸batch size会使 DNN 的性能变得非常不稳定，波动较大，从实践来看这两个参数对结果的影响非常大。

对词向量干预，可以提高效率
https://www.researchgate.net/publication/313398040_All-but-the-Top_Simple_and_Effective_Postprocessing_for_Word_Representations
本文提出了一种对已有的词向量进行预处理的方法，用来对学习到的词向量降噪。基于词向量自身的几何结构 — 均值非零以及各项不同性，本文提出了一个反直观的处理方法：从所有的词向量中移除均值，以及移除部分导致各项不同性的方向。虽然这种处理方式忽略了词向量中的部分信息，但是它可以使多种通过不同方式训练出来的词向量加强词向量中包含的语义信息。经过预处理之后的词向量在一系列intrinsic衡量方式上（similarity, analogy, concept categorization）得到了一致性地提高。同时，我们通过了不同的应用上进行了测试，试验结果表明该预处理已经在诸多neural network中有所体现，进一步证实了对词向量进行预处理的重要性。

NLP+Skip-Thoughts-Vectors︱基于TensorFlow的带语义特征的句向量编码方式

github地址：https://github.com/tensorflow/models/tree/master/skip_thoughts

Skip-Thoughts 模型概要

Skip-Thoughts 模型是一个句子编码器。它学习将输入的句子编码成固定维度的向量表示，这些向量表示能够对许多任务有用，例如检测释义，或对产品评论进行积极或消极的分类等等。有关模型架构和更多示例应用的详细信息，可以参阅Ryan Kiros 等人的 NIPS 论文 Skip-Thought Vectors。

一个训练好的 Skip-Thoughts 模型会在嵌入的向量空间中对相互临近的相似句子进行编码。以下示例展示了对电影评论数据集中的一些句子的余弦相似性的最近邻域。
我们描述了一种通用、分布式句子编码器的无监督学习方法。使用从书籍中提取的连续文本，我们训练了一个编码器-解码器模型，试图重建编码段落周围的句子。语义和语法属性一致的句子因此被映射到相似的向量表示。我们接着引入一个简单的词汇扩展方法来编码不再训练预料内的单词，令词汇量扩展到一百万词。同时建立word2vec到skip-thoughts向量之间的映射关系。
在训练模型后，我们用线性模型在8个任务上提取和评估我们的向量，包括：语义相关性，释义检测，图像句子排序，问题类型归类，以及4个基准情绪和主观性数据集。最终的结果是一个非专门设计的编码器，能够生成高度通用性的句子表示，在实践中表现良好。

Doc2Vec的情感分析以及相似性

Tutorial for Sentiment Analysis using Doc2Vec in gensim (or “getting 87% accuracy in sentiment analysis in under 100 lines of code”)
github：https://github.com/linanqiu/word2vec-sentiments

也可以用doc2vec来做相似性分析，其他办法有：
第一种方法，使用docsim；第二种办法，使用doc2vec；第三种方式：使用LSH。
能够表征相似的：基于CNN的短文本表达模型及相似度计算的全新优化模型
LSF-SCNN，即基于词汇语义特征的跳跃卷积模型 (Lexical Semantic Feature based Skip Convolution neural network )，基于卷积神经网络模型引入三种优化策略：词汇语义特征 (Lexical Semantic Feature, LSF)、跳跃卷积 (Skip Convolution, SC)和K-Max均值采样 (K-Max Average Pooling, KMA) ，分别在词汇粒度、短语粒度、句子粒度上抽取更加丰富的语义特征，从而更好的在向量空间构建短文本语义表达模型，并广泛的适用于问答系统 (question answering)、释义识别 (paraphrase identification) 和文本蕴含 (textual entailment)等计算成对儿出现的短文本的相似度的任务中。
LSF特征怎样计算得到？
问题和答案中的每一个单词都会有一个LSF特征，具体来说是一个[0,t]上的整数值。LSF的计算过程可通过下面一个例子说明，当我们想要求解问题中general一词的LSF特征时，第一步我们需要计算general与答案中每一个词的余弦相似度并选取其中的最大值，因此chief被选取出来。第二步，余弦相似度值的最大值0.79将通过一个映射函数映射为一个[0，t]区间的整数，当我们假定t=10，最终计算得到general的LSF特征为3。这是合理的，general和chief一定程度上是近义词。

常见的语言表示模型（词嵌入、句表示、篇章表示）相关推荐

欢简述常见的语言表示模型（词嵌入、句表示、篇章表示）
简述常见的语言表示模型(词嵌入.句表示.篇章表示) 在cips2016出来之前,笔者也总结过种类繁多,类似词向量的内容,自然语言处理︱简述四大类文本分析中的"词向量"(文本词特征提 ...
cips2016+学习笔记︱简述常见的语言表示模型（词嵌入、句表示、篇章表示）
在cips2016出来之前,笔者也总结过种类繁多,类似词向量的内容,自然语言处理︱简述四大类文本分析中的"词向量"(文本词特征提取)事实证明,笔者当时所写的基本跟CIPS2016一 ...
Word Embedding List｜ACL 2020 词嵌入长文汇总及分类
ACL 2020 于 5 月 17 日放榜啦,在此祝贺.羡慕每一位论文被接收的朋友.以下汇总并尝试按主题分类了 37 篇与 word embedding 有关的长文,让我们一起看看今年词嵌入的研究又有 ...
深度学习笔记第五门课序列模型第二周自然语言处理与词嵌入
本文是吴恩达老师的深度学习课程[1]笔记部分. 作者:黄海广[2] 主要编写人员:黄海广.林兴木(第四所有底稿,第五课第一二周,第三周前三节).祝彦森:(第三课所有底稿).贺志尧(第五课第三周底稿). ...
吴恩达deeplearning.ai系列课程笔记+编程作业(14)序列模型(Sequence Models)-第二周自然语言处理与词嵌入
第五门课序列模型(Sequence Models) 第二周自然语言处理与词嵌入(Natural Language Processing and Word Embeddings) 文章目录第五门课 ...
5分钟 NLP系列—— 11 个词嵌入模型总结
来源:DeepHub IMBA 本文约1000字,建议阅读5分钟本片文章将对词嵌入的模型做一个完整的总结. TF-IDF, Word2Vec, GloVe, FastText, ELMO, CoVe ...
word2vec python实现_教程 | 在Python和TensorFlow上构建Word2Vec词嵌入模型
原标题:教程 | 在Python和TensorFlow上构建Word2Vec词嵌入模型选自adventuresinmachinelearning 参与:李诗萌.刘晓坤本文详细介绍了 word2ve ...
2.5 学习词嵌入-深度学习第五课《序列模型》-Stanford吴恩达教授
学习词嵌入 (Learning Word Embeddings) 在本节视频中,你将要学习一些具体的算法来学习词嵌入.在深度学习应用于学习词嵌入的历史上,人们一开始使用的算法比较复杂,但随着时间推移, ...
2.2 使用词嵌入-深度学习第五课《序列模型》-Stanford吴恩达教授
使用词嵌入 (Using Word Embeddings) 上一个视频中,你已经了解不同单词的特征化表示了.这节你会看到我们如何把这种表示方法应用到NLP应用中. 我们从一个例子开始,我们继续用命名实 ...

常见的语言表示模型（词嵌入、句表示、篇章表示）

常见的语言表示模型（词嵌入、句表示、篇章表示）相关推荐

最新文章

热门文章