通俗易懂word2vec详解词嵌入-深度学习

https://blog.csdn.net/just_so_so_fnc/article/details/103304995
skip-gram 原理没看完

https://blog.csdn.net/Jemila/article/details/72831640
skip-gram源码解析

https://blog.csdn.net/itplus/article/details/37969519
基础

https://blog.csdn.net/weixin_41843918/article/details/90312339
skip-gram 重点

https://blog.csdn.net/qq_24003917/article/details/80389976

skip-gram

https://zhuanlan.zhihu.com/p/35500923

https://blog.csdn.net/u011748542/article/details/85880852
gensim.models.word2vec 参数说明

前言

自从Mikolov在他2013年的论文“Efficient Estimation of Word Representation in Vector Space”提出词向量的概念后，NLP领域仿佛一下子进入了embedding的世界，Sentence2Vec、Doc2Vec、Everything2Vec。词向量基于语言模型的假设——“一个词的含义可以由它的上下文推断得出“，提出了词的Distributed Representation表示方法。相较于传统NLP的高维、稀疏的表示法(One-hot Representation)，Word2Vec训练出的词向量是低维、稠密的。Word2Vec利用了词的上下文信息，语义信息更加丰富，目前常见的应用有：

使用训练出的词向量作为输入特征，提升现有系统，如应用在情感分析、词性标注、语言翻译等神经网络中的输入层。
直接从语言学的角度对词向量进行应用，如使用向量的距离表示词语相似度、query相关性等。
注：前言部分内容来自参考文献1。

1.什么是word2vec

如果用一句比较简单的话来总结，word2vec是用一个一层的神经网络(即CBOW)把one-hot形式的稀疏词向量映射称为一个n维(n一般为几百)的稠密向量的过程。为了加快模型训练速度，其中的tricks包括Hierarchical softmax，negative sampling, Huffman Tree等。

在NLP中，最细粒度的对象是词语。如果我们要进行词性标注，用一般的思路，我们可以有一系列的样本数据(x,y)。其中x表示词语，y表示词性。而我们要做的，就是找到一个x -> y的映射关系，传统的方法包括Bayes,SVM等算法。但是我们的数学模型，一般都是数值型的输入。但是NLP中的词语，是人类的抽象总结，是符号形式的（比如中文、英文、拉丁文等等），所以需要把他们转换成数值形式，或者说——嵌入到一个数学空间里，这种嵌入方式，就叫词嵌入（word embedding)，而 Word2vec，就是词嵌入（ word embedding) 的一种。

在 NLP 中，把 x 看做一个句子里的一个词语，y 是这个词语的上下文词语，那么这里的 f，便是 NLP 中经常出现的『语言模型』（language model），这个模型的目的，就是判断 (x,y) 这个样本，是否符合自然语言的法则，更通俗点说就是：词语x和词语y放在一起，是不是人话。

Word2vec 正是来源于这个思想，但它的最终目的，不是要把 f 训练得多么完美，而是只关心模型训练完后的副产物——模型参数（这里特指神经网络的权重），并将这些参数，作为输入 x 的某种向量化的表示，这个向量便叫做——词向量。
(上面部分内容来自参考文献2)

2.CBOW与Skip-Gram

word2vec里面有两个重要的模型-CBOW模型(Continuous Bag-of-Words Model)与Skip-gram模型。在Tomas Mikolov的paper中给出了示意图。

由名字与图都很容易看出来，CBOW就是根据某个词前面的C个词或者前后C个连续的词，来计算某个词出现的概率。Skip-Gram Model相反，是根据某个词，然后分别计算它前后出现某几个词的各个概率。

上一张图，可以比较清楚地看清楚CBOW的训练过程。

(图片来自网络)

把这张图看懂，基本word2vec就懂了一大半。下面来详细说说这张图。
词向量最简单的方式是1-of-N的one-hot方式。onehot对于同学们来说都很熟悉了，也就是从很大的词库corpus里选V个频率最高的词(忽略其他的) ，V一般比较大，比如V＝10W，固定这些词的顺序，然后每个词就可以用一个V维的稀疏向量表示了，这个向量只有一个位置的元素是1，其他位置的元素都是0。One hot方式其实就是简单的直接映射，所以缺点也很明显，维数很大，也没啥计算上的意义。
在上图中，
1、Input layer输出层：是上下文单词的one hot。假设单词向量空间的维度为V，即整个词库corpus大小为V，上下文单词窗口的大小为C。
2、假设最终词向量的维度大小为N，则图中的权值共享矩阵为W。W的大小为 V * N，并且初始化。
3、假设语料中有一句话"我爱你"。如果我们现在关注"爱"这个词，令C=2，则其上下文为"我",“你”。模型把"我" "你"的onehot形式作为输入。易知其大小为1V。C个1V大小的向量分别跟同一个V * N大小的权值共享矩阵W相乘，得到的是C个1N大小的隐层hidden layer。
4.C个1N大小的hidden layer取平均，得到一个1N大小的向量，即图中的Hidden layer。
5.输出权重矩阵W’为NV，并进行相应的初始化工作。
6.将得到的Hidden layer向量 1V与W’相乘，并且用softmax处理，得到1V的向量，此向量的每一维代表corpus中的一个单词。概率中最大的index所代表的单词为预测出的中间词。
7.与groud truth中的one hot比较，求loss function的的极小值。

具体计算过程为：
从input -> hidden: $WT∗xWT∗x W^T * x$ $l e n (w) = u \in v o c a b \sum c o u n t (u)^{3 / 4} c o u n t (w)^{3 / 4}$

参考文献：
1.https://zhuanlan.zhihu.com/p/28491088
2.https://zhuanlan.zhihu.com/p/26306795
3.http://alwa.info/2016/04/24/Autoencoder-%E8%AF%A6%E8%A7%A3/
4.https://qrfaction.github.io/2018/03/20/%E6%95%B0%E6%8D%AE%E7%AB%9E%E8%B5%9Btrick%E6%80%BB%E7%BB%93/ 数据竞赛trick总结

                                </div><div><div></div></div><link href="https://csdnimg.cn/release/phoenix/mdeditor/markdown_views-60ecaf1f42.css" rel="stylesheet"><div class="more-toolbox"><div class="left-toolbox"><ul class="toolbox-list"><li class="tool-item tool-active is-like "><a href="javascript:;"><svg class="icon" aria-hidden="true"><use xlink:href="#csdnc-thumbsup"></use></svg><span class="name">点赞</span><span class="count">18</span></a></li><li class="tool-item tool-active is-collection "><a href="javascript:;" data-report-click="{&quot;mod&quot;:&quot;popu_824&quot;}"><svg class="icon" aria-hidden="true"><use xlink:href="#icon-csdnc-Collection-G"></use></svg><span class="name">收藏</span></a></li><li class="tool-item tool-active is-share"><a href="javascript:;" data-report-click="{&quot;mod&quot;:&quot;1582594662_002&quot;}"><svg class="icon" aria-hidden="true"><use xlink:href="#icon-csdnc-fenxiang"></use></svg>分享</a></li><!--打赏开始--><!--打赏结束--><li class="tool-item tool-more"><a><svg t="1575545411852" class="icon" viewBox="0 0 1024 1024" version="1.1" xmlns="http://www.w3.org/2000/svg" p-id="5717" xmlns:xlink="http://www.w3.org/1999/xlink" width="200" height="200"><defs><style type="text/css"></style></defs><path d="M179.176 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5718"></path><path d="M509.684 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5719"></path><path d="M846.175 499.222m-113.245 0a113.245 113.245 0 1 0 226.49 0 113.245 113.245 0 1 0-226.49 0Z" p-id="5720"></path></svg></a><ul class="more-box"><li class="item"><a class="article-report">文章举报</a></li></ul></li></ul></div></div><div class="person-messagebox"><div class="left-message"><a href="https://blog.csdn.net/bitcarmanlee"><img src="https://profile.csdnimg.cn/C/6/1/3_bitcarmanlee" class="avatar_pic" username="bitcarmanlee"><img src="https://g.csdnimg.cn/static/user-reg-year/1x/4.png" class="user-years"></a></div><div class="middle-message"><div class="title"><span class="tit"><a href="https://blog.csdn.net/bitcarmanlee" data-report-click="{&quot;mod&quot;:&quot;popu_379&quot;}" target="_blank">bitcarmanlee</a></span></div><div class="text"><span>发布了441 篇原创文章</span> · <span>获赞 1748</span> · <span>访问量 463万+</span></div></div><div class="right-message"><a href="https://bbs.csdn.net/topics/395530810" target="_blank" class="btn btn-sm btn-red-hollow bt-button personal-messageboard">他的留言板</a><a class="btn btn-sm  bt-button personal-watch" data-report-click="{&quot;mod&quot;:&quot;popu_379&quot;}">关注</a></div></div></div>
</article>

http://www.taodudu.cc/news/show-64085.html

错位禁位排列-数学
机器翻译评测——BLEU算法详解 (新增在线计算BLEU分值)评估
numpy笔记1
numpy笔记2
numpy笔记3
numpy笔记4
numpy笔记5
同态同构-数学
小显卡训练大模型
语义网所谓的“本体”的具体例子是什么？人工智能
python 如何获取当前系统的时间
存在量词后必须用合取式？-数学
pycharm汇总
git项目问题
github下载源码也用命令进行安装包的联系
python编程问题--第二次
python编程问题---第一次
矩阵乘以其矩阵转置求导-数学
批量读取文件
linux问题
解读Python的命名空间
linux sh 改 cmd
命名实体识别NER遗留问题----模型构建
超详细中文预训练模型ERNIE使用指南-源码
python codecs.open()及文件操作-文本处理 with open
命令行带参数启动--命令行相关问题代码规范
编程规范问题
bdwp
tensorflow问题
docker坑