分类目录:《深入理解深度学习》总目录
相关文章:
· Word Embedding(一):word2vec
· Word Embedding(二):连续词袋模型(CBOW, The Continuous Bag-of-Words Model)
· Word Embedding(三):Skip-Gram模型
· Word Embedding(四):Skip-Gram模型的数学原理
· Word Embedding(五):基于哈夫曼树(Huffman Tree)的Hierarchical Softmax优化
· Word Embedding(六):负采样(Negative Sampling)优化


训练一个神经网络意味着要输入训练样本并不断调整神经元的权重,从而不断提高对目标预测的准确性。神经网络每训练一个样本,该样本的权重就会调整一次。正如《Word Embedding(五):基于哈夫曼树(Huffman Tree)的Hierarchical Softmax优化》所讨论的,VVV的大小决定了神经网络的权重矩阵的具体规模,所有这些权重需要通过数以亿计的训练样本来进行调整,这是非常消耗计算资源的,并且在实际训练过程中,速度会非常慢。

负采样(Negative Sampling)解决了这个问题,它可以提高训练速度并改善所得到词向量的质量。不同于原本需要更新每个训练样本的所有权重的方法,负采样只需要每次更新一个训练样本的一小部分权重,从而在很大程度上降低了梯度下降过程中的计算量。在Hierarchical Softmax优化方法中,负例是二叉树的其他路径,而对于负采样(Negative Sampling)优化,负例是随机挑选出来的。

对于每个训练样本,中心词是www,它周围上下文共有2c2c2c个词,记为context(w)\text{context}(w)context(w)。由于这个中心词www的确和context(w)\text{context}(w)context(w)相关存在,因此它是一个真实的正例。通过负采样(Negative Sampling),我们得到NEG\text{NEG}NEG个和www不同的中心词wi(i=1,2,⋯,NEG)w_i(i=1, 2, \cdots, \text{NEG})wi(i=1,2,,NEG),这样context(w)\text{context}(w)context(w)wiw_iwi就组成了NEG\text{NEG}NEG个并不真实存在的负例。利用这一个正例和NEG\text{NEG}NEG个负例,我们进行二元Logistic回归,得到负采样对应每个词wiw_iwi对应的模型参数θi\theta_iθi,和每个词的词向量。

从《Word Embedding(五):基于哈夫曼树(Huffman Tree)的Hierarchical Softmax优化》可以看出,负采样(Negative Sampling)优化由于没有采用霍夫曼树,每次只是通过采样NEG\text{NEG}NEG个不同的中心词做负例,就可以训练模型,因此整个过程要比Hierarchical Softmax简单。

负采样(Negative Sampling)方法

设词汇表的大小为VVV,那么可以将一段长度为1的线段分成VVV份,每份对应词汇表中的一个词。当然每个词对应的线段长度是不一样的,高频词对应的线段长,低频词对应的线段短。每个词www的线段长度由下式决定:
Length(w)=Count(w)∑u∈CCount(u)\text{Length}(w)=\frac{\text{Count}(w)}{\sum_{u\in C}\text{Count}(u)}Length(w)=uCCount(u)Count(w)

在word2vec中,分子和分母都取了34\frac{3}{4}43次幂:
Length(w)=Count(w)34∑u∈CCount(u)34\text{Length}(w)=\frac{\text{Count}(w)^\frac{3}{4}}{\sum_{u\in C}\text{Count}(u)^\frac{3}{4}}Length(w)=uCCount(u)43Count(w)43

在采样前,我们将这段长度为1的线段划分成MMM等份,这里M≫VM\gg VMV,这样可以保证每个词对应的线段都会划分成对应的小块。而MMM份中的每一份都会落在某一个词对应的线段上。在采样的时候,我们只需要从MMM个位置中采样出NEG\text{NEG}NEG个位置就行,此时采样到的每一个位置对应到的线段所属的词就是我们的负例词。

深入理解深度学习——Word Embedding(六):负采样(Negative Sampling)优化相关推荐

  1. 深入理解深度学习——Word Embedding(三):Skip-Gram模型

    分类目录:<深入理解深度学习>总目录 相关文章: · Word Embedding(一):word2vec · Word Embedding(二):连续词袋模型(CBOW, The Con ...

  2. 负采样Negative Sampling

    1.噪声对比估计(Noise contrastive estimation) 语言模型中,根据上下文c,在整个语料库V中预测某个单词w的概率,一般采用softmax形式,公式为: NCE:将softm ...

  3. 深入理解深度学习——用Embedding处理分类特征

    分类目录:<深入理解深度学习>总目录 传统机器学习的输入数据中一般含有分类特征,对这些特征或字段的处理是特征工程的重要内容之一.分类(Categorical)特征也被称为离散特征,而机器学 ...

  4. 深度学习-Word Embedding的详细理解(包含one-hot编码和cos余弦相似度)

    这两天在费劲的研究单词嵌入Embedding,好不容易稍微懂了一点,赶紧记下来省的忘了. ont-hot编码: 一般在输入的时候,都会将所有的单词看作一个向量,只把当前的单词置为1,以下为几组单词表和 ...

  5. 详解深度学习之 Embedding

    深入理解深度学习之 Embedding 1. 从 one-hot 编码引入 Embedding 在正式介绍 Embedding 之前,我们必须先理解它提出的背景,也就是说研究者提出 Embedding ...

  6. 知识图谱-KGE(Knowledge Graph Embedding):负采样

    引言:负采样方法最初是被用于加速 Skip-Gram 模型的训练,后来被广泛应用于自然语言处理 (NLP).计算机视觉 (CV) 和推荐系统 (RS) 等领域,在近两年的对比学习研究中也发挥了重要作用 ...

  7. 深入理解深度学习——语境词嵌入(Contextual Word Embedding)

    分类目录:<深入理解深度学习>总目录 前文介绍了因word2vec而流行的Word Embedding,这种表示方法比离散的独热编码要好很多,因为它不仅降低了维度,还可以反映出语义空间中的 ...

  8. 深入理解深度学习——图嵌入(Graph Embedding)

    分类目录:<深入理解深度学习>总目录 前面的文章介绍了由Word Embedding延伸出的Item Embedding等,这些延伸都建立在它们有序列特性的基础上.其实,可延伸的领域还有很 ...

  9. 深入理解深度学习——预训练模型

    分类目录:<深入理解深度学习>总目录 近些年基于深度学习的NLP技术的重大进展主要包括NNLM(2003).Word Embedding(2013).Seq2Seq(2014).Atten ...

最新文章

  1. 小米AI实验室六篇论文获ICASSP2022收录,多模态语音唤醒挑战赛夺冠
  2. 构建高性能ASP.NET应用的12点建议
  3. oracle SYS and SYSTEM Schemas
  4. poj-1845 Sumdiv nyoj - 928 小M的因子和
  5. springboot(三):Spring boot中Redis的使用
  6. EJB3 学习笔记六
  7. linux硬盘转windows7,记——第一次上手UEFI电脑,将mbr硬盘的Windows7和Linux转为gpt+uefi启动...
  8. start()和run()的区别
  9. 1910101811-2
  10. 博文视点大讲堂第15期:猎头揭秘
  11. 268、缺失数字(python)
  12. 产品经理,没有那么牛逼
  13. python --opencv图像处理Canny算子边缘检测(Roberts算子、Prewitt算子、Sobel算子、Laplacian算子、Scharr 算子、 LOG 算子)
  14. python俄罗斯方块小游戏实验报告_python实现俄罗斯方块游戏
  15. 2021BI及数据可视化领域最具商业合作价值企业盘点
  16. linux 查看当前状态_Linux视频编辑的当前状态2018
  17. ipad协议最新版本
  18. 解决java.sql.SQLException: Value ‘0000-00-00‘ can not be represented as java.sql.Date
  19. excel查找并返回多行数据
  20. JAVA后端开发必备软件(仅供参考)

热门文章

  1. word2016怎么去掉下面的红色波浪线
  2. html5 网页兼容性测试工具,网页兼容性测试工具(MultiBrowser)
  3. Vue基础知识总结 6:vue双向绑定原理
  4. 智慧医疗 :某公立三甲医院300TB医学影像数据迁云实践
  5. k米评分容易得高分的歌_福州这家全新亮相的K歌王国,“舞台灯”都给你搭好了,简直酷到没朋友!...
  6. 三星Galaxy A8000拆机感想
  7. 财经大数据可视化Vdc平台_大数据管理及VDC助力工程设计企业践行BIM
  8. Win10开启热点共享后断网怎么解决?
  9. scroll-view 自制横向滚动条
  10. 2020研究生数学建模B题——汽油辛烷值建模 每一问的解决思路与实验结果展示