1. 什么是词嵌入(word2vec)

把词映射为向量(实数域)的技术

2. 为什么不采用one-hot向量:

one-hot词向量无法准确表达不同词之间的相似度,eg:余弦相似度,表示夹角之间的余弦值,无法表达不同词之间的相似度。

3. word2vec主要包含哪两个模型

跳字模型:基于某个词生成它周围的词(每个词表示为两个d维向量用来计算条件概率)eg: the man loves his son, 可以给定中心词“loves”, 生成距离不超过两个词的条件概率(P(the、man、his、 son | loves),即P(the|loves).......

连续词袋模型: 与跳字模型基本类似,最大的不同在于基于某中心词再文本序列前后的背景词来生成该中心词。(P(loves|the、man、his、son), 即P(love|the)

4. 模型的重要因素

跳字模型:我们通过最大化似然估计来学习模型参数,等价于最小化以下损失函数

定义损失函数: 最大化似然估计等价于最小化损失函数

5. 如何降低计算复杂度(近似训练)?

负采样:负采样通过考虑同时含有正样本和负样本的相互独立事件来构造损失函数。其训练中每一步的梯度计算开销与采样的个数线性相关。

层序softmax:使用了二叉树,并根据根结点到叶结点的路径来构造损失函数。其训练中每一步的梯度计算开销与词典大小的对数相关。

6. 如何训练

构造嵌入层:将中心词和背景词由索引变为向量,定义超参数向量维度。

小批量乘法:中心词(批量大小,1)、背景词(批量大小,max_len) ,通过小批量乘法得到输出(批量大小,1, max_len),输出的每个元素是中心词向量和背景词向量的内积。

定义损失函数:根据负采样中损失函数的定义,可以直接使用Gluon的二元交叉熵损失函数。

定义训练模型:可以通过负采样进行训练。

7. 全局向量的词嵌入

子词嵌入(fastText):在跳字模型的基础上,将中心词向量表示成单词的子向量之和。(eg:dogs,dogcatcher都有相同的词根)

全局向量的词嵌入(GloVe):在有些情况下,交叉熵损失函数有劣势,GloVe采用了平方损失,并通过词向量拟合预先基于整个数据集计算得到的全局统计信息。任意词的中心词向量和背景词向量在GloVe模型中是等价的。

引用:  动手学深度学习 李沐

2.自然语言处理NLP:词映射为向量——词嵌入(word embedding)相关推荐

  1. 什么是词嵌入| Word Embedding

    本文参考:词嵌入 维基百科解释 In natural language processing (NLP), word embedding is a term used for the represen ...

  2. 自然语言处理(NLP)之求近义词和类比词<MXNet中GloVe和FastText的模型使用>

    这节主要就是熟悉MXNet框架中的两种模型:GloVe和FastText的模型(词嵌入名称),每个模型下面有很多不同的词向量,这些基本都来自wiki维基百科和twitter推特这些子集预训练得到的. ...

  3. NLP:词袋模型(bag of words)、词向量模型(Word Embedding)

    例句: Jane wants to go to Shenzhen. Bob  wants to go to Shanghai 一.词袋模型     将所有词语装进一个袋子里,不考虑其词法和语序的问题, ...

  4. 词袋模型(BOW,bag of words)和词向量模型(Word Embedding)理解

    Word2vec 向量空间模型在信息检索中是众所周知的,其中每个文档被表示为向量.矢量分量表示文档中每个单词的权重或重要性.使用余弦相似性度量计算两个文档之间的相似性. 尽管对单词使用矢量表示的想法也 ...

  5. 词袋模型(BOW,bag of words)和词向量模型(Word Embedding)概念介绍

    一.词袋模型 例句: Jane wants to go to Shenzhen. Bob wants to go to Shanghai. 将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个词 ...

  6. 词嵌入 word embedding

    原文链接:https://blog.csdn.net/ch1209498273/article/details/78323478 词嵌入(word embedding)是一种词的类型表示,具有相似意义 ...

  7. [DeeplearningAI笔记]序列模型2.1-2.2词嵌入word embedding

    5.2自然语言处理 觉得有用的话,欢迎一起讨论相互学习~ 吴恩达老师课程原地址 2.1词汇表征 Word representation 原先都是使用词汇表来表示词汇,并且使用1-hot编码的方式来表示 ...

  8. 词嵌入(Word Embedding)

    目录 为什么需要词向量嵌入? 表征的对象是什么? 如何表征? 词向量嵌入矩阵 Skip-Gram CBoW 负采样 结语 Reference 为什么需要词向量嵌入? 在自然语言相关的任务中,我们将句子 ...

  9. 自然语言处理之词嵌入(Word Embedding)

    关于词嵌入    对于计算机来说,要想理解自然语言,需要把自然语言以一定的形式转化为数值,这一步解决的是"将现实问题转化为数学问题",是人工智能非常关键的一步.词嵌入就是将自然语言 ...

最新文章

  1. 定时器和promise_web前端面试中 promise 相关
  2. Comperhend the OP-sizeof deeply!
  3. linux启动weblogic指令,linux下如何启动和关闭weblogic .
  4. inx函数python_Python数据分析入门
  5. 宅在家里写数据库中事务(ACID)
  6. checkboxlist详细用法、checkboxlist用法、checkboxlist
  7. 怎样配置Tomcat环境变量
  8. mininet编程实现交换机规则的插入、删除与修改。_Mysql闲聊之从Redo、Undo日志到MVCC实现原理
  9. iOS Runtime运行机制详解
  10. Java 反射Reflection总结二
  11. 计算机设计大赛答辩ppt
  12. oracle财务系统表,EBS系统财务常用表和各表关联关系
  13. 芝士粉和芝士的区别_它是芝士吗?
  14. Mobile开发(绘制背景图片)
  15. 深度学习在三维点云上的应用(Deep Learning for 3D Point Clouds: A Survey)
  16. html格式错误检测,HTML格式错误
  17. 学习大数据需要什么基础?大数据要学哪些内容?
  18. java.lang.UnsatisfiedLinkError: dlopen failed: file offset for the library /data/app/com.beiya.litt
  19. “读心术”或将代替传统密码:EEG识别脑电波,以此来鉴别身份
  20. BXL文件怎样转换为AD LIB文件

热门文章

  1. 访问时ssl证书错误
  2. chatgpt赋能python:Python做仿真模拟:一种高效、灵活、易用的工具
  3. C++编程入门系列之十四(类与对象:构造函数和析构函数)
  4. 坚持理想与目标、并从小事慢慢做起
  5. IDEA起步(五) - 常用快捷键,以及自定义快捷键
  6. 窥探渣男天才爱因斯坦的一生
  7. 如何连接ipv6服务器_IPv6系列初学者的10个常见困扰
  8. 7 Spark开荒_架构原理
  9. spark机器学习笔记:(五)用Spark Python构建分类模型(下)
  10. 中文分词技术之基于规则分词