腾讯一面的题目,当时脑子里只有相加平均

1. Word2Vec 怎么将得到的词向量变成句子向量

1)平均词向量:
平均词向量就是将句子中所有词的word embedding相加取平均,得到的向量就当做最终的sentence embedding。这种方法的缺点是认为句子中的所有词对于表达句子含义同样重要。

2)TF-IDF加权平均词向量:
TF-IDF加权平均词向量就是对每个词按照 TF-IDF 进行打分,然后进行加权平均,得到最终的句子表示。

3)SIF加权平均词向量:(没用过,所以理解其神韵即可)
第一步是对TF-IDF加权方法进行了改进,即算法认为词频本身很小的词,如果出现在当前句子中,说明其应当具有较高的权重。通过这样的方式进行加权平均操作得到一个平均向量。
第二步则是将该向量中的各个词的共有信息给抽掉,剩下的信息则更能够表征这个句向量。

2. Word2Vec 怎么衡量得到词向量的好坏

1)analogy task:
看看空间距离近的词,跟人的直觉是否一致,
经典的例子:king-queen=man-woman

2)对实际NLP任务的贡献:
对于一些传统方法做的任务,可以直接当作特征加进去,看看提升的效果。
对于用神经网络做的,可以用词向量作为词那一层的初始值,初始值选得好,就当做词向量好。

(Word2Vec)怎么将得到的词向量变成句子向量,以及怎么衡量得到词向量的好坏相关推荐

  1. BERT实战(1):使用DistilBERT作为词嵌入进行文本情感分类,与其它词向量(FastText,Word2vec,Glove)进行对比

    这次根据一篇教程Jay Alammar: A Visual Guide to Using BERT for the First Time学习下如何在Pytorch框架下使用BERT. 主要参考了中文翻 ...

  2. 词向量、句子向量、篇章向量的一些理解(转)

    2019独角兽企业重金招聘Python工程师标准>>> 词向量.句子向量.篇章向量的一些理解(转) (转自)http://blog.csdn.net/sinat_26917383/a ...

  3. NLP-分类模型-2016-文本分类:FastText【使用CBOW的模型结构;作用:①文本分类、②训练词向量、③词向量模型迁移(直接拿FastText官方已训练好的词向量来使用)】【基于子词训练】

    <原始论文:Bag of Tricks for Efficient Text Classification> <原始论文:Enriching Word Vectors with Su ...

  4. 衡量两个向量相似度的方法:余弦相似度

    余弦相似度 在NLP的任务里,会对生成两个词向量进行相似度的计算,常常采用余弦相似度公式计算. 余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小.余弦值越接近1,就表明夹角越接近 ...

  5. 段落向量与句子向量表达

    这是Tomas Mikolov的一篇关于段落向量和句子向量的论文.本文是我翻译加自我理解的结果,如需要更详细的介绍,请看英文文献. 摘要 许多机器翻译的算法都需要使用固定长度的词向量特征.在到达文本层 ...

  6. 【NLP】词袋模型(bag of words model)和词嵌入模型(word embedding model)

    本文作为入门级教程,介绍了词袋模型(bag of words model)和词向量模型(word embedding model)的基本概念. 目录 1 词袋模型和编码方法 1.1 文本向量化 1.2 ...

  7. 自然语言处理(nlp)之词袋模型及句子相似度

    本博文将会介绍NLP中常见的词袋模型(Bag of Words)以及如何利用词袋模型来计算句子间的相似度(余弦相似度,cosine similarity).   首先,让我们来看一下,什么是词袋模型. ...

  8. 如何用python做词云图_科学网—如何用Python做词云?(基础篇视频教程) - 王树义的博文...

    只需要花10几分钟,跟着教程完整做一遍,你就能自己用Python做出词云了. <如何用Python做词云?>图文版发布于2017年6月,是我数据科学系列教程中的第一篇. 目前仅简书一个平台 ...

  9. 向量的内积,与角的关系,向量与它本身点积_4

    目录 什么是点积? 点积运算 向量与角的联系 向量和它本身 什么是点积? 两个向量相乘,我们应该会想到如下场景: 但这个在现实生活中,用处不大. 但是其他乘法形式很有用. 最重要的是一种向量运算方式是 ...

最新文章

  1. isalpha等同于Java的_isalpha
  2. Oracle 查询基础
  3. 《程序员修炼之道》笔记(八)
  4. bh1750采集流程图_重大更新:STM32空气监测仪,OneNET物联网平台实时查看(原理图、PCB源文件、程序源码等)...
  5. linux 库的头文件安装在,“找不到jpeg的头文件或库文件”在Alpine Linux上安装枕头...
  6. SQL查询语句 select
  7. java用户角色权限管理 只显示姓_java权限管理与用户角色权限设计
  8. Microsoft SQL Server是如何加密口令的?未公开的加密函数
  9. canvas 小球碰撞
  10. Expected Array got Object
  11. 安装mysql忘了初始密码咋办_mysql安装忘记初始密码怎么办
  12. 企业网络安全区域划分的原则和方法
  13. 计算机硬盘空间不都用,搞不懂的磁盘占用100% 自检一遍全解决
  14. html+css基础入门学习教程之HTML 样式
  15. 用大数据解决“痛点”问题 “云上贵州”再发力
  16. 【JAVA 学习笔记】HashMap 探究
  17. 大学生吸烟现象调查报告
  18. http keep-live
  19. python应用程序无法正常启动0x00000ba_应用程序无法正常启动0xc000012d?怎么解决?...
  20. 数据结构——一元n次多项式加法

热门文章

  1. 2023年中国地质大学(武汉)英语语言文学考研上岸前辈备考经验
  2. Nelder-Mead(simplex,“单纯形”)算法
  3. 不要让你的习以为常,用余生去懊悔!
  4. nn.Dropout
  5. 计算机lad指令什么意思,LAD 文件扩展名: 它是什么以及如何打开它?
  6. 2021 工业信息安全技能大赛 线上赛第一场--隐藏的工程
  7. Lamp 服务器环境安装
  8. 软件测试课设总结报告,软件测试课设感言
  9. [1600]卡斯丁狗要吃糖葫芦
  10. 0726 C. Cryptographer's Conundrum