Paper:Linear Algebraic Structure of Word Senses, with Applications to Polysemy
源代码

词向量编码的相似性
相似的单词的词向量编码在欧几里得空间中的分布会彼此相邻:

如何表示多义词?
比如,tie在游戏比赛的平局;在衣服中的领带;或者表示一种扭曲的动作。

实际得到的tie的词向量是tie-1、tie-2、tie-3所有的线性叠加,映射到二维平面上处于中间:

如何复原每种词义?
采用一种稀疏编码的算法可以简单地解决这个问题。

其中,AiAi是每个词义项对应的上下文向量,αiαi是其权重,ηη是噪音项。

通过稀疏编码,可以将词义项恢复和区分:

观察输出项,可以看到有些与衣服有关,有些和运动有关。有趣的是,同时可以看到音乐类的输出。

如何进行评估?
找一群研究生,询问这些单词哪一个对应tie,然后与算法结果进行对比。

结果显示,这种算法的结果与调查的非本地研究生的结果差不多。以英语为母语的人在这项任务上做的更好。

总结
词向量可以捕捉多义性
词向量是多义向量的线性叠加
可以通过稀疏编码恢复多义向量,进行语境解释
这种恢复可以达到non-native English Speaker的水平
---------------------

个人理解笔记:
之前采用word2vec等方法可以得到词的编码(描述) 其中包含词的相似性等信息 有显示意义  。但接下的问题是  一词可以有多义   那么这种多义和我们得到的词向量有着怎样的联系  我们如何求得某种语境下的词向量呢

Linear Algebraic Structure of Word Senses, with Applications to Polysemy
这篇文章从一种角度描述了这种关系


此图中  tie是我们可以通过语料库 预训练得到的词向量

其与义项的关系可以描述为

也就是一种线性表达   Ai就表示特定语境下的词向量表示  ai是权重

现在要求解A  其实就是要找到一组基向量  使得其线性组合满足V

转换成一个数学上的稀疏编码问题

然后描绘图上  可以看到其在哪几种词分类中  也就表示有多少不同意思

CS224N研究热点2_Linear Algebraic Structure of Word Senses, with Applications to Polysemy(对于一词多义的向量表示研究)相关推荐

  1. Task 2: Word Vectors and Word Senses (附代码)(Stanford CS224N NLP with Deep Learning Winter 2019)

    Task 2: Word Vectors and Word Senses 目录 Task 2: Word Vectors and Word Senses 一.词向量计算方法 1 回顾word2vec的 ...

  2. 【2019斯坦福CS224N笔记】(2)Word Vectors and Word Senses

    目录 1 回顾:word2vec的主要思想 2 优化 : 梯度下降 3 The skip-gram model with negative sampling 基于负采样的Skip-gram模型  (H ...

  3. 【CS224n】(lecture2~3)Word Vectors, Word Senses, and Neural Classifiers

    学习总结 (1)word2vec主要是利用文本中词与词在局部上下文中的共现信息作为自监督学习信号: (2)还有一种稍微古老的估计词向量方法--基于矩阵分解,如在LSH潜在语义分析,手下对预料进行统计分 ...

  4. 计算机辅助翻译相关文献,计算机辅助翻译的知识结构与研究热点——基于CiteSpace的计量分析...

    摘要: 近几十年来,计算机辅助翻译已成为翻译研究领域的一个重要组成部分.即使已经展开了诸多的研究,但计算机辅助翻译领域中几乎没有使用定量的科学统计方法对该领域的知识基础和发展趋势进行研究的文献. 本文 ...

  5. CS224n研究热点5 图像对话

    为什么80%的码农都做不了架构师?>>>    本文由码农场同步,最新版本请查看原文:http://www.hankcs.com/nlp/cs224n-visual-dialog.h ...

  6. CS224n研究热点11 深度强化学习用于对话生成

    为什么80%的码农都做不了架构师?>>>    本文由码农场同步,最新版本请查看原文:http://www.hankcs.com/nlp/cs224n-deep-reinforcem ...

  7. CS224n研究热点8 谷歌的多语种神经网络翻译系统

    为什么80%的码农都做不了架构师?>>>    本文由码农场同步,最新版本请查看原文:http://www.hankcs.com/nlp/cs224n-google-nmt.html ...

  8. 贾珈:自然语言处理中9个不可不知的研究热点(附视频)

    2020 年 5 月 23 日上午,在中国中文信息学会青年工作委员会主办.北京智源人工智能研究院和美团点评承办的"ACL-IJCAI-SIGIR 顶级会议论文报告会(AIS 2020)&qu ...

  9. 预见未来丨机器学习:未来十年研究热点

    <h2 class="subheader">机器学习:未来十年研究热点 </h2><div class="gray-d1-c margin- ...

最新文章

  1. 杰森·保罗:使VR与人眼相匹配还需20年!
  2. 用 IDEA 看源码的正确姿势!你掌握了吗?
  3. 后盾网lavarel视频项目---自定义验证和自定义验证规则
  4. 汇编-使用VS2008查看反汇编语言
  5. Jmeter----5.1 设置中文
  6. MVC.Net:将Reponse Redirect从Get变为Post
  7. 动态ip、静态ip、pppoe拨号的区别
  8. Android 发送短信自定义手机号自定义短信内容
  9. 【Chrome扩展程序】解决“只能通过Chrome网上应用商店安装该程序”的方法
  10. ant-design-vue中a-date-piker日期选择器的使用/全局汉化(详细)
  11. jquery的ajax常用写法
  12. 大学必考计算机软件cad,大学CAD考试题目「附答案」
  13. 杭电ACM2075题
  14. C语言入门:华氏温度转换为摄氏温度
  15. Android开发读取通讯录信息
  16. Geoffrey Hinton获得时间检验奖;AI预测世界杯荷兰夺冠;Galactica不靠谱,ChatGPT又如何……...
  17. 布尔运算 : ^(异或运算XOR)、(与运算AND)、|(或运算OR)、 、~(非门NOT)
  18. TOEFL wordlist 31
  19. 网站推广最实用不过的七种方法
  20. 密切值法解简单评价问题附matlab代码

热门文章

  1. SAS可以用来做什么?
  2. Wi-Fi Orb 洞悉一切
  3. 百度关键字排名的几个规则
  4. GPRS模块--完整的内核修改兼容GPRS模块
  5. linux服务生产环境启动报错
  6. [iOS]Charles工具
  7. Ubuntu14.04上安装tftpd服务
  8. itext html to pdf设置边距,iText:设置边距是否有效?
  9. 零基础入门python第013讲课后测试题及答案:元祖:戴上了枷锁的列表
  10. 微积分--极值点不一定是升降分界点、升降分界点一定是极值点