Citation: Bamler R, Mandt S. Dynamic word embeddings.InInternational Conference on Machine Learning 2017 Jul 17 (pp. 380-389).

URL:http://proceedings.mlr.press/v70/bamler17a/bamler17a.pdf

动机

语言随着时间在不断演化,词语的意思也由于文化的转变而变化。本文欲在一个时间跨度上的文本数据中,发现词语的意思和用法的变化。词嵌入模型,通过发掘词的上下文信息,将词的意思编码到向量中,本文把词嵌入模型进行推广到序列数据中(即历史文本和社交媒体上的流文本),提出了动态词嵌入模型,来挖掘单个词随着时间变化时的语义变化。

贡献

  1. 本文得出一种概率状态空间模型,使得词和其上下文词的嵌入向量都能够根据传播过程及时的发展。其泛化了skip-gram模型;动态的组织方式,使得能够进行端到端的训练,这样就可以得到连续的嵌入轨迹,而且将噪音从word-context的统计中,平滑出去,使得我们能够共享各个时间的信息。

  2. 本文还提出了两个用来过滤和平滑的黑箱可扩展推理算法。

  3. 本文还分析三个时间跨度很长的大规模文本语料,本文的方法能够自动的寻找意义变化最大的词,而且平滑的词嵌入轨迹使得我们能够评估和可视化这些动态变化,并证明本文的方法比静态的模型效果好。

模型

本文提出的 dynamic skip-gram 模型是一种结合了潜在时间序列的贝叶斯版本的 skip-gram 模型,用来发掘词嵌入向量随时间发生的改变。其中 bayesian skip-gram 模型是 dynamic skip-gram 的基础,bayesian 模型把所有的序列(句子)都认为和时间不相关,而在 dynamic 模型中,会将这些序列(句子)关联起相应的时间戳信息。最终都是计算出每个词在上下文中能够概率最大化的向量表示。

算法

本文讨论了两个可扩展的近似推理算法,Filtering:只使用过去的信息,在数据流形式的应用中,只能以这种方式进行。Smoothing:具有所有时间的文档序列,可以学习到更好的嵌入向量。

  • Skip-Gram Filtering:在很多应用中,数据都是流形数据,这些数据以序列的方式到达,因此,只能通过已经观测的数据序列进行建模。

  • Skip-Gram Smoothing: Filtering 的情况不同,这里的推断会基于所有时间的观测序列,而不只是对过去的观测,所以该方法拥有更平滑的轨迹和更高的概率。 由于有了所有时间的数值,变分分布就可以不在受限于时刻。通过在所有时间步上训练模型,使用黑盒变分推断和再参数化技巧,来得到所有的变分参数。

实验

本文使用了无贝叶斯估计的 skip-gram 模型(SGI),预处理初始化的 skip-gram(SGP)和 skip-gram filtering(DSG-F), skip-gram smoothing(DSG-S) 模型,进行了比对实验。以三个具有时间线的语料作为实验数据:

分别是 Google Books 语料,“State of theUnion”语料,以及 Twitter 短文。

下图展示了 Google books 中,从1850到2008年中,余弦距离变化最大的10个词的演化过程。

不同方法的词向量轨迹的平滑性,图中所示的是两个词的余弦距离和时间的关系图,函数值越大说明词越相似,能够直观的看出词义的演化:

本文也对模型的泛化效果进行了评估测试,证明其在未看到的数据上表现的更好,通过分析给定时刻的(中心词,上下文词)二元组的预测概率来评估:

结果如下,(值越高表示效果越好):

实验表明,本文的模型(dynamic skip-gram filter,dynamicskip-gram smoothing)都能够随着时间,平滑的改变嵌入向量,并且能够更好对(词,上下文)二元组有一个较好的预测效果。本文提出的方法可以对社交媒体上数据流形式的数据进行数据挖掘,异常检测,也可以供对语言演化感兴趣的历史和社会学家使用。

论文笔记整理:李林,东南大学硕士,研究方向为知识图谱构建及更新。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | 动态词嵌入相关推荐

  1. 论文浅尝 | 动态知识图谱对齐

    论文笔记整理:谭亦鸣,东南大学博士生 来源:AAAI'21 链接:https://ojs.aaai.org/index.php/AAAI/article/view/16585 概述 本文提出了一种动态 ...

  2. 论文浅尝 | 基于属性嵌入的知识图谱实体对齐

    论文笔记整理:王中昊,天津大学硕士,方向:自然语言处理. 来源:AAAI2019 论文链接: https://doi.org/10.1609/aaai.v33i01.3301297 概述 知识图谱之间 ...

  3. 论文浅尝 | 一种嵌入效率极高的 node embedding 方式

    论文笔记整理:叶群,浙江大学计算机学院,知识图谱.NLP方向. 会议:WSDM 2019 链接:https://dl.acm.org/citation.cfm?id=3290961 Motivatio ...

  4. 论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法

    笔记整理:张清恒,南京大学计算机科学与技术系,硕士研究生. 论文链接:https://people.eng.unimelb.edu.au/jianzhongq/papers/AAAI2019_Enti ...

  5. 论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法

    来源: IJCAI 2018 链接: https://www.ijcai.org/proceedings/2018/0611.pdf 本文关注基于知识图谱嵌入(后文全部简称为知识嵌入)的实体对齐工作, ...

  6. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...

  7. 论文浅尝 | 近期论文精选

    本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接,感谢 PaperWeekly! TheWebConf 2018 ■ 链接 | https://ww ...

  8. ###好好好#######论文浅尝 | 基于图注意力的常识对话生成

    论文浅尝 | 基于图注意力的常识对话生成 OpenKG 祝各位读者新春快乐,猪年吉祥! 来源:IJCAI 2018. 论文下载地址:https://www.ijcai.org/proceedings/ ...

  9. 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

    随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...

最新文章

  1. rtsp连接断开_live555学习之RTSP连接建立以及请求消息处理过程
  2. 量子计算机编程原理简介 和 机器学习
  3. 介绍一种在ABAP内核态进行内表高效拷贝的方法,和对应的Java和JavaScript版本的伪实现
  4. yii2中的rules验证规则
  5. IOC操作Bean管理XML方式(注入集合类型属性)
  6. PCL “(”:“::”右边的非法标记 和 E2512 功能测试宏的参数必须是简单标识符
  7. 聊聊困扰很多同学的一个问题:是否要转方向 ?
  8. 装备制造新亮点 机器人红利时代到来
  9. 读完两遍《STL源码剖析》后,我发现了一些辛秘
  10. Python初学16——程序设计方法学
  11. 韦东山 嵌入式Linux驱动开发基础知识 上【hello驱动 像单片机那样驱动 用结构体封装驱动 分别注册到内核
  12. 什么是TCP粘包?怎么解决TCP粘包问题?
  13. PM3嗅探数据采集密码自动提取密码工具
  14. Leetcode力扣 MySQL数据库 1384 按年度列出销售总额
  15. OMNeT 例程 Tictoc15 学习笔记
  16. Drupal9.1.8通过phpStudy安装后除首页其他页面均404处理
  17. java二维数奇数组金字塔_金字塔内神秘的数字~世界末日真的存在?
  18. RTE 2021:声网重磅发布“RTE万象图谱”
  19. 电路板之间接线的注意方法
  20. 软件质量保障体系建设

热门文章

  1. Linux 编译安装Boost
  2. c++11之std::move()
  3. 看看大神是如何计算32位数中‘1’的个数
  4. java的两种方式_java 两种方式的区别?
  5. SecureCRT远程登录ubuntu
  6. bind1nd\bind2nd
  7. 递归算法时间复杂度计算
  8. 100条常用写作谚语(1)(2)(3)(4)
  9. 2016年10月计算机网络技术,2016年10月自考《计算机网络技术》练习题及答案1
  10. python排序元组两个元素_在python中对具有3个元素的元组列表进行排...