论文浅尝 | 动态词嵌入
Citation: Bamler R, Mandt S. Dynamic word embeddings.InInternational Conference on Machine Learning 2017 Jul 17 (pp. 380-389).
URL:http://proceedings.mlr.press/v70/bamler17a/bamler17a.pdf
动机
语言随着时间在不断演化,词语的意思也由于文化的转变而变化。本文欲在一个时间跨度上的文本数据中,发现词语的意思和用法的变化。词嵌入模型,通过发掘词的上下文信息,将词的意思编码到向量中,本文把词嵌入模型进行推广到序列数据中(即历史文本和社交媒体上的流文本),提出了动态词嵌入模型,来挖掘单个词随着时间变化时的语义变化。
贡献
本文得出一种概率状态空间模型,使得词和其上下文词的嵌入向量都能够根据传播过程及时的发展。其泛化了skip-gram模型;动态的组织方式,使得能够进行端到端的训练,这样就可以得到连续的嵌入轨迹,而且将噪音从word-context的统计中,平滑出去,使得我们能够共享各个时间的信息。
本文还提出了两个用来过滤和平滑的黑箱可扩展推理算法。
本文还分析三个时间跨度很长的大规模文本语料,本文的方法能够自动的寻找意义变化最大的词,而且平滑的词嵌入轨迹使得我们能够评估和可视化这些动态变化,并证明本文的方法比静态的模型效果好。
模型
本文提出的 dynamic skip-gram 模型是一种结合了潜在时间序列的贝叶斯版本的 skip-gram 模型,用来发掘词嵌入向量随时间发生的改变。其中 bayesian skip-gram 模型是 dynamic skip-gram 的基础,bayesian 模型把所有的序列(句子)都认为和时间不相关,而在 dynamic 模型中,会将这些序列(句子)关联起相应的时间戳信息。最终都是计算出每个词在上下文中能够概率最大化的向量表示。
算法
本文讨论了两个可扩展的近似推理算法,Filtering:只使用过去的信息,在数据流形式的应用中,只能以这种方式进行。Smoothing:具有所有时间的文档序列,可以学习到更好的嵌入向量。
Skip-Gram Filtering:在很多应用中,数据都是流形数据,这些数据以序列的方式到达,因此,只能通过已经观测的数据序列进行建模。
Skip-Gram Smoothing:和 Filtering 的情况不同,这里的推断会基于所有时间的观测序列,而不只是对过去的观测,所以该方法拥有更平滑的轨迹和更高的概率。 由于有了所有时间的数值,变分分布就可以不在受限于时刻。通过在所有时间步上训练模型,使用黑盒变分推断和再参数化技巧,来得到所有的变分参数。
实验
本文使用了无贝叶斯估计的 skip-gram 模型(SGI),预处理初始化的 skip-gram(SGP)和 skip-gram filtering(DSG-F), skip-gram smoothing(DSG-S) 模型,进行了比对实验。以三个具有时间线的语料作为实验数据:
分别是 Google Books 语料,“State of theUnion”语料,以及 Twitter 短文。
下图展示了 Google books 中,从1850到2008年中,余弦距离变化最大的10个词的演化过程。
不同方法的词向量轨迹的平滑性,图中所示的是两个词的余弦距离和时间的关系图,函数值越大说明词越相似,能够直观的看出词义的演化:
本文也对模型的泛化效果进行了评估测试,证明其在未看到的数据上表现的更好,通过分析给定时刻的(中心词,上下文词)二元组的预测概率来评估:
结果如下,(值越高表示效果越好):
实验表明,本文的模型(dynamic skip-gram filter,dynamicskip-gram smoothing)都能够随着时间,平滑的改变嵌入向量,并且能够更好对(词,上下文)二元组有一个较好的预测效果。本文提出的方法可以对社交媒体上数据流形式的数据进行数据挖掘,异常检测,也可以供对语言演化感兴趣的历史和社会学家使用。
论文笔记整理:李林,东南大学硕士,研究方向为知识图谱构建及更新。
OpenKG.CN
中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。
转载须知:转载需注明来源“OpenKG.CN”、作者及原文链接。如需修改标题,请注明原标题。
点击阅读原文,进入 OpenKG 博客。
论文浅尝 | 动态词嵌入相关推荐
- 论文浅尝 | 动态知识图谱对齐
论文笔记整理:谭亦鸣,东南大学博士生 来源:AAAI'21 链接:https://ojs.aaai.org/index.php/AAAI/article/view/16585 概述 本文提出了一种动态 ...
- 论文浅尝 | 基于属性嵌入的知识图谱实体对齐
论文笔记整理:王中昊,天津大学硕士,方向:自然语言处理. 来源:AAAI2019 论文链接: https://doi.org/10.1609/aaai.v33i01.3301297 概述 知识图谱之间 ...
- 论文浅尝 | 一种嵌入效率极高的 node embedding 方式
论文笔记整理:叶群,浙江大学计算机学院,知识图谱.NLP方向. 会议:WSDM 2019 链接:https://dl.acm.org/citation.cfm?id=3290961 Motivatio ...
- 论文浅尝 | 基于属性嵌入的知识图谱间实体对齐方法
笔记整理:张清恒,南京大学计算机科学与技术系,硕士研究生. 论文链接:https://people.eng.unimelb.edu.au/jianzhongq/papers/AAAI2019_Enti ...
- 论文浅尝 | 基于知识图谱嵌入的 Bootstrapping 实体对齐方法
来源: IJCAI 2018 链接: https://www.ijcai.org/proceedings/2018/0611.pdf 本文关注基于知识图谱嵌入(后文全部简称为知识嵌入)的实体对齐工作, ...
- 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings
论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...
- 论文浅尝 | 近期论文精选
本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接,感谢 PaperWeekly! TheWebConf 2018 ■ 链接 | https://ww ...
- ###好好好#######论文浅尝 | 基于图注意力的常识对话生成
论文浅尝 | 基于图注意力的常识对话生成 OpenKG 祝各位读者新春快乐,猪年吉祥! 来源:IJCAI 2018. 论文下载地址:https://www.ijcai.org/proceedings/ ...
- 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述
随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...
最新文章
- rtsp连接断开_live555学习之RTSP连接建立以及请求消息处理过程
- 量子计算机编程原理简介 和 机器学习
- 介绍一种在ABAP内核态进行内表高效拷贝的方法,和对应的Java和JavaScript版本的伪实现
- yii2中的rules验证规则
- IOC操作Bean管理XML方式(注入集合类型属性)
- PCL “(”:“::”右边的非法标记 和 E2512 功能测试宏的参数必须是简单标识符
- 聊聊困扰很多同学的一个问题:是否要转方向 ?
- 装备制造新亮点 机器人红利时代到来
- 读完两遍《STL源码剖析》后,我发现了一些辛秘
- Python初学16——程序设计方法学
- 韦东山 嵌入式Linux驱动开发基础知识 上【hello驱动 像单片机那样驱动 用结构体封装驱动 分别注册到内核
- 什么是TCP粘包?怎么解决TCP粘包问题?
- PM3嗅探数据采集密码自动提取密码工具
- Leetcode力扣 MySQL数据库 1384 按年度列出销售总额
- OMNeT 例程 Tictoc15 学习笔记
- Drupal9.1.8通过phpStudy安装后除首页其他页面均404处理
- java二维数奇数组金字塔_金字塔内神秘的数字~世界末日真的存在?
- RTE 2021:声网重磅发布“RTE万象图谱”
- 电路板之间接线的注意方法
- 软件质量保障体系建设
热门文章
- Linux 编译安装Boost
- c++11之std::move()
- 看看大神是如何计算32位数中‘1’的个数
- java的两种方式_java 两种方式的区别?
- SecureCRT远程登录ubuntu
- bind1nd\bind2nd
- 递归算法时间复杂度计算
- 100条常用写作谚语(1)(2)(3)(4)
- 2016年10月计算机网络技术,2016年10月自考《计算机网络技术》练习题及答案1
- python排序元组两个元素_在python中对具有3个元素的元组列表进行排...