基于投影学习的负采样改进型上位词关系提取 (翻译学习使用)
原标题:Negative Sampling Improves Hypernymy ExtractionBased on Projection Learning
原作者们(感谢国际友人):Dmitry Ustalov†, Nikolay Arefyev§, Chris Biemann‡, and Alexander Panchenko
致谢!
附件:Ruiji Fu(付瑞吉)baseline 模型的论文
本论文的github 代码托管:github代码
建议:看完baseline 模型论文,再看本文的优化模型
基于投影学习的负采样改进型上位词关系提取
摘要:我们提出了一种新的提取方法。基于单词嵌入和投影技术的上位学习单词提取算法。相反以分类为基础的方法,基于投影的方法不需要上下位关系候选项(根据词向量计算出来)。而很自然地使用正面和负面的监督关系抽取样本,对上位词预测中负样本的影响至今没有研究。在本文中,相比较于现今最好的模型效果(傅等人(2014)关于三种不同语言的数据集实验)我们确实证明了负样本用于正则化的模型性能显著提高。
1,引言
上位词在很多自然语言处理任务中很有用,从分类的构建到查询扩展和问题回答。自动从文本中提取上位词已经成为人工构建高质量资源的一个活跃的研究领域,因为WordNet不适用于许多域-语言对。hypernymy(上位词,下同) 模式提取方法的缺点是它们的稀疏性。依赖于词对分类嵌入方法的目的是解决这个缺点, 但他们需要候选上位对。我们探索一种不需要候选对的 hypernymy 提取方法。相反, 该方法在词嵌入的基础上执行上下位词的预测。
2,相关工作
傅 et al. (2014) 首次应用投影学习上位提取。他们的方法是学习一个本位词的仿射向量转换成一个上位的词向量。采用随机梯度下降的方法对模型进行训练。利用 k-均值聚类算法将训练关系划分为若干组。一个变革为每个小组学会, 可能解释关系的投射取决于子空间的可能性。这种最先进的方法是我们实验的基线。纳亚克 (2015) 根据分类-阳离子和投影方法对离散的上位提取物进行了评价 (但在不同的数据集上, 因此这些方法不能直接比较)。本实验提出的最佳基于体系结构是 fourlayered 前馈神经网络。没有使用关系聚类。作者在模型中采用了负样本, 在损失函数中加入了正则化项。然而, 从词汇表中抽取出的负面例子却阻碍了表现。相比之下, 我们的方法使用手动创建的同义词和下位作为负样得到了显著的改进。
3,通过正规投影学习 Hypernymy 提取
3.1 baseline 方法
3.2 语言制约
向量XΦ不应该提供矢量相似(·)的初始义词向量X。注意,正则化只需要正样本P:
4,实验结果
4.2 实验 1: 俄语
4.3 实验 2: 英语
5,结论
基于投影学习的负采样改进型上位词关系提取 (翻译学习使用)相关推荐
- word2vec:基于层级 softmax 和负采样的 Skip-Gram
Skip-Gram 前一篇,我们学习了什么是 CBOW,今天来看 Skip-Gram,它是 word2vec 的另一种训练思路. Skip-Gram 和 CBOW 的思路是相反的,CBOW 是由上下文 ...
- KDD 2020 | 理解图表示学习中的负采样
今天给大家介绍的是清华大学的Zhen Yang等人在KDD 2020发表的文章"Understanding Negative Sampling in Graph Representation ...
- 深入理解深度学习——Word Embedding(六):负采样(Negative Sampling)优化
分类目录:<深入理解深度学习>总目录 相关文章: · Word Embedding(一):word2vec · Word Embedding(二):连续词袋模型(CBOW, The Con ...
- python word2vec skipgram 负采样_word2vec中的负采样
word2vec中的负采样 发布时间:2018-08-23 10:11, 浏览次数:991 , 标签: word vec 1. Hierarchical Softmax的缺点与改进 在讲基于Negat ...
- 深度学习与自然语言处理教程(1) - 词向量、SVD分解与Word2Vec(NLP通关指南·完结)
作者:韩信子@ShowMeAI 教程地址:https://www.showmeai.tech/tutorials/36 本文地址:https://www.showmeai.tech/article-d ...
- 2.7 负采样-深度学习第五课《序列模型》-Stanford吴恩达教授
负采样 (Negative Sampling) 在上个视频中,你见到了Skip-Gram模型如何帮助你构造一个监督学习任务,把上下文映射到了目标词上,它如何让你学到一个实用的词嵌入.但是它的缺点就在于 ...
- 基于高频词抽样+负采样的CBOW模型
深度学习入门小菜鸟,希望像做笔记记录自己学的东西,也希望能帮助到同样入门的人,更希望大佬们帮忙纠错啦~侵权立删. ✨word2vector系列展示✨ 一.CBOW 1.朴素CBOW模型 word2ve ...
- 深度学习 - 41.Word2vec、EGES 负采样实现 By Keras
目录 一.引言 二.实现思路 1.样本构建 2.Word2vec 架构 3.EGES 架构 4.基于 NEG 的 Word2vec 架构 三.Keras 实现 Word2vec 1.样本构建 2.模型 ...
- Tensorflow的负采样函数Sampled softmax loss学习笔记
最近阅读了YouTube的推荐系统论文,在代码实现中用到的负采样方法我比较疑惑,于是查了大量资料,总算能够读懂关于负采样的一些皮毛. 本文主要针对tf.nn.sampled_softmax_loss这 ...
最新文章
- AI一分钟 | Facebook或将面临2万亿美元罚款;大疆寻求新一轮融资,估值150亿美元
- 近期活动盘点:智慧园区大数据精准招商思享会、数据法学研讨会、海外学者短期讲学(12.21-12.24)
- DL之CNN:关于CNN(卷积神经网络)经典论文原文(1950~2018)简介总结框架结构图(非常有价值)之持续更新(吐血整理)
- 洛谷P2826 [USACO08NOV]光开关Light Switching [2017年6月计划 线段树02]
- 中科微研课题上犹授牌-农业大健康·李喜贵:谋定功能性农业
- 爬虫模拟登陆手机验证码_Python+scrapy爬虫之模拟登陆
- 协同过滤算法评测python_元学习和推荐系统:协同过滤算法选择问题的文献综述和实证研究...
- if的作用域问题 *输出1~6的随机数*
- [react] 你知道的react性能优化有哪些方法?
- 如何合理的配置线程数?
- java 拟合曲线_如何通过指数曲线拟合数据
- github(GitHub Flavored Markdown)
- linux删除php文件权限不够,linux - 用php的exec()删除目录文件提示权限不够
- android 生成长截图,【UNIAPP截长图】方案之一:滚动截屏 Android
- 如何彻底卸载3dmax2020_完全卸载3DMAX的方法
- DevC++和ege19.01版本图形库的配置安装
- 爬虫------12306
- 在Ubuntu 16.04上安装和配置VNC
- 开了留言,欢迎关注我的公众号【bigsai】唠唠嗑
- MAC地址解析-广播地址、组播地址和单播地址的特征
热门文章
- Vue生命周期中mounted和created的区别
- 百度2018营收破千亿,AI成发展主要驱动力
- Devign: Effective Vulnerability Identification byLearning Comprehensive Program Semantics viaGraph
- java检查html是否闭合,Java Html解析器和闭合标记
- 秉火429笔记之十八 ETH--以太网
- 怎样摆脱焦虑型依恋?
- 软件教父马丁.福勒的心灵鸡汤
- 享元模式--大量的飞龙
- 东大22春《计算机应用基础》在线平时作业3_100分参考非答案
- 怎么用计算机进行曲线拟合,excel怎么进行曲线拟合 excel曲线拟合图文教程