[论文阅读]Using the Output Embedding to Improve Language Models
论文总结(Transformer中Embedding部分提到的权重共享)
- 1)摘要
- 2)文章贡献
- 3)实验设计
- 3)实验结果
论文名:Using the Output Embedding to Improve Language Models
论文作者:Ofir Press and Lior Wolf
期刊/会议名:EACL 2017
本文作者:XMU_MIAO
1)摘要
我们研究了神经网络语言模型(NNLM)中顶层权重矩阵(输入嵌入矩阵和输出嵌入矩阵[pre-softmax映射矩阵]),我们证明了这个矩阵构成了有效的词嵌入。在训练语言模型时,我们建议绑定输入嵌入和输出嵌入(共享嵌入矩阵,weighttying\textbf{weight\,\,tying}weighttying)。
我们分析了生成的更新规则,并标明绑定后的嵌入矩阵更类似于输出嵌入矩阵的效果,而不是输入嵌入矩阵的效果。
另外还提出了一种新的针对输出嵌入矩阵的正则化方法。在各种各样的神经语言模型上,我们的方法能够减少了ppl(perplexity)\textbf{ppl(perplexity)}ppl(perplexity)。
最后,我们证明了weighttyingweight\,tyingweighttying可以在神经转换模型不损害模型性能的情况下,将模型的尺寸减少(模型参数量)到原来的一半以下。
2)文章贡献
- 将输入嵌入和输出嵌入绑定(weight tying)并验证其有效性:
(1)在语言模型中WT能够得到更好的ppl值,不管是否使用dropout;
(2)在神经转换模型中,WT在不损害模型性能的情况下,将模型尺寸(参数量)降低到原来的一半以下。 - 提出一种新的针对输出嵌入的正则化方法:将投影矩阵P∈RH×HP\in R^{H\times H}P∈RH×H作用在输入嵌入之前,即:h3=VPh2h_3=VPh_2h3=VPh2,同时在模型的损失函数上添加λ∣∣P∣∣2\lambda||P||_2λ∣∣P∣∣2的正则化项,本文的实验中λ=0.15\lambda=0.15λ=0.15。
3)实验设计
- 在各类指标上对比skip-gram和NNLM模型在输入嵌入、输出嵌入以及权重共享(WT)下的嵌入质量
- 进一步研究WT和提出的正则化方法对NNLM上的ppl的影响
- 最后在基于attention的NMT模型上研究WT的影响(在NMT模型中是将Encoder的输入嵌入以及Decoder的输出嵌入和输入嵌入绑定在一起,three-way weight tying)
3)实验结果
- 在word2vec的skip-gram模型中,输出嵌入轻微差于输入嵌入。这一结果是通过用于衡量嵌入质量的指标得到的。
- 在基于RNN的语言模型中,输出嵌入优于输入嵌入。
- 将输入嵌入(U)(U)(U)和输出嵌入(V)(V)(V)绑定在一起,即:U=VU=VU=V,效果类似于输出嵌入而不是输入嵌入。
- 在各种语言模型中,将输入嵌入和输出嵌入绑定在一起能够得到更好的ppl值,不管是否使用了dropout。
- 我们提出一种新的有效的正则化方法:在输出嵌入V之前添加一层投影矩阵P,并在模型的损失函数上加上一个正则化项λ∣∣P∣∣2\lambda||P||_2λ∣∣P∣∣2。
- 在神经转换模型中权重绑定可以将模型的尺寸(参数量)减少到原来的一半一下,而不损害其性能。
[论文阅读]Using the Output Embedding to Improve Language Models相关推荐
- GPT-2隐私泄露论文阅读:Extracting Training Data from Large Language Models
文章目录 论文地址: 原文阐释: 渔樵问对: 原理梗概 预防策略 隐私策略 这个新颖的攻击方式是什么? 三种典型采样策略: 隐私风险 文章第5页第二段中提到的 memorized training e ...
- 论文阅读:Generating Abstractive Summaries with Finetuned Language Models
文章简介: 作者认为神经摘要模型可以利用预先训练的语言表示来生成更抽象的文本 主要方法: 很多摘要生成是在源文本复制词,而不是去理解然后再去解释它,而作者解释他使用的主要是人工撰写摘要的数据集TK;D ...
- 【论文阅读】Swin Transformer Embedding UNet用于遥感图像语义分割
[论文阅读]Swin Transformer Embedding UNet用于遥感图像语义分割 文章目录 [论文阅读]Swin Transformer Embedding UNet用于遥感图像语义分割 ...
- 论文笔记--On the Sentence Embeddings from Pre-trained Language Models
论文笔记--On the Sentence Embeddings from Pre-trained Language Models 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 BERT模 ...
- 【论文解读 ACL 2019 | PLMEE】Exploring Pre-trained Language Models for Event Extraction and Generation
论文题目:Exploring Pre-trained Language Models for Event Extraction and Generation 论文来源:ACL 2019 国防科技大学 ...
- 【论文阅读ACL2020】Leveraging Graph to Improve Abstractive Multi-Document Summarization
题目:Leveraging Graph to Improve Abstractive Multi-Document Summarization (基于图表示的生成式多文档摘要方法 ) 会议:ACL20 ...
- 论文阅读:Contextual Translation Embedding for Visual Relationship Detection and SGG(PAMI2020)
还是论文题目太长打不下了(SGG:场景图生成) 中心思想:p≈u-s-o 1.目标检测 2.视觉特征提取 出于对论文上下文的理解,我觉得这里的主客体特征应该融合了fasterrcnn提取的视觉特征和主 ...
- 论文阅读:Predicting Dynamic Embedding Trajectory inTemporal Interaction Networks(JODIE模型)
最近阅读了Jure组的工作,是关于时序交互图的JODIE模型,所思所想写在这篇文章中,如果有愿意讨论的伙伴可以评论或者私聊我指出我的问题. Abstract 作者在摘要部分提出处理有顺序的交互是一个十 ...
- 论文阅读:Leveraging Code Generation to Improve Code Retrieval and Summarization via Dual Learning
论文题目与链接: [2002.10198] Leveraging Code Generation to Improve Code Retrieval and Summarization via Dua ...
最新文章
- Go 知识点(07)— 对已经关闭通道进行读写
- Unity3D专访——真正的面试
- Python爬虫教程(四)
- 国内免费Blog博客程序评测(含ASP/PHP/.net)
- 测试过程中常用的linux命令之【查找指定的文件内容】
- 信号转化java_Java基础知识回顾-7
- 在cs后台页面获取input的值方法
- jQuery学习之四---Ajax请求
- android设计模式之--观察者模式
- 微软邮箱服务器出问题了,在微软邮箱登录时常见的问题有哪些
- 手机如何看python代码_用手机运行Python代码
- 5G室内定位来了,化工厂人员定位,电厂室内定位都有用它!-新导智能
- EXT combobox赋值
- 利用MyBatis实现CRUD操作
- 登录后跳转又提示未登录
- Robot 监控服务器资源
- js正则表达式验证大于0的整数
- 软件系统分析与设计指南--HOMEWORK1
- 【leetcode】LCP51. 烹饪料理
- Houdini----Python