论文总结（Transformer中Embedding部分提到的权重共享）

1)摘要
2)文章贡献
3)实验设计
3)实验结果

论文名：Using the Output Embedding to Improve Language Models
论文作者：Ofir Press and Lior Wolf
期刊/会议名：EACL 2017
本文作者：XMU_MIAO

1)摘要

我们研究了神经网络语言模型（NNLM）中顶层权重矩阵（输入嵌入矩阵和输出嵌入矩阵[pre-softmax映射矩阵]），我们证明了这个矩阵构成了有效的词嵌入。在训练语言模型时，我们建议绑定输入嵌入和输出嵌入(共享嵌入矩阵, $weighttying\textbf{weight\,\,tying}$ )。
我们分析了生成的更新规则，并标明绑定后的嵌入矩阵更类似于输出嵌入矩阵的效果，而不是输入嵌入矩阵的效果。
另外还提出了一种新的针对输出嵌入矩阵的正则化方法。在各种各样的神经语言模型上，我们的方法能够减少了 $ppl(perplexity)\textbf{ppl(perplexity)}$ 。
最后，我们证明了 $weighttyingweight\,tying$ 可以在神经转换模型不损害模型性能的情况下，将模型的尺寸减少(模型参数量)到原来的一半以下。

2)文章贡献

将输入嵌入和输出嵌入绑定（weight tying）并验证其有效性：
（1）在语言模型中WT能够得到更好的ppl值，不管是否使用dropout；
（2）在神经转换模型中，WT在不损害模型性能的情况下，将模型尺寸（参数量）降低到原来的一半以下。
提出一种新的针对输出嵌入的正则化方法：将投影矩阵 $P∈RH×HP\in R^{H\times H}$ 作用在输入嵌入之前，即： $h_3=VPh_2$ ，同时在模型的损失函数上添加 $λ∣∣P∣∣2\lambda||P||_2$ 的正则化项，本文的实验中 $λ=0.15\lambda=0.15$ 。

3)实验设计

在各类指标上对比skip-gram和NNLM模型在输入嵌入、输出嵌入以及权重共享（WT）下的嵌入质量
进一步研究WT和提出的正则化方法对NNLM上的ppl的影响
最后在基于attention的NMT模型上研究WT的影响（在NMT模型中是将Encoder的输入嵌入以及Decoder的输出嵌入和输入嵌入绑定在一起，three-way weight tying）

3)实验结果

在word2vec的skip-gram模型中，输出嵌入轻微差于输入嵌入。这一结果是通过用于衡量嵌入质量的指标得到的。
在基于RNN的语言模型中，输出嵌入优于输入嵌入。
将输入嵌入 $(U)$ 和输出嵌入 $(V)$ 绑定在一起，即： $U = V$ ，效果类似于输出嵌入而不是输入嵌入。
在各种语言模型中，将输入嵌入和输出嵌入绑定在一起能够得到更好的ppl值，不管是否使用了dropout。
我们提出一种新的有效的正则化方法：在输出嵌入V之前添加一层投影矩阵P,并在模型的损失函数上加上一个正则化项 $λ∣∣P∣∣2\lambda||P||_2$ 。
在神经转换模型中权重绑定可以将模型的尺寸（参数量）减少到原来的一半一下，而不损害其性能。

[论文阅读]Using the Output Embedding to Improve Language Models相关推荐

GPT-2隐私泄露论文阅读：Extracting Training Data from Large Language Models
文章目录论文地址: 原文阐释: 渔樵问对: 原理梗概预防策略隐私策略这个新颖的攻击方式是什么? 三种典型采样策略: 隐私风险文章第5页第二段中提到的 memorized training e ...
论文阅读：Generating Abstractive Summaries with Finetuned Language Models
文章简介: 作者认为神经摘要模型可以利用预先训练的语言表示来生成更抽象的文本主要方法: 很多摘要生成是在源文本复制词,而不是去理解然后再去解释它,而作者解释他使用的主要是人工撰写摘要的数据集TK;D ...
【论文阅读】Swin Transformer Embedding UNet用于遥感图像语义分割
[论文阅读]Swin Transformer Embedding UNet用于遥感图像语义分割文章目录 [论文阅读]Swin Transformer Embedding UNet用于遥感图像语义分割 ...
论文笔记--On the Sentence Embeddings from Pre-trained Language Models
论文笔记--On the Sentence Embeddings from Pre-trained Language Models 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 BERT模 ...
【论文解读 ACL 2019 | PLMEE】Exploring Pre-trained Language Models for Event Extraction and Generation
论文题目:Exploring Pre-trained Language Models for Event Extraction and Generation 论文来源:ACL 2019 国防科技大学 ...
【论文阅读ACL2020】Leveraging Graph to Improve Abstractive Multi-Document Summarization
题目:Leveraging Graph to Improve Abstractive Multi-Document Summarization (基于图表示的生成式多文档摘要方法 ) 会议:ACL20 ...
论文阅读：Contextual Translation Embedding for Visual Relationship Detection and SGG(PAMI2020)
还是论文题目太长打不下了(SGG:场景图生成) 中心思想:p≈u-s-o 1.目标检测 2.视觉特征提取出于对论文上下文的理解,我觉得这里的主客体特征应该融合了fasterrcnn提取的视觉特征和主 ...
论文阅读：Predicting Dynamic Embedding Trajectory inTemporal Interaction Networks（JODIE模型）
最近阅读了Jure组的工作,是关于时序交互图的JODIE模型,所思所想写在这篇文章中,如果有愿意讨论的伙伴可以评论或者私聊我指出我的问题. Abstract 作者在摘要部分提出处理有顺序的交互是一个十 ...
论文阅读：Leveraging Code Generation to Improve Code Retrieval and Summarization via Dual Learning
论文题目与链接: [2002.10198] Leveraging Code Generation to Improve Code Retrieval and Summarization via Dua ...

[论文阅读]Using the Output Embedding to Improve Language Models