链接:https://arxiv.org/pdf/1610.09893.pdf

动机

NLP任务中使用RNN已经被证明是很有用的模型方法。但是传统的RNNNLP中的应用有一个很大的限制:RNN的输出输入Embedding占用的空间太大,比如102410M词表大小的Embedding矩阵就要占掉40GB,这在大部分的GPU上都是不可训练的。本文的目标就是解决Embedding过大和参数过多的问题。

亮点

文章的亮点主要包括:

1. 通过二维Embedding使得参数所占空间和数量大幅减少,训练更快,使得手机甚至嵌入式训练成为可能

2. 由于单词安排的形式语义性表达更丰富,在NLP任务上能够不输于甚至超过一维的情形

概念

  1. 2-ComponentShared Embedding:维度共享的Embedding.

  • 每个word的词向量划分为行向量和列向量,同一行的词共享行向量,同一列也如此

  • 两个Embedding 矩阵的大小减为

方法

⒈ 新的RNN以适应新的Embedding形式

相较于传统RNN

a. t时刻的输入拆成两个(行列向量)由于矩阵U在两个小RNN中都一样,也可以看成传统的RNN交替输入行列向量

b. 显然只有都知道当前的行列向量才能预测下一个词,所以预测的行列向量跟输入错开了一个单元。

c. 由于错开,最后一次没得原始输入,需要将最后一个预测出来的行向量接过来

行列向量的softmax.最终的概率为二者相乘.

Bootstrap for Word Allocation,重新分配词表中单词的位置

a.随机分配词表中单词的位置

b.训练模型得到embedding.

c.调整单词的位置,使得最小化训练集中所有句子的NegativeLog Likelihood.

其中lr(w,r(w))表示单词w安排在r(w)行时出现在位置r的概率. lc则是列. 现在将单词w换到其他行或者列中,得到lr(w,i), 再重新计算此NLL,比如:

位置

1

2

3

1

I

you

dislike

2

NUAA

PKU

love

3

hate

we

ZJU

对于I love ZJUZJU对应的lr(w,r(w))即为-log(3,3),其中(3,3)表示第三行出现在句子的第三个位置的概率。现在将ZJU换到第二行, 对应的lr(w,2)= -log(2,3).其实也就是改为计算I Love Love这句话的概率,而任意的概率lr(w,i)lc(w,j)已经在RNN模型的softmax中计算过了。直接带入即可.

最后,因为ZJU占据了Love的位置,Love也要找下一个位置,所以这个问题是所有的单词全部重新排列,选取最小的NLL。这是个二分图的最小权值匹配问题.有现成的算法可以计算.

实验

 

. 比较的指标:PPL

T是预料中的所有token数量。

. 各数据集的情况:(token数和词典大小)

(3) BillonW数据集的结果:

可以看出在BillionW中不仅超越了stateof art的模型性能,而且大幅减少了训练参数的数量和空间大小.

总结

本文提出了一种可以大幅减少RNNNLP中应用时的Embedding矩阵的大小和数量,同时又不削减性能的方法。

论文笔记整理:吴杨,浙江大学硕士,研究方向为知识图谱、自然语言处理。


OpenKG.CN

中文开放知识图谱(简称OpenKG.CN)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 博客。

论文浅尝 | LightRNN:存储和计算高效的 RNN相关推荐

  1. ###好好好#######论文浅尝 | 基于图注意力的常识对话生成

    论文浅尝 | 基于图注意力的常识对话生成 OpenKG 祝各位读者新春快乐,猪年吉祥! 来源:IJCAI 2018. 论文下载地址:https://www.ijcai.org/proceedings/ ...

  2. 论文浅尝 | 图神经网络综述:方法及应用

    论文链接:https://arxiv.org/pdf/1812.08434.pdf GNN相关论文列表链接:https://github.com/thunlp/GNNPapers 近日,清华刘知远老师 ...

  3. 论文浅尝 | 当知识图谱遇上零样本学习——零样本学习综述

    随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题.零样本学习(Zero-Shot Learning, ZSL)的提 ...

  4. 论文浅尝 | 近期论文精选

    本文转载自公众号 PaperWeekly, 对我们近期的论文浅尝进行了精选整理并附上了相应的源码链接,感谢 PaperWeekly! TheWebConf 2018 ■ 链接 | https://ww ...

  5. 论文浅尝 | 从 6 篇顶会论文看「知识图谱」领域最新研究进展 | 解读 代码

    本文内容源自往期「论文浅尝」,由 PaperWeekly 精选并重新排版整理,感谢 PaperWeekly. ISWC 2018 ■ 链接 | http://www.paperweekly.site/ ...

  6. 论文浅尝 | 利用多语言 wordnet 上随机游走实现双语 embeddings

    论文笔记整理:谭亦鸣,东南大学博士生,研究方向为知识图谱问答. 来源:Knowledge Based System 链接:https://www.sciencedirect.com/science/a ...

  7. 论文浅尝 | 面向多语言语义解析的神经网络框架

    论文笔记整理:杜昕昱,东南大学本科生. 来源:ACL2017 链接:https://aclweb.org/anthology/P17-2007 论文训练了一个多语言模型,将现有的Seq2Tree模型扩 ...

  8. 论文浅尝 | 基于正交普鲁克分析的高效知识图嵌入学习

    笔记整理:朱渝珊,浙江大学在读博士,研究方向为快速知识图谱的表示学习,多模态知识图谱. 1.Motivation 知识图谱是许多NLP任务和下游应用的核心,如问答.对话代理.搜索引擎和推荐系统.知识图 ...

  9. 论文浅尝|简单高效的知识图谱表示学习负样本采样方法

    笔记整理 | 陈名杨,浙江大学在读博士生,主要研究方向为知识图谱表示学习 Introduction 研究知识图谱表示学习(KnowledgeGraph Embedding)可以解决当前很多应用的基本问 ...

最新文章

  1. 事物处理@Transactional
  2. C++STL模板库适配器之stack容器
  3. [Everyday Mathematics]20150104
  4. express接受get数据
  5. OpenShift 4 - 通过Service的nodePort访问应用
  6. Linux中进程正常退出return和exit()的区别
  7. Python内置的服务器的使用
  8. snmp的oid查询方法
  9. 系统制作与优化2007最终版
  10. STM8 内部flash
  11. 掌握业务流程图符号,提高业绩不再没有头绪
  12. 易支付源码第四方支付接口
  13. ASP.NET Web Pages - 教程
  14. excel公式不执行。原因是设置问题:公式->计算选项->手动
  15. 「2020总结文章」一起回顾 2020,展望 2021(JesksonUI-UniApp)
  16. 揭秘Facebook北极圈数据中心 日处理45亿赞
  17. 岳父岳母-寄快递的特殊方式
  18. vue中请求到的数据赋值给data 对象
  19. STM32 GPS悬停飞控 (三十五)树莓派 4g视频回传
  20. JS下载图片保存在本地

热门文章

  1. timer控件的使用
  2. RTT大牛告诉你,混合微内核是什么?
  3. 【Linux笔记】LED驱动程序
  4. STM32——系统滴答定时器
  5. my eclipse 类似dreamweaver编辑html,8款替代Dreamweaver的开源网页开发工具
  6. java开机自动运行,怎么用java实现程序开机自动运行
  7. 两台linux之间互传php脚本,linux下两台服务器实现同步的方法
  8. 智慧交通day04-特定目标车辆追踪03:siamese在目标跟踪中的应用-DaSiamRPN(2018)
  9. Django 页面报错 Maximum recursion depth exceeded
  10. Chapter1-5_Speech_Recognition(Alignment of HMM, CTC and RNN-T)