论文学习笔记

Learning phrase representations using rnn encoder-decoder for statistical machine translation

一.RNN Encoder-Decoder

1.优:

(1)能更好的捕捉短语的语义规律
(2)学习的是短语的连续空间表示,保留了短语的语义和句法结构。

2.RNN

h&lt;t&gt;=f(h&lt;t−1&gt;,xt)h_{&lt;t&gt;}=f(h_{&lt;t-1&gt;},x_t)h<t>​=f(h<t−1>​,xt​)
用到前一神经元的信息。
fff:非线性激活函数
RNN特点:用到序列信息,在预测时,序列信息很重要

3.Decoder

h&lt;t&gt;=f(h&lt;t−1&gt;,y&lt;t−1&gt;,c)h_{&lt;t&gt;}=f(h_{&lt;t-1&gt;},y_{&lt;t-1&gt;},c)h<t>​=f(h<t−1>​,y<t−1>​,c)
下一个symbol的概率:
P(yt∣yt−1,yt−2,...,y1,c)=g(h&lt;t&gt;,yt−1,c)P(y_t|y_{t-1},y_{t-2},...,y_1,c)=g(h_{&lt;t&gt;},y_{t-1},c)P(yt​∣yt−1​,yt−2​,...,y1​,c)=g(h<t>​,yt−1​,c)

4.模型可用于:

(1)给定源语言句子,生成目标语言句子。
(2)对输入输出序列对进行评分。

5.提出模型的原因(解决了哪些之前的模型存在的问题)

(1)FNN模型限定了输入和输出的长度。
(2)RecurNN模型限定在单语环境中。
(3)之前有提出的RNN模型中的解码器必须以源句或源上下文的表示为条件。

6.Hidden Unit

简化版本的LSTM单元,有更新门(update gate)和重置门(reset gate)。
更新门决定是否由新状态更新旧状态。
重置门决定是否忽略前一细胞状态信息(与未来无关的信息)。

7.Details

(1)语料库:Europarl、news commentary、UN和两个自己爬的语料库。
数据集:选取语料库中与给定任务最相关的子集。
(2)1000层隐藏层,激活函数选用双曲正切函数tanhtanhtanh。
(3)隐藏层中的计算采用深度神经网络实现。

拓展:激活函数

(1)若没有激活函数,则输出永远是输入的线性函数,网络的逼近能力有限。


(2)常用激活函数
sigmoidsigmoidsigmoid函数
f(z)=11+e−zf(z)=\frac{1}{1+e^{-z}}f(z)=1+e−z1​
特性:能将连续的输入转换为0-1之间的值。
缺点:容易导致梯度消失;非0均值;有幂运算,耗时。

tanhtanhtanh函数
tanh(x)=ex−e−xex+e−xtanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}tanh(x)=ex+e−xex−e−x​
是0均值。值域为【-1,1】。

ReluReluRelu函数
Relu=max(0,x)Relu=max(0,x)Relu=max(0,x)
即取最大值函数,没有梯度消失的问题。

LeaklyReluLeakly ReluLeaklyRelu函数
f(x)=max(αx,x)f(x)=max({\alpha}x,x)f(x)=max(αx,x)

EluEluElu
f(x)={α(ex−1)otherwisexifx&gt;0f(x)=\{^{{x}{{\qquad}if x&gt;0}}_{{\alpha}(e^x-1){\qquad}otherwise}f(x)={α(ex−1)otherwisexifx>0​

MaxoutMaxoutMaxout函数(?)
是深度学习中的一层网络,激活函数层。

拓展:LSTM(Long Short-term Memory/长短期记忆)

原理:

门:输入门、遗忘门、输出门

δ\deltaδ:SigmoidSigmoidSigmoid函数,值域为【0,1】,用于决定遗忘多少信息,0:全部遗忘,1:全部记住。
hth_tht​:细胞的输出
xtx_txt​:当前输入
CtC_tCt​:细胞状态
WWW:学习到的权值矩阵

第一步:决定从细胞状态忘记什么信息:
ft=δ(Wf[ht−1,xt]+bf)f_t=\delta(W_f[h_{t-1},x_t]+b_f)ft​=δ(Wf​[ht−1​,xt​]+bf​)
第二步:决定让多少新的信息加入细胞状态中:
it=δ(Wi[ht−1,xt]+bi)i_t=\delta(W_i[h_{t-1},x_t]+b_i)it​=δ(Wi​[ht−1​,xt​]+bi​)
tanhtanhtanh用来生成一个向量,即备选的用来更新的内容:
Ct~=tanh(Wc[ht−1,xt]+bC)\widetilde{C_t}=tanh(W_c[h_{t-1},x_t]+b_C)Ct​​=tanh(Wc​[ht−1​,xt​]+bC​)
第三步:更新细胞状态
Ct=ft∗Ct−1+it∗Ct~C_t=f_t*C_{t-1}+i_t*\widetilde{C_t}Ct​=ft​∗Ct−1​+it​∗Ct​​
第四步:确定输出(过滤后版本)
ot=δ(Wo[ht−1,xt]+bo)o_t=\delta(W_o[h_{t-1},x_t]+b_o)ot​=δ(Wo​[ht−1​,xt​]+bo​)
ht=ot∗tanh(Ct)h_t=o_t*tanh(C_t)ht​=ot​∗tanh(Ct​)

拓展:BLEU

BLEU:bilingual evaluation understudy,即:双语互译质量评估辅助工具。
思想:一句话的机器翻译与人工翻译越接近,则越好。通常将一个机器翻译结果与多个参考翻译结果比较,取综合分数。

拓展:词袋模型

将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个词语都是独立的。
一般装词的索引。

论文学习笔记02(Learning phrase representations using rnn encoder-decoder for statistical machine translat)相关推荐

  1. Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation之每日一篇

    真正提出 Seq2Seq 的文章是<Sequence to Sequence Learning with Neural Networks>,但本篇<Learning Phrase R ...

  2. 【Paper】Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation

    论文原文:PDF 论文年份:2014 论文被引:11398(2020/11/08) 18225(2022/03/26) 论文作者:Kyunghyun Cho et.al. 文章目录 Abstract ...

  3. CLIP 论文学习笔记《Learning Transferable Visual Models From Natural Language Supervision》

    ​论文标题:Learning Transferable Visual Models From Natural Language Supervision 论文地址:https://arxiv.org/a ...

  4. 论文学习笔记:Learning to Estimate 3D Human Pose and Shape From a Single Color Image

    解决的问题:从单个彩色图像估计人体的姿势和形状 - 一般方法:通过迭代优化 - 存在的问题:卷积网络缺少训练数据.3D预测时分辨率低 本篇论文的工作:提出一个基于卷积网络的高效的直接预测方法来解决上述 ...

  5. 【论文学习笔记】《An Overview of Voice Conversion and Its Challenges》

    <An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning&g ...

  6. 识别和追踪主题层次的影响力者(来自2018 Machine Learning 论文学习笔记)

    本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com . 以下内容是个人的论文阅读笔记,内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 文章目录 论文来源 论 ...

  7. 论文学习笔记 POSEIDON: Privacy-Preserving Federated Neural Network Learning

    论文学习笔记 POSEIDON: Privacy-Preserving Federated Neural Network Learning NDSS 2021录用文章 目录 论文学习笔记 POSEID ...

  8. 论文学习笔记: Learning Multi-Scale Photo Exposure Correction(含pytorch代码复现)

    论文学习笔记: Learning Multi-Scale Photo Exposure Correction--含pytorch代码复现 本章工作: 论文摘要 训练数据集 网络设计原理 补充知识:拉普 ...

  9. 论文阅读 [TPAMI-2022] On Learning Disentangled Representations for Gait Recognition

    论文阅读 [TPAMI-2022] On Learning Disentangled Representations for Gait Recognition 论文搜索(studyai.com) 搜索 ...

最新文章

  1. c#总结最近的几项重要代码
  2. 阅读记录:Learning multiple layers of representation(杂乱笔记)
  3. 【转】C语言中DEFINE简介及多行宏定义
  4. Vue学习----webpack跨域问题proxyTable
  5. python就业班 miniweb框架_mini-web框架
  6. android 获取通讯录全选反选_Xamarin.Forms读取并展示Android和iOS通讯录 TerminalMACS客户端...
  7. linux内核那些事之struct page
  8. 【Maven实战】依赖的聚合和版本管理
  9. java怎么给坦克上图片_Java坦克大战 (七) 之图片版
  10. Android项目模块化/组件化开发(非原创)
  11. Python答题并统计的小程序
  12. pyhton根据城市名称获取省份名称
  13. 咸鱼Maya笔记—灯光效果
  14. aria2 配置教程
  15. Android 校正系统时间的三种解决方案
  16. 用JavaScript实现元素自动旋转功能
  17. 微信小程序 非webview分享给好友及生成分享海报
  18. 关于WPS添加EndNote插件的问题
  19. 张小龙、周鸿祎、傅盛都认同的架构设计思维
  20. 字节跳动寒假日常实习一面面经

热门文章

  1. 方正Founder A6300 一体机驱动
  2. Ubuntu安装软件笔记
  3. 从睫毛膏到太空垃圾,2018年度最佳数据可视化作品都在这了!
  4. iOS 输入地点 显示当前位置地图并用大头针标注
  5. “旧城改造”的背后——银泰新零售阿里云解决方案(下)...
  6. 支付宝 手机网站支付
  7. mysql 数据表父子关联数据查询sql
  8. 无本地组策略如何解决LOL无法图形化设备问题Windows10
  9. linux tomcat设置classpath,理解Tomcat的Classpath-常见问题以及如何解决
  10. [Unity3D] Unity3D游戏开发之UGUI实现伤害数值显示