论文学习笔记02(Learning phrase representations using rnn encoder-decoder for statistical machine translat)
论文学习笔记
Learning phrase representations using rnn encoder-decoder for statistical machine translation
一.RNN Encoder-Decoder
1.优:
(1)能更好的捕捉短语的语义规律
(2)学习的是短语的连续空间表示,保留了短语的语义和句法结构。
2.RNN
h<t>=f(h<t−1>,xt)h_{<t>}=f(h_{<t-1>},x_t)h<t>=f(h<t−1>,xt)
用到前一神经元的信息。
fff:非线性激活函数
RNN特点:用到序列信息,在预测时,序列信息很重要
3.Decoder
h<t>=f(h<t−1>,y<t−1>,c)h_{<t>}=f(h_{<t-1>},y_{<t-1>},c)h<t>=f(h<t−1>,y<t−1>,c)
下一个symbol的概率:
P(yt∣yt−1,yt−2,...,y1,c)=g(h<t>,yt−1,c)P(y_t|y_{t-1},y_{t-2},...,y_1,c)=g(h_{<t>},y_{t-1},c)P(yt∣yt−1,yt−2,...,y1,c)=g(h<t>,yt−1,c)
4.模型可用于:
(1)给定源语言句子,生成目标语言句子。
(2)对输入输出序列对进行评分。
5.提出模型的原因(解决了哪些之前的模型存在的问题)
(1)FNN模型限定了输入和输出的长度。
(2)RecurNN模型限定在单语环境中。
(3)之前有提出的RNN模型中的解码器必须以源句或源上下文的表示为条件。
6.Hidden Unit
简化版本的LSTM单元,有更新门(update gate)和重置门(reset gate)。
更新门决定是否由新状态更新旧状态。
重置门决定是否忽略前一细胞状态信息(与未来无关的信息)。
7.Details
(1)语料库:Europarl、news commentary、UN和两个自己爬的语料库。
数据集:选取语料库中与给定任务最相关的子集。
(2)1000层隐藏层,激活函数选用双曲正切函数tanhtanhtanh。
(3)隐藏层中的计算采用深度神经网络实现。
拓展:激活函数
(1)若没有激活函数,则输出永远是输入的线性函数,网络的逼近能力有限。
(2)常用激活函数
sigmoidsigmoidsigmoid函数
f(z)=11+e−zf(z)=\frac{1}{1+e^{-z}}f(z)=1+e−z1
特性:能将连续的输入转换为0-1之间的值。
缺点:容易导致梯度消失;非0均值;有幂运算,耗时。
tanhtanhtanh函数
tanh(x)=ex−e−xex+e−xtanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}tanh(x)=ex+e−xex−e−x
是0均值。值域为【-1,1】。
ReluReluRelu函数
Relu=max(0,x)Relu=max(0,x)Relu=max(0,x)
即取最大值函数,没有梯度消失的问题。
LeaklyReluLeakly ReluLeaklyRelu函数
f(x)=max(αx,x)f(x)=max({\alpha}x,x)f(x)=max(αx,x)
EluEluElu
f(x)={α(ex−1)otherwisexifx>0f(x)=\{^{{x}{{\qquad}if x>0}}_{{\alpha}(e^x-1){\qquad}otherwise}f(x)={α(ex−1)otherwisexifx>0
MaxoutMaxoutMaxout函数(?)
是深度学习中的一层网络,激活函数层。
拓展:LSTM(Long Short-term Memory/长短期记忆)
原理:
门:输入门、遗忘门、输出门
δ\deltaδ:SigmoidSigmoidSigmoid函数,值域为【0,1】,用于决定遗忘多少信息,0:全部遗忘,1:全部记住。
hth_tht:细胞的输出
xtx_txt:当前输入
CtC_tCt:细胞状态
WWW:学习到的权值矩阵
第一步:决定从细胞状态忘记什么信息:
ft=δ(Wf[ht−1,xt]+bf)f_t=\delta(W_f[h_{t-1},x_t]+b_f)ft=δ(Wf[ht−1,xt]+bf)
第二步:决定让多少新的信息加入细胞状态中:
it=δ(Wi[ht−1,xt]+bi)i_t=\delta(W_i[h_{t-1},x_t]+b_i)it=δ(Wi[ht−1,xt]+bi)
tanhtanhtanh用来生成一个向量,即备选的用来更新的内容:
Ct~=tanh(Wc[ht−1,xt]+bC)\widetilde{C_t}=tanh(W_c[h_{t-1},x_t]+b_C)Ct=tanh(Wc[ht−1,xt]+bC)
第三步:更新细胞状态
Ct=ft∗Ct−1+it∗Ct~C_t=f_t*C_{t-1}+i_t*\widetilde{C_t}Ct=ft∗Ct−1+it∗Ct
第四步:确定输出(过滤后版本)
ot=δ(Wo[ht−1,xt]+bo)o_t=\delta(W_o[h_{t-1},x_t]+b_o)ot=δ(Wo[ht−1,xt]+bo)
ht=ot∗tanh(Ct)h_t=o_t*tanh(C_t)ht=ot∗tanh(Ct)
拓展:BLEU
BLEU:bilingual evaluation understudy,即:双语互译质量评估辅助工具。
思想:一句话的机器翻译与人工翻译越接近,则越好。通常将一个机器翻译结果与多个参考翻译结果比较,取综合分数。
拓展:词袋模型
将所有词语装进一个袋子里,不考虑其词法和语序的问题,即每个词语都是独立的。
一般装词的索引。
论文学习笔记02(Learning phrase representations using rnn encoder-decoder for statistical machine translat)相关推荐
- Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation之每日一篇
真正提出 Seq2Seq 的文章是<Sequence to Sequence Learning with Neural Networks>,但本篇<Learning Phrase R ...
- 【Paper】Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation
论文原文:PDF 论文年份:2014 论文被引:11398(2020/11/08) 18225(2022/03/26) 论文作者:Kyunghyun Cho et.al. 文章目录 Abstract ...
- CLIP 论文学习笔记《Learning Transferable Visual Models From Natural Language Supervision》
论文标题:Learning Transferable Visual Models From Natural Language Supervision 论文地址:https://arxiv.org/a ...
- 论文学习笔记:Learning to Estimate 3D Human Pose and Shape From a Single Color Image
解决的问题:从单个彩色图像估计人体的姿势和形状 - 一般方法:通过迭代优化 - 存在的问题:卷积网络缺少训练数据.3D预测时分辨率低 本篇论文的工作:提出一个基于卷积网络的高效的直接预测方法来解决上述 ...
- 【论文学习笔记】《An Overview of Voice Conversion and Its Challenges》
<An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning&g ...
- 识别和追踪主题层次的影响力者(来自2018 Machine Learning 论文学习笔记)
本文作者:合肥工业大学 管理学院 钱洋 email:1563178220@qq.com . 以下内容是个人的论文阅读笔记,内容可能有不到之处,欢迎交流. 未经本人允许禁止转载. 文章目录 论文来源 论 ...
- 论文学习笔记 POSEIDON: Privacy-Preserving Federated Neural Network Learning
论文学习笔记 POSEIDON: Privacy-Preserving Federated Neural Network Learning NDSS 2021录用文章 目录 论文学习笔记 POSEID ...
- 论文学习笔记: Learning Multi-Scale Photo Exposure Correction(含pytorch代码复现)
论文学习笔记: Learning Multi-Scale Photo Exposure Correction--含pytorch代码复现 本章工作: 论文摘要 训练数据集 网络设计原理 补充知识:拉普 ...
- 论文阅读 [TPAMI-2022] On Learning Disentangled Representations for Gait Recognition
论文阅读 [TPAMI-2022] On Learning Disentangled Representations for Gait Recognition 论文搜索(studyai.com) 搜索 ...
最新文章
- c#总结最近的几项重要代码
- 阅读记录:Learning multiple layers of representation(杂乱笔记)
- 【转】C语言中DEFINE简介及多行宏定义
- Vue学习----webpack跨域问题proxyTable
- python就业班 miniweb框架_mini-web框架
- android 获取通讯录全选反选_Xamarin.Forms读取并展示Android和iOS通讯录 TerminalMACS客户端...
- linux内核那些事之struct page
- 【Maven实战】依赖的聚合和版本管理
- java怎么给坦克上图片_Java坦克大战 (七) 之图片版
- Android项目模块化/组件化开发(非原创)
- Python答题并统计的小程序
- pyhton根据城市名称获取省份名称
- 咸鱼Maya笔记—灯光效果
- aria2 配置教程
- Android 校正系统时间的三种解决方案
- 用JavaScript实现元素自动旋转功能
- 微信小程序 非webview分享给好友及生成分享海报
- 关于WPS添加EndNote插件的问题
- 张小龙、周鸿祎、傅盛都认同的架构设计思维
- 字节跳动寒假日常实习一面面经
热门文章
- 方正Founder A6300 一体机驱动
- Ubuntu安装软件笔记
- 从睫毛膏到太空垃圾,2018年度最佳数据可视化作品都在这了!
- iOS 输入地点 显示当前位置地图并用大头针标注
- “旧城改造”的背后——银泰新零售阿里云解决方案(下)...
- 支付宝 手机网站支付
- mysql 数据表父子关联数据查询sql
- 无本地组策略如何解决LOL无法图形化设备问题Windows10
- linux tomcat设置classpath,理解Tomcat的Classpath-常见问题以及如何解决
- [Unity3D] Unity3D游戏开发之UGUI实现伤害数值显示