独家 | 图解BiDAF中的单词嵌入、字符嵌入和上下文嵌入(附链接)
作者:Meraldo Antonio
翻译:张玲
校对:吴金笛
本文约5200字,建议阅读15分钟。
本文重点讲解机器问答任务中常见机器学习模型BiDAF是如何利用单词、字符和上下文3种嵌入机制将单词转化为向量形式,同时包括单词的句法、语义和上下文信息的。
GloVe
https://nlp.stanford.edu/projects/glove/
优秀的资源
http://mlexplained.com/2018/04/29/paper-dissected-glove-global-vectors-for-word-representation-explained/
BiDAF使用Glove预先训练好的嵌入来获得Query和Context中单词的向量表示。“预训练”指的是在BiDAF模型训练过程中GloVe提前训练好的向量值不会更新,处于冻结状态。因此,你可以把BiDAF的单词嵌入步骤看作是一个简单的查找字典步骤,我们用向量(“字典”的“值”)替换单词(Glove“字典”的“键”)。
1.将这一层的权重矩阵W与y相乘。
2.在W*y中添加偏差b。
3.对W*y应用非线性函数g,如Relu或Tanh
在退出高速神经网络时,将输入的转化部分和未转化部分加起来。
LSTM是一种能够记忆长期相关性的神经网络体系结构。当我们将一个输入序列(例如一个文本字符串)输入到一个常规的前向LSTM层时,每个时间步的输出序列都将对来自该时间步和过去时间步的信息进行编码。换句话说,每个单词的输出嵌入都将包含来自其前面单词的上下文信息。
BiDAF采用双向LSTM(Bi-LSTM),由前向和后向LSTM组成。前向和后向LSTM的组合输出嵌入会同时编码来自过去(向后)和未来(向前)的状态信息。换言之,现在这一层出来的每个单词表示都包含这个单词周围语境的上下文信息。
下一篇文章:
https://towardsdatascience.com/the-definitive-guide-to-bidaf-part-3-attention-92352bbdcb07
Context:Query的附带文本,里面包含Query的答案。
Query:模型应该给出回答的问题。
Answer:Context的子字符串,包含可以回答Query的信息。这个子串是由模型提取出来的。
T:Context中的单词/标记数量。
J:Query中的单词/标记数量。
d1:单词嵌入步骤的维度(GloVe)。
d2:字符嵌入步骤的维度。
d:通过垂直联结单词和字符嵌入而获得的矩阵维度,d=d1+d2。
H:上下文嵌入步骤输出的Context矩阵,尺寸为2d-by-T。
U:上下文嵌入步骤输出的Query矩阵,尺寸为2d-by-J。
[1] Bi-Directional Attention Flow for Machine Comprehension (Minjoon Seo et. al, 2017)
https://arxiv.org/abs/1611.01603
[2] Character-Aware Neural Language Models (Yoon Kim et. al, 2015)
https://arxiv.org/abs/1508.06615
原文标题:
Word Embedding, Character Embedding and Contextual Embedding in BiDAF — an Illustrated Guide
原文链接:
https://towardsdatascience.com/the-definitive-guide-to-bidaf-part-2-word-embedding-character-embedding-and-contextual-c151fc4f05bb
译者简介
张玲,在岗数据分析师,计算机硕士毕业。从事数据工作,需要重塑自我的勇气,也需要终生学习的毅力。但我依旧热爱它的严谨,痴迷它的艺术。数据海洋一望无境,数据工作充满挑战。感谢数据派THU提供如此专业的平台,希望在这里能和最专业的你们共同进步!
翻译组招募信息
工作内容:将选取好的外文前沿文章准确地翻译成流畅的中文。如果你是数据科学/统计学/计算机专业的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友,数据派翻译组欢迎你们加入!
你能得到:提高对于数据科学前沿的认知,提高对外文新闻来源渠道的认知,海外的朋友可以和国内技术应用发展保持联系,数据派团队产学研的背景为志愿者带来好的发展机遇。
其他福利:和来自于名企的数据科学工作者,北大清华以及海外等名校学生共同合作、交流。
点击文末“阅读原文”加入数据派团队~
点击“阅读原文”拥抱组织
独家 | 图解BiDAF中的单词嵌入、字符嵌入和上下文嵌入(附链接)相关推荐
- 独家 | 在机器学习中利用统计插补来处理缺失值(附代码)
作者:Jason Brownlee 翻译:吴振东 校对:冯羽 本文约4500字,建议阅读10分钟 本文以病马数据集为例,帮助你了解在机器学习领域如何利用统计策略来处理缺失值,对代码进行了较为详细的讲解 ...
- 图解机器学习:人人都能懂的算法原理(附链接)
来源:机器之心 本文约2400字,建议阅读5分钟 本文整理了一篇博客文章的内容,读者可根据这些图理解看似高深的机器学习算法. 标签:机器学习 算法公式挺费神,机器学习太伤人.任何一个刚入门机器学习的人 ...
- 独家 | 在PyTorch中用图像混合(Mixup)增强神经网络(附链接)
作者:Ta-Ying Cheng翻译:陈之炎校对:车前子本文约2000字,建议阅读5分钟随机混合图像,效果是不是会更好? 标签:神经网络.图像混合 一直以来,在深度学习领域,图像分类是呈指数级增长的课 ...
- 独家 | 展望未来:数据科学、数据工程及技术(附链接)
作者:SeattleDataGuy (Zack Shapiro)翻译:殷之涵 校对:欧阳锦本文约2800字,建议阅读8分钟本文通过6位科技工作者的观察及感受,为大家介绍2021年即将发生在数据科学及数 ...
- 独家 | 为什么要尝试A/B测试的贝叶斯方法(附链接)
作者:Michael Armanious 翻译:欧阳锦 校对:阿笛 本文约3400字,建议阅读8分钟 本文通过一个A/B测试的实例,介绍了贝叶斯方法的各种优点和具体的实现方法,同时也将贝叶斯推断方法与 ...
- 独家 | 构建符合道德规范的用于人才管理的AI(附链接)
作者:Tomas Chamorro-Premuzic,Frida Polli,Ben Dattner 翻译:wwl 校对:吴金笛 本文约2800字,建议阅读5分钟 在人才管理中,相较于依赖招聘经理的人 ...
- 独家 | 一文读懂概率论学习:贝叶斯理论(附链接)
作者:Jaime Zornoza 翻译:李 洁 校对:郑 滋 本文长度约为3400字,建议阅读10分钟 本文为大家详细介绍了概念学习中常见的贝叶斯理论. 通过一个简单示例,了解概率的基本定理之一. 本 ...
- 独家 | 你的神经网络不起作用的37个理由(附链接)
作者:Slav Ivanov 翻译:吴金笛 校对:丁楠雅 本文约4400字,建议阅读12分钟. 本文列举了在搭建神经网络过程中的37个易错点,并给出了解决建议. 有一个网络已经训练了12个小时.一切看 ...
- 独家 | 13大技能助你成为超级数据科学家!(附链接)
翻译:张睿毅 校对:王威力 本文约4000字,建议阅读8分钟. 本文为你介绍超级数据科学家的13大基本技能. (链接:https://www.linkedin.com/feed/update/ urn ...
最新文章
- 记录一次git的误删除操作--恢复
- 十个机器学习的成功案例
- MC新手入门(五十)------服务器连接 一
- BCI competition IV 2b简介
- 站着办公有助减轻体重
- Vmware 没有vmnet8虚拟网卡、解决方法就是:刷机
- Vsftpd文件传输服务(本地用户访问)
- Windows 8消费者预览版发布啦(附离线分享)
- ClassLoader 详解及用途
- CentOs6.5 修改主机名
- (TOJ1531)爱的伟大意义
- 【资料】机器学习笔记的github镜像下载(github个人star数量排名175)
- 计算机硬件基础英语ppt,计算机硬件技术基础,computer hardware technology elements,音标,读音,翻译,英文例句,英语词典...
- android seekbar 圆角,android - 最小或最大时,圆角android seekbar的ui奇怪行为 - 堆栈内存溢出...
- Spring后端接收表单方式上传的文件和数据
- 第四季-专题18-FLASH驱动程序设计
- 2005计算机编程入门教学,Micro:bit教程05—小bit编程入门教程
- 程序员的成长课-读后感
- No toolchains found in the NDK toolchains folder for ABI with prefix:XXX
- 图片相似原理 - Java实现
热门文章
- windows下nginx的简单使用
- Linux命令 crontab的理解和使用方法
- EXCEL 电子表格MID 返回值 不能用于计算的问题
- spring 配置文件位置
- Django admin coercing to Unicode: need string or buffer, tuple found
- Android string.xml 通配符 %$用法
- Linux安装图解全过程(Linux Text文本界面安装)
- 图像处理基础知识及matlab,MATLAB图像处理基础知识
- Class.forName(xxx.xx.xx) 解耦
- solaris10修改IP