RNN的数学符号(Notation)
来源:Coursera吴恩达深度学习课程
本节先从定义符号(notation)开始一步步构建序列模型。
如上图,你想要建立一个序列模型,它的输入语句是这样的:“Harry Potter and Herminoe Granger invented a new spell.”,(这些人名都是出自于J.K.Rowling笔下的系列小说Harry Potter)。假如你想要建立一个能够自动识别句中人名位置的序列模型,那么这就是一个命名实体识别问题(Name entity recognition),这常用于搜索引擎(search engines)。
现在给定这样的输入数据x,假如你想要一个序列模型输出y,使得输入的每个单词都对应一个输出值,同时这个y能够表明输入的单词是否是人名的一部分。技术上来说这也许不是最好的输出形式,还有更加复杂的输出形式,它不仅能够表明输入词是否是人名的一部分,它还能够告诉你这个人名在这个句子里从哪里开始到哪里结束。比如Harry Potter、Hermione Granger。
更简单的那种输出形式:这个输入数据是9个单词组成的序列,最终用9个特征集合来表示这9个单词:
用x^来索引这个序列的中间位置。t意味着它们是时序序列(temporal sequences),但不论是否是时序序列,我们都将用t来索引序列中的位置。输出数据表示为:
输入序列的长度表示为T_x,在这里T_x=9,输出序列的长度表示为T_y,在这里T_y=T_x=9(输入序列长度和输出序列长度也可以不相等)。
还有一些符号,第i个训练样本的序列中第t个元素表示为:
第i个训练样本的输出序列的长度表示为:
第i个训练样本的输出序列中第t个元素表示为:
第i个训练样本的输出序列的长度表示为:
接下来我们讨论一下怎样表示一个句子里单个的词。
如上图,想要表示一个句子里的单词,第一件事是做一张词表(Vocabulary),有时也称词典(Dictionary),意思是列一列你的表示方法中用到的单词。这个词表(下图所示)中的第一个词是a,也就是说词典中的第一个单词是a,第二个单词是Aaron,然后更下面一些是单词and,再后面你会找到Harry,然后找到Potter,这样一直到最后,词典里最后一个单词可能是Zulu。
因此a是第一个单词,Aaron是第二个单词,在这个词典里,and出现在367这个位置上,Harry是在4075这个位置,Potter在6830,词典里的最后一个单词Zulu可能是第10,000个单词。所以在这个例子中Andrew用了10,000个单词大小的词典,这对现代自然语言处理应用来说太小了。对于商业应用来说,或者对于一般规模的商业应用来说30,000到50,000词大小的词典比较常见,也有100,000词,而且有些大型互联网公司会用百万词,甚至更大的词典。
如果你选定了10,000词的词典,构建这个词典的一个方法是遍历你的训练集,并且找到前10,000个常用词,你也可以去浏览一些网络词典,它能告诉你英语里最常用的10,000个单词,接下来你可以用one-hot表示法(representations)来表示词典里的每个单词。
举个例子,(1)在这里x^表示Harry这个单词,它就是一个第4075行是1,其余值都是0的向量(上图编号1所示),因为那是Harry在这个词典里的位置。(2)同样x^是个第6830行是1,其余位置都是0的向量(上图编号2所示)。(3)第三个单词and在词典里排第367,所以x^就是第367行是1,其余值都是0的向量(上图编号3所示)。(4)因为a是字典第一个单词,x^对应a,那么这个向量的第一个位置为1,其余位置都是0的向量(上图编号4所示)。
所以这种表示方法中,x^指代句子里的任意词,它就是个one-hot向量,因为它只有一个值是1,其余值都是0,所以会有9个one-hot向量来表示这个句中的9个单词,如果你的词典大小是10,000的话,那么这里的每个向量都是10,000维的。目的是用这样的表示方式表示X,用序列模型在X和目标输出Y之间学习建立一个映射。Andrew把它当作监督学习的问题(supervised learning problem),而且确信会给定带有(x,y)标签的数据。
注意一下,如果你遇到了一个不在你词表中的单词,答案就是创建一个新的标记,也就是一个叫做Unknow Word的伪单词,用<UNK>作为标记,来表示不在词表中的单词,我们之后会讨论更多有关这个的内容。
说明:记录学习笔记,如果错误欢迎指正!转载请联系我。
RNN的数学符号(Notation)相关推荐
- 1.2 数学符号-深度学习第五课《序列模型》-Stanford吴恩达教授
←上一篇 ↓↑ 下一篇→ 1.1 为什么选择序列模型 回到目录 1.3 循环神经网络 数学符号(Notation) 本节先从定义符号开始一步步构建序列模型. 比如说你想要建立一个序列模型,它的输入语句 ...
- 数学菜鸟的AI学习攻略 | 数学符号轻松入门
你是否跟我一样,自幼恨透数学. 现在,我终于发现了我对数学绝缘的最主要原因:我的老师从来不去回答最重要的问题:我为什么要学数学?学数学有什么用? 他们只是在黑板上写下一大堆方程,并让我记下来. 现在, ...
- 数学菜鸟的AI学习攻略——数学符号轻松入门
[ 导读 ] 自学AI的过程中,我们非常需要理解这些数学符号.它可以让你用一种非常简洁的方式来表达一个复杂的想法. 你是否跟我一样,自幼恨透数学. 现在,我终于发现了我对数学绝缘的最主要原因:我的老师 ...
- 机器学习15种常用数学符号!
↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:小雨姑娘,康涅狄格大学,Datawhale成员 这三天复现一个论文 ...
- 优化方法:常用数学符号的含义
优化方法:常用数学符号的含义 min x ∈ Ω f ( x ) f ( x ) 在 Ω 上 的 最 小 值 \min \limits_{x \in \Omega} f(x) \qquad f(x ...
- 【机器学习基础】机器学习的常用数学符号
作者:小雨姑娘,康涅狄格大学,Datawhale成员 这三天复现一个论文实验结果不正确,一直找不到原因,后来发现是自己把 当成了 . 如果你到现在搞不懂这两个符号的区别,这问题就跟学英语记不住周一到周 ...
- 【Tools】Markdown数学符号公式(史上最全公式表)
Markdown数学符号&公式 文章目录 Markdown数学符号&公式 1. 希腊字母表 2. 希腊字母 3. 数学符号表 4. 数学符号 5. 数学符号补充表 6. 数学符号补充 ...
- 智源研究院发布世界首个“机器学习通用数学符号集”
上周举行的智源大会嘉宾众多.信息量巨大,相信很多老师同学都会觉得有点应接不暇吧.智源研究院在大会上有很多重要的发布,因为时间关系,来不及展开.今天我们要好好说说其中非常有意义的一项.这就是智源研究院组 ...
- 干货丨一文介绍机器学习中基本的数学符号
在机器学习中,你永远都绕不过数学符号. 通常,只要有一个代数项或一个方程符号看不懂,你就完全看不懂整个过程是怎么回事了.这种境况非常令人沮丧,尤其是对于那些正在成长中的机器学习初学者来说更是如此. 如 ...
- Latex常用数学符号
手画 如果本文中没有相应得希腊字母表示,想要希腊字母的 MarkDown代码,只需要在detexify 网站中的框框里用鼠标写出该字母,再选择对应的代码即可 如下图 常用latex数学符号 另外下面是 ...
最新文章
- if with large data project
- weedfs文件使用记录
- angular change the url , prevent reloading
- python mro c3_Python 19 MRO和C3算法
- Android开发之Is Library篇
- python matlablib安装踏坑记
- 宏基因组多少钱一个样_太阳能路灯价格是多少钱一盏(12米高杆灯报价)
- 无锡太湖学院计算机科学与技术宿舍,无锡太湖学院宿舍怎么样
- [2018.10.17 T2] 最优路线
- 常用的linux巡检命令,linux常用巡检命令
- nodejs中art-template模板语法冲突解决方案
- iOS手势的传递问题
- 行测题练习(7-29)【1】
- 有向图和无向图转化为邻接表后链表中结点个数
- 手机文件夹为什么是英文?哪些可以删除?看完清理能多出10G内存
- bad substitution
- 【uniapp】根据身份证号获取生日日期
- 西安80转2000坐标参数_!!!西安80坐标与地方坐标系的转换方法技巧
- 杭州将投放10万辆新一代互联网单车
- CSS3 霓虹灯文字
热门文章
- 安理工计算机专业分数线,安徽理工大学复试录取分数线
- stm32f7 java_STM32F7开发-安装MDK超详细操作步骤
- 芭蕉树上第十四根芭蕉-- Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX
- 新面貌,新征程—读《新程序员》有感
- 贤华老师教你正确护肤,卸妆第一步 选择卸妆产品很重要
- c语言水仙花数7位数,C语言水仙花数的实现
- Google快讯使用小记
- 卡耐基梅陇大学计算机学院名人,卡内基梅隆大学_美国计算机专业排名前十
- 几何公差基础知识之圆柱度
- 理解常用的无理数:自然常数(e)、圆周率(π)、黄金比例(φ)