来源:Coursera吴恩达深度学习课程

本节先从定义符号(notation)开始一步步构建序列模型。

如上图,你想要建立一个序列模型,它的输入语句是这样的:“Harry Potter and Herminoe Granger invented a new spell.”,(这些人名都是出自于J.K.Rowling笔下的系列小说Harry Potter)。假如你想要建立一个能够自动识别句中人名位置的序列模型,那么这就是一个命名实体识别问题(Name entity recognition),这常用于搜索引擎(search engines)。

现在给定这样的输入数据x,假如你想要一个序列模型输出y,使得输入的每个单词都对应一个输出值,同时这个y能够表明输入的单词是否是人名的一部分。技术上来说这也许不是最好的输出形式,还有更加复杂的输出形式,它不仅能够表明输入词是否是人名的一部分,它还能够告诉你这个人名在这个句子里从哪里开始到哪里结束。比如Harry Potter、Hermione Granger。

更简单的那种输出形式:这个输入数据是9个单词组成的序列,最终用9个特征集合来表示这9个单词:

用x^来索引这个序列的中间位置。t意味着它们是时序序列(temporal sequences),但不论是否是时序序列,我们都将用t来索引序列中的位置。输出数据表示为:

输入序列的长度表示为T_x,在这里T_x=9,输出序列的长度表示为T_y,在这里T_y=T_x=9(输入序列长度和输出序列长度也可以不相等)。

还有一些符号,第i个训练样本的序列中第t个元素表示为:

第i个训练样本的输出序列的长度表示为:

第i个训练样本的输出序列中第t个元素表示为:

第i个训练样本的输出序列的长度表示为:

接下来我们讨论一下怎样表示一个句子里单个的词

如上图,想要表示一个句子里的单词,第一件事是做一张词表(Vocabulary),有时也称词典(Dictionary),意思是列一列你的表示方法中用到的单词。这个词表(下图所示)中的第一个词是a,也就是说词典中的第一个单词是a,第二个单词是Aaron,然后更下面一些是单词and,再后面你会找到Harry,然后找到Potter,这样一直到最后,词典里最后一个单词可能是Zulu。

因此a是第一个单词,Aaron是第二个单词,在这个词典里,and出现在367这个位置上,Harry是在4075这个位置,Potter在6830,词典里的最后一个单词Zulu可能是第10,000个单词。所以在这个例子中Andrew用了10,000个单词大小的词典,这对现代自然语言处理应用来说太小了。对于商业应用来说,或者对于一般规模的商业应用来说30,000到50,000词大小的词典比较常见,也有100,000词,而且有些大型互联网公司会用百万词,甚至更大的词典。

如果你选定了10,000词的词典,构建这个词典的一个方法是遍历你的训练集,并且找到前10,000个常用词,你也可以去浏览一些网络词典,它能告诉你英语里最常用的10,000个单词,接下来你可以用one-hot表示法(representations)来表示词典里的每个单词。

举个例子,(1)在这里x^表示Harry这个单词,它就是一个第4075行是1,其余值都是0的向量(上图编号1所示),因为那是Harry在这个词典里的位置。(2)同样x^是个第6830行是1,其余位置都是0的向量(上图编号2所示)。(3)第三个单词and在词典里排第367,所以x^就是第367行是1,其余值都是0的向量(上图编号3所示)。(4)因为a是字典第一个单词,x^对应a,那么这个向量的第一个位置为1,其余位置都是0的向量(上图编号4所示)。

所以这种表示方法中,x^指代句子里的任意词,它就是个one-hot向量,因为它只有一个值是1,其余值都是0,所以会有9个one-hot向量来表示这个句中的9个单词,如果你的词典大小是10,000的话,那么这里的每个向量都是10,000维的。目的是用这样的表示方式表示X,用序列模型在X和目标输出Y之间学习建立一个映射。Andrew把它当作监督学习的问题(supervised learning problem),而且确信会给定带有(x,y)标签的数据。

注意一下,如果你遇到了一个不在你词表中的单词,答案就是创建一个新的标记,也就是一个叫做Unknow Word的伪单词,用<UNK>作为标记,来表示不在词表中的单词,我们之后会讨论更多有关这个的内容。

说明:记录学习笔记,如果错误欢迎指正!转载请联系我。

RNN的数学符号(Notation)相关推荐

  1. 1.2 数学符号-深度学习第五课《序列模型》-Stanford吴恩达教授

    ←上一篇 ↓↑ 下一篇→ 1.1 为什么选择序列模型 回到目录 1.3 循环神经网络 数学符号(Notation) 本节先从定义符号开始一步步构建序列模型. 比如说你想要建立一个序列模型,它的输入语句 ...

  2. 数学菜鸟的AI学习攻略 | 数学符号轻松入门

    你是否跟我一样,自幼恨透数学. 现在,我终于发现了我对数学绝缘的最主要原因:我的老师从来不去回答最重要的问题:我为什么要学数学?学数学有什么用? 他们只是在黑板上写下一大堆方程,并让我记下来. 现在, ...

  3. 数学菜鸟的AI学习攻略——数学符号轻松入门

    [ 导读 ] 自学AI的过程中,我们非常需要理解这些数学符号.它可以让你用一种非常简洁的方式来表达一个复杂的想法. 你是否跟我一样,自幼恨透数学. 现在,我终于发现了我对数学绝缘的最主要原因:我的老师 ...

  4. 机器学习15种常用数学符号!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:小雨姑娘,康涅狄格大学,Datawhale成员 这三天复现一个论文 ...

  5. 优化方法:常用数学符号的含义

    优化方法:常用数学符号的含义 min ⁡ x ∈ Ω f ( x ) f ( x ) 在 Ω 上 的 最 小 值 \min \limits_{x \in \Omega} f(x) \qquad f(x ...

  6. 【机器学习基础】机器学习的常用数学符号

    作者:小雨姑娘,康涅狄格大学,Datawhale成员 这三天复现一个论文实验结果不正确,一直找不到原因,后来发现是自己把 当成了 . 如果你到现在搞不懂这两个符号的区别,这问题就跟学英语记不住周一到周 ...

  7. 【Tools】Markdown数学符号公式(史上最全公式表)

    Markdown数学符号&公式 文章目录 Markdown数学符号&公式 1. 希腊字母表 2. 希腊字母 3. 数学符号表 4. 数学符号 5. 数学符号补充表 6. 数学符号补充 ...

  8. 智源研究院发布世界首个“机器学习通用数学符号集”

    上周举行的智源大会嘉宾众多.信息量巨大,相信很多老师同学都会觉得有点应接不暇吧.智源研究院在大会上有很多重要的发布,因为时间关系,来不及展开.今天我们要好好说说其中非常有意义的一项.这就是智源研究院组 ...

  9. 干货丨一文介绍机器学习中基本的数学符号

    在机器学习中,你永远都绕不过数学符号. 通常,只要有一个代数项或一个方程符号看不懂,你就完全看不懂整个过程是怎么回事了.这种境况非常令人沮丧,尤其是对于那些正在成长中的机器学习初学者来说更是如此. 如 ...

  10. Latex常用数学符号

    手画 如果本文中没有相应得希腊字母表示,想要希腊字母的 MarkDown代码,只需要在detexify 网站中的框框里用鼠标写出该字母,再选择对应的代码即可 如下图 常用latex数学符号 另外下面是 ...

最新文章

  1. if with large data project
  2. weedfs文件使用记录
  3. angular change the url , prevent reloading
  4. python mro c3_Python 19 MRO和C3算法
  5. Android开发之Is Library篇
  6. python matlablib安装踏坑记
  7. 宏基因组多少钱一个样_太阳能路灯价格是多少钱一盏(12米高杆灯报价)
  8. 无锡太湖学院计算机科学与技术宿舍,无锡太湖学院宿舍怎么样
  9. [2018.10.17 T2] 最优路线
  10. 常用的linux巡检命令,linux常用巡检命令
  11. nodejs中art-template模板语法冲突解决方案
  12. iOS手势的传递问题
  13. 行测题练习(7-29)【1】
  14. 有向图和无向图转化为邻接表后链表中结点个数
  15. 手机文件夹为什么是英文?哪些可以删除?看完清理能多出10G内存
  16. bad substitution
  17. 【uniapp】根据身份证号获取生日日期
  18. 西安80转2000坐标参数_!!!西安80坐标与地方坐标系的转换方法技巧
  19. 杭州将投放10万辆新一代互联网单车
  20. CSS3 霓虹灯文字

热门文章

  1. 安理工计算机专业分数线,安徽理工大学复试录取分数线
  2. stm32f7 java_STM32F7开发-安装MDK超详细操作步骤
  3. 芭蕉树上第十四根芭蕉-- Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX
  4. 新面貌,新征程—读《新程序员》有感
  5. 贤华老师教你正确护肤,卸妆第一步 选择卸妆产品很重要
  6. c语言水仙花数7位数,C语言水仙花数的实现
  7. Google快讯使用小记
  8. 卡耐基梅陇大学计算机学院名人,卡内基梅隆大学_美国计算机专业排名前十
  9. 几何公差基础知识之圆柱度
  10. 理解常用的无理数:自然常数(e)、圆周率(π)、黄金比例(φ)