Ian Goodfellow《Deep Learning》读书笔记

感觉大学快毕业了才开始做一些有用的事情，就当是个小学生吧，由于毕业设计和复试的需要，开始着手一些人工智能方面的内容，毕业设计课题选择了“基于深度学习框架下近距离环境下的面部表情识别系统研究与实现”这样一个课题，有很多东西都得去重新学一下，确实我们学校基本上计算机类的软件硬件课给你上了个遍，但是具体上了多少上成了什么样子就真的是仁者见仁智者见智了，关于我的毕设我打算有机会另外再写，当下主要还是希望把Ian Fellow的花书能够差不多控制在两个月左右啃完，因为还涉及到复试用到的问题，之前也没写过读书笔记，但是考研期间发现想要成为大佬当然是要写读书笔记的了，虽然说是老年人口了，但是现在加把劲勉强还来得及，下面一段时间我就会开始更新我的读书笔记了，主要内容其实也是参考了知乎大佬，给大家推荐一下，**川陀学者，**他的笔记做得真的非常到位，当然啦我的笔记水平肯定是远远不够的，虽然是公开的，但还是请无意间看到的大佬也嘴下留情，小弟确实是菜，也希望随着不断深入的学习，我的笔记能越写越好，能力也能得到提升，如果能帮助到有需要的人，那就再好不过了。

第1章引言

1. 朴素贝叶斯

其实机器学习离不开的一个学习算法就是朴素贝叶斯（naive Bayes），关于朴素贝叶斯，百度出来的解释是朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。
最为广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型（Naive Bayesian Model，NBM）。和决策树模型相比，朴素贝叶斯分类器(Naive Bayes Classifier 或 NBC)发源于古典数学理论，有着坚实的数学基础，以及稳定的分类效率。同时，NBC模型所需估计的参数很少，对缺失数据不太敏感，算法也比较简单。理论上，NBC模型与其他分类方法相比具有最小的误差率。但是实际上并非总是如此，这是因为NBC模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的，这给NBC模型的正确分类带来了一定影响。
下面分享一篇博客，这里面说的挺详细的，朴素贝叶斯，其实就是一种预测建模的方法。

https://blog.csdn.net/qiu_zhi_liao/article/details/90671932

2. 深度学习与浅层学习
其实这个概念也很好理解，好比在学校上学，深度学习是需要通过你的学习去举一反三的一种学习方式，而浅层学习是需要背诵默写的学习方式，两者的应用层面不同，深度学习用于面部识别等领域，浅层学习则是印刷品识别等领域。
深度学习——用深度学习网络来解决机器学习问题

3.深度学习

深度学习既是一种表示学习，也是一种机器学习。
深度学习网络由若干个隐含层构成，隐含层越多，能力越强。

第一部分应用数学与机器学习基础

第2章线性代数

1、张量
这一部分基础知识主要还是大学教材中的基本内容，标量(scalar)、向量(vector)、矩阵(matrix)、张量(tensor)，不熟悉的概念主要是tensor这方面，他是指多维的向量组，下面这篇博客很清楚的介绍了张量的概念。

https://blog.csdn.net/qq_31821675/article/details/79188449

2、主成分分析——线性降维

第3章概率论与信息论

上帝也是掷骰子的，很多因素会造成我们系统的不确定性，在数学模型中，主要因素有三点：
1、我们需要模拟的系统本身具有不确定性；
2、观测的不确定性；
3、模型的不确定性。

概率密度函数
针对连续型随机变量

概率分布函数
针对离散型随机变量

信息论的基本思想
一个不太可能的事件居然发生了，要比一个非常可能的事件发生，能提供更多的信息。

第4章数值计算（数值分析）

基于梯度的优化算法

人类的思维有三种思维，数学思维，物理思维，马思唯，计算思维。
优化是指改变x以最小化或最大化某个函数f(x)的任务，通常以最小化f(x)来指代大多数最优化问题，
我们把最小化或最大化的函数称为目标函数(objective function)或准则(criterion)。当我们对其最小化时，也把它称为代价函数(cost function)、损失函数(loss function)或误差函数(error function)。
临界点既不是最小点也不是最大点的点称为鞍点(saddle point)
Hessian的特征值决定了学习率的量级。
仅使用梯度信息的优化算法称为一阶优化算法，如梯度下降。使用Hessian矩阵的优化算法称为二阶最优化算法,如牛顿法。

第5章机器学习基础

机器学习库

深度学习库

机器学习四个类别
分类、回归、聚类、降维

训练数据的拟合

正则化(regularization)是指修改学习算法，使其降低泛化误差而非训练误差。
均值的高斯分布估计:高斯均值参数的常用估计量被称为样本均值（sample mean）
贝叶斯估计
相对于极大似然估计，贝叶斯估计有两个重要区别，第一，不想最大似然方法预测时使用θ的点估计，贝叶斯方法使用θ的全分布；第二，是由贝叶斯先验分布造成的，先验能够影响概率质量密度朝参数空间中偏好先验的区域偏移。
当训练数据很有限时，贝叶斯方法通常泛化的很好，但是当样本数目很大时，通常会有很大的代价。