斯坦福大学公开课：机器学习课程（Andrew Ng）—

============================================================================【课程综述】============================================================================
第一课时：
   机器学习的定义【 The Definition of Machine Learning】
   本课程的四部分内容：
       1）监督学习【The Overview of Supervised Learning】
       2）学习理论【The Overview of Learning Theory】
       3）无监督学习【The Overview of Unsupervised Learning】
       4）强化学习【The Overview of Reinforcement Learning】
============================================================================【监督学习】============================================================================
==================================【监督学习：Linear Regression】======================================================
第二课时：
   *线性回归【Linear Regression】：LMS(least mean squares) algorithm
   *（批量/随机=增量）梯度下降【Batch/Stochastic=Incremental Gradient Descent】
   *常用矩阵符号定义【Matrix Derivative Notation for Deriving Normal Equations】
   *标准方程推导【Derivation of Normal Equations】
第三课时：
   线性回归的概率解释【The Probabilistic Interpretation of Linear Regression】：LMS~=~MLE(least-squares regression corresponds to finding the maximum likelihood estimate of theta)
   *局部加权线性回归【Locally Weighted Linear Regression】：如何定义权重使距离预测点近的样本贡献大，远的样本贡献小。
   欠拟合和过拟合【Underfitting and Overfitting】
   参数化和非参数化算法【Parametric Algorithms and Non-parametric Algorithms】：Linear Regression是参数化算法；Locally Weighted Linear Regression是非参数化算法
==================================【监督学习：Classification and Logistic Regression】==================================
   *Logistic回归【Logistic Regression】
   感知器【 Perceptron】
第四课时：
   *牛顿方法（找最值）【Newton's Method】
==================================【监督学习：Generalized Linear Models】================================================
   指数分布函数族（高斯分布、伯努利分布是特例）【Exponential Family（Bernoulli Example, Gaussian Example）】：能找到对应的a,b,T。
   广义线性模型（最小均方、Logistic回归、多项式分布是特列）【General Linear Models (GLMs，Least-Squares Example, Logistic Regression Example, Multinomial Example)】
   Softmax Regression【classification problems where y = {1,2,...,k}】：We model it as distributed according to a multinomial distribution.
==================================【监督学习：Generative Learning Algorithms】===========================================
第五课时：
   生成学习算法和判别学习算法对比【Discriminative Algorithms, Generative Algorithms】：mapping directly from X to the labels {0, 1} or instead try to model p(x|y=0), p(x|y=1), p(y) and p(y|x)
   *高斯判别分析【Gaussian Discriminant Analysis (GDA)】：assume that p(x|y) is distributed according to a multivariate normal distribution
   *多元正态分布【The Multivariate normal distribution】：均值、协方差
   GDA and Logistic Regression Relationship：GDA对于训练样例很少的情况效果非常好；如果样例确实是多元正态分布，没有哪个方法比GDA好；但LR对前提要求低，所以实际应用更多，如果样例多则表现不比GDA差
   *朴素贝叶斯算法（文本分类）【Naive Bayes（text classification）】：assume that the xi's are conditionally independent given y, ie, p(x1,...,x5000|y)=p(x1|y)*...*p(x5000|y)
   *Laplace平滑技术【Laplace Smoothing】：分子+1，分母+k，防止因为没看到某个文字就认为该文字出现的概率为零，其中k为y的分类个数。
第六课时：
   *朴素贝叶斯算法的两类事件模型【Multi-Variate Bernoulli Event Model and Multinomial Event Model】：依次决定每个单词是否要产生（多值伯努利事件模型）or依据同一多项式分布依次产生N个单词的下标（多项式事件模型）
   神经网络算法【Neural Network, Applications of Neural Network】：
==================================【监督学习：Support Vector Machine】====================================================
   函数间隔和几何间隔【Functional and Geometric Margins】：函数间隔存在随着w/b缩放而缩放的问题；几何间隔将w归一化，即w/b分别除以|w|。
   最优(大)间隔分类器推导【the Optimal Margin Classifier】：依次经过如下转换，最大化几个间隔==》最大化函数间隔/||w||==》最小化||w||。
   拉格朗日对偶问题和KKT条件【Lagrange Duality, Karush-Kuhn-Tucker (KKT) Conditions】：满足KKT条件，则d*==待求==p*。
第七课时：
   最优间隔分类器问题（应用朗格朗日对偶和KKT条件推导w/b<假设alpha已知>）【 Optimal Margin Classifiers】：最小化||w||通过朗格朗日对偶和KKT条件可以转换为输入特征空间内的点的内积问题，即<x(i),x(j)>。
   *支持向量和核的概念【Support Vectors and Kernels】：离决策边界最近(其几何间隔正好为1)的正负训练样例点称为支持向量；核是属性向特征映射的函数的内积，即K(x,z)=<f(x),f(z)>=f(x)Tf(x)，核也可以看成f(x),f(z)相似程度测量的函数。
   *支持向量机算法（线性分类算法）及核在SVM中的应用【Support Vector Machine (SVM)】：将原来算法中的属性x替换为特征f(x)，进而将<x(i),x(j)>替换为<f(x),f(x)>=K(x,x)，由于单独的f(x)很难算而K(x,x)容易计算(非支持向量的点x将不用计算)，所以此方法非常好，即SVM。
第八课时：
   核在其它学习算法中的应用【Kernel Matrix, Mercer's Theorem】：合法的核对应的Kernel Matrix(ie, its entry is given by Kij = K(x(i),x(j)))必定是对称半正定矩阵；任何算法中输入特征向量的内积<x,z>都可以用核K(x,z)代替从而产生非常好的效果。
   *使用核的一般方法：1）根据问题选择合适的核函数K（x,z）；2）将原来算法中的内积<x(i),x(j)>替换为K（x(i),x(j)）<即变相地将x(i)替换为f(x(i))>；3）对于线性可分割情况，计算起来更快，对于线性不可分割，将训练样例映射到高维空间以使样例可分割；4）整个过程只要解决凸函数问题即可。
   *L1正规化软间隔SVM（处理非线性可分割和边缘点）【L1 Norm Soft Margin SVM, work for non-linearly separable datasets and less sensitive to outliers】:限制条件从函数间隔严格大于等于1变为大于等于1-Theta。
   *坐标上升算法【Coordinate Ascent Algorithm】：最优间隔分类器问题中假设alpha已知推导w/b，该算法寻找无限制条件的最优alpha，每次只优化一个坐标而固定其他坐标。
   *SMO算法（SVM优化算法）【The Sequential Minimization Optimization (SMO) Algorithm】：该算法寻找有限制条件的最优alpha，每次联动两个坐标而固定其他坐标。
============================================================================【学习理论】============================================================================
==================================【学习理论：Empirical Risk Minimization (ERM)】=========================================
第九课时：
   偏差方差权衡（训练误差、真实误差）【Bias/variance Tradeoff】：
   The Union Bound, Hoeffding Inequality：
   *经验风险最小化ERM【Empirical Risk Minimization (ERM)】：经验风险即训练误差，
   有限假设空间【The Case of Finite H】：Uniform Convergence Theorem & Corollary, Sample Complexity Bound, Error Bound, PAC(probably approximately correct)
第十课时：
   无限假设空间【The Case of Infinite H】：The Concept of 'Shatter' and VC Dimension(打散和VC维度)。
==================================【学习理论：Regularization and Model Selection】========================================
   *交叉验证方法【Cross Validation】：hold-out(1/3) cross validation, k-fold(10) cross validation, leave-one-out cross validation。
   *特征选择问题（封装特征选择和过滤特征选择）【Wrapper/Filter Feature Selection】：使用循环依次选择交叉验证效果最好的特征or根据特征xi对目标y的预测信息提供量(informative)为每个特征xi打分，取分数最高的k(由交叉验证决定)个特征。
第十一课时：
   贝叶斯统计和规范化【Bayesian Statistics and Regularization】：
==================================【学习理论：Online Learning and Error Analysis】========================================
   在线学习【Online Learning】：对于给定的x，先预测对应的y'，再给出正确的y进行学习，循环此过程；我们关心的是在整个过程中预测出错的次数的上界是(D/γ)^2。
   机器学习算法设计中的问题诊断技巧【 Advice for Applying Machine Learning Algorithms, Debugging/fixing Learning Algorithms, Diagnostics for Bias & Variance】
   两种分析技巧：误差分析与销蚀分析【 Optimization Algorithm Diagnostics, Diagnostic Example - Autonomous Helicopter, Error Analysis】：
   两种应用机器学习算法的方式与使用场景【Getting Started on a Learning Problem】：
============================================================================【无监督学习】============================================================================
==================================【无监督学习：K-means Clustering Algorithm】============================================
第十二课时：
   K-Means聚类算法【K-means Clustering Algorithm, K-means Algorithm】：最简单的无监督聚类算法
==================================【无监督学习：Mixtures of Gaussians and Expectation-Maximization】======================
   混合高斯模型【Mixtures of Gaussians】：认为存在隐含随机变量z(k)服从多项式分布Multinomial($)，训练样例x(m)是先选择某个隐含随机变量z，然后由z所决定的高斯分布随机产生训练样例x。
   期望最大算法EM（混合高斯模型是其特例）【the EM Algorithm】：E-step，估算每个样本由某个z产生的概率p(z(j)=k|x(i))；M-step，根据此概率更新MaxLikehood中的参数；重复以上过程直到收敛。
   Jesen不等式引出EM算法一般形式【 Jensen's Inequality, The EM Algorithm, Summary】：E[f(x)]>=f(E[x])；
第十三课时：
   EM算法与混合高斯模型的应用【Mixture of Gaussian, Mixture of Naive Bayes - Text clustering (EM Application)】：要求训练样本足够多，可以确定出每个高斯分布的具体结构，即m>>k(隐含高斯的个数)且m>>n(每个输入变量的维度)。
==================================【无监督学习：Factor Analysis(FA)】======================================================
   因子分析模型【 Factor Analysis Model, Restrictions on a Covariance Matrix, Marginals and Conditionals of Gaussians】：对角矩阵且值相等；高斯分布的边缘概率和条件概率。
第十四课时：
   因子分析算法的EM推导过程【EM for Factor Analysis,】：适用于训练样本的维度很高且只有少量训练样例时的模型拟合，即m<<n。
==================================【无监督学习：Principal Component Analysis(PCA)】========================================
   主成分分析法（降低数据维度的算法）【Principal Component Analysis (PCA, a Dimensionality Reduction Algorithm)】：降维，找到与最终预测最有关联的维度。
第十五课时：
   主成分分析法（寻找相似文档）【 Latent Semantic Indexing (LSI)】
   奇异值分析SVD【Singular Value Decomposition (SVD) Implementation】
==================================【无监督学习：Independent Component Analysis (ICA)】======================================
   独立成分分析算法ICA【Independent Component Analysis (ICA), The Application of ICA】：从混合结果中分析出独立的贡献成分。
   累积分布函数CDF【Cumulative Distribution Function (CDF), ICA Algorithm, The Applications of ICA】
============================================================================【强化学习】============================================================================
第十六课时：
   *马可夫决策过程MDP【Applications of Reinforcement Learning, Markov Decision Process (MDP)】
   *值迭代和策略迭代算法【Defining Value & Policy Functions, Value Function, Optimal Value Function, Value Iteration, Policy Iteration】
第十七课时：
   Generalization to Continuous States, Discretization & Curse of Dimensionality, Models/Simulators,
   拟合值迭代算法【Fitted Value Iteration】
   近似政策迭代算法【Finding Optimal Policy】
第十八课时：
   控制NVP算法
   非线性动力学系统
   线性二次型调节控制
   State-action Rewards, Finite Horizon MDPs, The Concept of Dynamical Systems, Examples of Dynamical Models, Linear Quadratic Regulation (LQR), Linearizing a Non-Linear Model, Computing Rewards, Riccati Equation
第十九课时：
   调试强化学习算法
   Kalman滤波器
   微分动态规划
   卡尔曼滤波与LQR控制结合算法（LQG控制算法，线性二次高斯）
   Advice for Applying Machine Learning, Debugging Reinforcement Learning (RL) Algorithm, Linear Quadratic Regularization (LQR), Differential Dynamic Programming (DDP), Kalman Filter & Linear Quadratic Gaussian (LQG), Predict/update Steps of Kalman Filter, Linear Quadratic Gaussian (LQG)
第二十课时：
   部分可观察马可夫决策过程POMDPs
   完全可观察马可夫决策过程
   策略搜索算法（Reinforced和Pegasus）
   课程推荐与学生期望
   Partially Observable MDPs (POMDPs), Policy Search, Reinforce Algorithm, Pegasus Algorithm, Pegasus Policy Search, Applications of Reinforcement Learning

斯坦福大学公开课：机器学习课程（Andrew Ng）——1、整体看一看相关推荐

斯坦福大学公开课机器学习：Neural Networks，representation: non-linear hypotheses（为什么需要做非线性分类器）...
如上图所示,如果用逻辑回归来解决这个问题,首先需要构造一个包含很多非线性项的逻辑回归函数g(x).这里g仍是s型函数(即 ).我们能让函数包含很多像这的多项式,当多项式足够多时,那么你也许能够得到可以 ...
斯坦福大学公开课机器学习：advice for applying machine learning | learning curves （改进学习算法：高偏差和高方差与学习曲线的关系）...
绘制学习曲线非常有用,比如你想检查你的学习算法,运行是否正常.或者你希望改进算法的表现或效果.那么学习曲线就是一种很好的工具.学习曲线可以判断某一个学习算法,是偏差.方差问题,或是二者皆有. 为了绘制 ...
斯坦福大学公开课：机器学习课程
共20讲在网易公开课上有视频全集,难能可贵的是配带中英文字幕斯坦福大学公开课 :机器学习课程在JerryLead的blog中可以下到他的学习笔记以及讲义原稿. 感谢Andrew Ng, 感谢Je ...
【斯坦福大学公开课CS224W——图机器学习】三、节点和图嵌入
[斯坦福大学公开课CS224W--图机器学习]三.节点和图嵌入文章目录 [斯坦福大学公开课CS224W--图机器学习]三.节点和图嵌入 1. 节点嵌入 1.1 编码器与解码器 1.2 节点嵌入的游走 ...
【斯坦福大学公开课CS224W——图机器学习】五、消息传递和节点分类
[斯坦福大学公开课CS224W--图机器学习]五.消息传递和节点分类文章目录 [斯坦福大学公开课CS224W--图机器学习]五.消息传递和节点分类 1. Message Passing and No ...
斯坦福大学公开课：iPhone开发教程2010年冬
2019独角兽企业重金招聘Python工程师标准>>> 斯坦福大学公开课:iPhone开发教程2010年冬 http://v.163.com/special/opencourse/i ...
斯坦福大学公开课：iOS 8开发
斯坦福大学公开课:iOS 8开发: http://open.163.com/special/opencourse/ios8.html
SCI论文如何写--斯坦福大学公开课-Writing in the Sciences
SCI论文如何写--斯坦福大学公开课-Writing in the Sciences 链接:https://pan.baidu.com/s/1McDHMLqhs-KbpKRDNRNQTQ 提取码:12 ...
iPhone应用开发视频教程-斯坦福大学公开课
以下是一套由美国斯坦福大学(Stanford University)在2013年初推出的一套iPhone应用程序开发视频教程,详细讲解了iPhone4/iPhone4s/iPhone5/iPad等iO ...

斯坦福大学公开课：机器学习课程（Andrew Ng）——1、整体看一看