文章目录

机器学习百科全书目录
- Pattern Recognition and Machine Learning
- The Elements of Statistical Learning (Second edition)
- Machine Learning A Probabilistic Perspective
- 西瓜书
- 花书
- Reinforcement Learning:An Introduction (Second edition)
- 统计学习方法（第2版）
- 蒲公英书

机器学习百科全书目录

题目中的八本书合起来，姑且称为机器学习的百科全书(读者如果有其他好书可以在评论区推荐一下)。我把这些书的目录整理到一起，以便读者和我自己查阅。MLAPP这本书的目录有许多英文名词在我的知识盲区，我是通过百度搜索相关词语翻译的。若读者发现错误之处，麻烦指出，感谢！

PRML， ESL， MLAPP， DL， RLAI和蒲公英书是开源的，我把它们整理到一起：

公众号后台回复【MLBKQS】即可获取。

Pattern Recognition and Machine Learning

一位叫马春鹏的前辈翻译了这本书，中文版的pdf也在我分享的那个文件夹里。

PRML1 绪论1.1 例⼦：多项式曲线拟合1.2 概率论1.2.1 概率密度1.2.2 期望和协⽅差1.2.3 贝叶斯概率1.2.4 ⾼斯分布1.2.5 重新考察曲线拟合问题1.2.6 贝叶斯曲线拟合1.3 模型选择1.4 维度灾难1.5 决策论1.5.1 最⼩化错误分类率1.5.2 最⼩化期望损失1.5.3 拒绝选项1.5.4 推断和决策1.5.5 回归问题的损失函数1.6 信息论1.6.1 相对熵和互信息2 概率分布2.1 ⼆元变量2.1.1 Beta分布2.2 多项式变量2.2.1 狄利克雷分布2.3 ⾼斯分布2.3.1 条件⾼斯分布2.3.2 边缘⾼斯分布2.3.3 ⾼斯变量的贝叶斯定理2.3.4 ⾼斯分布的最⼤似然估计2.3.5 顺序估计2.3.6 ⾼斯分布的贝叶斯推断2.3.7 学⽣t分布2.3.8 周期变量2.3.9 混合⾼斯模型2.4 指数族分布2.4.1 最⼤似然与充分统计量2.4.2 共轭先验2.4.3 ⽆信息先验2.5 ⾮参数化⽅法2.5.1 核密度估计2.5.2 近邻⽅法3 回归的线性模型3.1 线性基函数模型3.1.1 最⼤似然与最⼩平⽅3.1.2 最⼩平⽅的⼏何描述3.1.3 顺序学习3.1.4 正则化最⼩平⽅3.1.5 多个输出3.2 偏置-⽅差分解3.3 贝叶斯线性回归3.3.1 参数分布3.3.2 预测分布3.3.3 等价核3.4 贝叶斯模型⽐较3.5 证据近似3.5.1 计算证据函数3.5.2 最⼤化证据函数3.5.3 参数的有效数量3.6 固定基函数的局限性4 分类的线性模型 4.1 判别函数4.1.1 ⼆分类4.1.2 多分类4.1.3 ⽤于分类的最⼩平⽅⽅法4.1.4 Fisher线性判别函数4.1.5 与最⼩平⽅的关系4.1.6 多分类的Fisher判别函数4.1.7 感知器算法4.2 概率⽣成式模型4.2.1 连续输⼊4.2.2 极⼤似然解4.2.3 离散特征4.2.4 指数族分布4.3 概率判别式模型4.3.1 固定基函数4.3.2 logistic回归4.3.3 迭代重加权最⼩平⽅4.3.4 多类logistic回归4.3.5 probit回归4.3.6 标准链接函数4.4 拉普拉斯近似4.4.1 模型⽐较和BIC4.5 贝叶斯logistic回归4.5.1 拉普拉斯近似4.5.2 预测分布5 神经⽹络 5.1 前馈神经⽹络5.1.1 权空间对称性5.2 ⽹络训练5.2.1 参数最优化5.2.2 局部⼆次近似5.2.3 使⽤梯度信息5.2.4 梯度下降最优化5.3 误差反向传播5.3.1 误差函数导数的计算5.3.2 ⼀个简单的例⼦5.3.3 反向传播的效率5.3.4 Jacobian矩阵5.4 Hessian矩阵5.4.1 对⾓近似5.4.2 外积近似5.4.3 Hessian矩阵的逆矩阵5.4.4 有限差5.4.5 Hessian矩阵的精确计算5.4.6 Hessian矩阵的快速乘法5.5 神经⽹络的正则化5.5.1 相容的⾼斯先验5.5.2 早停⽌5.5.3 不变性5.5.4 切线传播5.5.5 ⽤变换后的数据训练5.5.6 卷积神经⽹络5.5.7 软权值共享5.6 混合密度⽹络5.7 贝叶斯神经⽹络5.7.1 后验参数分布5.7.2 超参数最优化5.7.3 ⽤于分类的贝叶斯神经⽹络6 核⽅法 6.1 对偶表⽰6.2 构造核6.3 径向基函数⽹络6.3.1 Nadaraya-Watson模型6.4 ⾼斯过程6.4.1 重新考虑线性回归问题6.4.2 ⽤于回归的⾼斯过程6.4.3 学习超参数6.4.4 ⾃动相关性确定6.4.5 ⽤于分类的⾼斯过程6.4.6 拉普拉斯近似6.4.7 与神经⽹络的联系7 稀疏核机7.1 最⼤边缘分类器7.1.1 重叠类分布7.1.2 与logistic回归的关系7.1.3 多类SVM7.1.4 回归问题的SVM7.1.5 计算学习理论7.2 相关向量机7.2.1 ⽤于回归的RVM7.2.2 稀疏性分析7.2.3 RVM⽤于分类8 图模型8.1 贝叶斯⽹络8.1.1 例⼦：多项式回归8.1.2 ⽣成式模型8.1.3 离散变量8.1.4 线性⾼斯模型8.2 条件独⽴8.2.1 图的三个例⼦8.2.2 d-划分8.3 马尔科夫随机场8.3.1 条件独⽴性质8.3.2 分解性质8.3.3 例⼦：图像去噪8.3.4 与有向图的关系8.4 图模型中的推断8.4.1 链推断8.4.2 树8.4.3 因⼦图8.4.4 加和-乘积算法8.4.5 最⼤加和算法8.4.6 ⼀般图的精确推断8.4.7 循环置信传播8.4.8 学习图结构9 混合模型和EM9.1 K均值聚类9.1.1 图像分割与压缩9.2 混合⾼斯9.2.1 最⼤似然9.2.2 ⽤于⾼斯混合模型的EM 9.3 EM的另⼀种观点9.3.1 重新考察⾼斯混合模型9.3.2 与K均值的关系9.3.3 伯努利分布的混合9.3.4 贝叶斯线性回归的EM算法9.4 ⼀般形式的EM算法10 近似推断10.1 变分推断10.1.1 分解概率分布10.1.2 分解近似的性质10.1.3 例⼦：⼀元⾼斯分布10.1.4 模型⽐较10.2 例⼦：⾼斯的变分混合10.2.1 变分分布10.2.2 变分下界10.2.3 预测概率密度10.2.4 确定分量的数量10.2.5 诱导分解10.3 变分线性回归10.3.1 变分分布10.3.2 预测分布10.3.3 下界10.4 指数族分布10.4.1 变分信息传递10.5 局部变分⽅法10.6 变分logistic回归10.6.1 变分后验概率分布10.6.2 最优化变分参数10.6.3 超参数的推断10.7 期望传播10.7.1 例⼦：聚类问题10.7.2 图的期望传播11 采样⽅法11.1 基本采样算法11.1.1 标准概率分布11.1.2 拒绝采样11.1.3 可调节的拒绝采样11.1.4 重要采样11.1.5 采样-重要性-重采样11.1.6 采样与EM算法11.2 马尔科夫链蒙特卡罗11.2.1 马尔科夫链11.2.2 Metropolis-Hastings算法11.3 吉布斯采样11.4 切⽚采样11.5 混合蒙特卡罗算法11.5.1 动态系统11.5.2 混合蒙特卡罗⽅法11.6 估计划分函数12 连续隐变量12.1 主成分分析12.1.1 最⼤⽅差形式12.1.2 最⼩误差形式12.1.3 PCA的应⽤12.1.4 ⾼维数据的PCA12.2 概率PCA12.2.1 极⼤似然PCA12.2.2 ⽤于PCA的EM算法12.2.3 贝叶斯PCA12.2.4 因⼦分析12.3 核PCA12.4 ⾮线性隐含变量模型12.4.1 独⽴成分分析12.4.2 ⾃关联⽹络12.4.3 对⾮线性流形建模13 序列数据13.1 马尔科夫模型13.2 隐马尔科夫模型13.2.1 ⽤于HMM的极⼤似然法13.2.2 前向后向算法13.2.3 ⽤于HMM的加和-乘积算法13.2.4 缩放因⼦13.2.5 维特⽐算法13.2.6 隐马尔科夫模型的扩展13.3 线性动态系统13.3.1 LDS中的推断13.3.2 LDS中的学习13.3.3 LDS的推⼴13.3.4 粒⼦滤波14 组合模型14.1 贝叶斯模型平均14.2 委员会14.3 提升⽅法14.3.1 最⼩化指数误差14.3.2 提升⽅法的误差函数14.4 基于树的模型14.5 条件混合模型14.5.1 线性回归模型的混合14.6 logistic模型的混合14.6.1 专家混合

The Elements of Statistical Learning (Second edition)

CSDN的布客飞龙翻译了这本书：

https://blog.csdn.net/wizardforcel/article/details/84500221

ESL1 绪论2 监督学习概述2.1 导言2.2 变量类型和术语2.3 两种简单的预测方法：最小二乘与最近邻2.3.1 线性模型和最小二乘2.3.2 最邻近方法2.3.3 从最小二乘到最近邻2.4 统计判别理论2.5 高维问题的局部方法2.6 统计模型，监督学习和函数逼近2.6.1联合分布的统计模型2.6.2 监督学习2.6.3 函数逼近2.7 结构化的回归模型问题的困难度2.8 限制性估计的种类2.8.1粗糙度惩罚和贝叶斯方法2.8.2核方法和局部回归2.8.3基函数和字典方法2.9 模型选择和偏差-方差的权衡3 线性回归方法3.1 导言3.2 线性回归模型和最小二乘法3.2.1示例：前列腺癌3.2.2高斯-马尔可夫定理3.2.3简单一元回归到多重回归3.2.4多重输出3.3 子集的选择3.3.1最佳子集选择3.3.2正向和反向逐步选择3.3.3正向逐渐回归3.3.4前列腺癌数据示例（续）3.4 收缩的方法3.4.1岭回归3.4.2 Lasso回归3.4.3讨论：子集选择、岭回归以及Lasso回归3.4.4最小角回归3.5 运用派生输入方向的方法3.5.1主成分回归3.5.2偏最小二乘法3.6 讨论：选择和收缩方法的比较3.7 多重输出的收缩和选择3.8 Lasso 和相关路径算法的补充3.8.1递增前向逐渐回归3.8.2分段线性路径算法3.8.3 Dantzig选择器3.8.4 The Grouped Lasso3.8.5 lasso 的更多性质3.8.6路径坐标优化3.9 计算上的考虑4 线性分类方法4.1 导言4.2 指示矩阵的线性回归4.3 线性判别分析4.3.1正则化判别分析4.3.2 LDA计算4.3.3降秩线性判别分析4.4 逻辑斯蒂回归4.4.1拟合逻辑斯蒂回归模型4.4.2示例：南非心脏病4.4.3二次近似和推断4.4.4 L1正则逻辑回归4.4.5逻辑回归或LDA？4.5 分离超平面4.5.1Rosenblatt的感知机学习算法 4.5.2最优分离超平面5 基展开与正则化5.1 导言5.2 分段多项式和样条5.2.1自然三次样条曲线5.2.2示例：南非心脏病（续）5.2.3示例：音素识别5.3 滤波和特征提取5.4 光滑样条5.4.1自由度和光滑矩阵5.5 光滑参数的自动选择5.5.1固定自由度5.5.2 偏差-方差的权衡5.6 非参逻辑斯蒂回归5.7 多维样条5.8 正则化和再生核希尔伯特空间理论5.8.1核函数空间5.8.2 RKHS示例5.9 小波光滑5.9.1小波基和小波变换5.9.2自适应小波滤波6 核平滑方法6.1 一维核光滑器6.1.1局部线性回归6.1.2局部多项式回归6.2 选择核的宽度6.3 IR^{p} 的局部回归6.4 IR^{p}中的结构化局部回归模型6.4.1结构核6.4.2结构回归函数6.5 局部似然和其他模型6.6 核密度估计和分类6.6.1核密度估计6.6.2核密度分类6.6.3朴素贝叶斯分类器6.7 径向基函数和核6.8 混合模型的密度估计和分类6.9 计算上的考虑7 模型评估与选择7.1 导言7.2 偏差，方差和模型复杂度7.3 偏差-方差分解7.3.1 例子： 方差-偏差之间的权衡7.4 测试误差率的 optimism7.5 样本内预测误差的估计7.6 参数的有效个数7.7 贝叶斯方法和 BIC7.8 最小描述长度7.9 VC 维7.9.1示例（续）7.10 交叉验证7.10.1 K 折交叉验证7.10.2 做交叉验证的错误与正确方式7.10.3交叉验证真的有效吗？7.11 自助法7.11.1示例（续）7.12 条件测试误差或期望测试误差8 模型推断与平均8.1 导言8.2 自助法和最大似然法8.2.1平滑示例8.2.2最大似然推断8.2.3 自助法和最大似然法8.3 贝叶斯方法8.4 自助法和贝叶斯推断之间的关系8.5 EM 算法8.5.1 两个组分的混合模型8.5.2 广义 EM 算法8.5.3EM 作为一个最大化-最大化的过程8.6 从后验分布采样的 MCMC8.7 袋装法8.8 模型平均和堆栈8.9 随机搜索9 加性模型，树，以及相关方法9.1 广义加性模型9.1.1拟合加性模型9.1.2示例：加性逻辑回归9.1.3 总结9.2 基于树的方法9.2.1背景9.2.2回归树9.2.3分类树9.2.4 其他的问题9.2.5 垃圾邮件的例子（续）9.3 PRIM9.3.1 垃圾邮件的例子（续）9.4 MARS：Bump Hunting9.4.1垃圾邮件示例（续）9.4.2示例（模拟数据）9.4.3其他问题9.5 专家的分层混合9.6 缺失数据9.7 计算上的考虑10 提升树和加性树10.1 boosting 方法10.1.1 本章概要10.2 boosting 拟合加性模型10.3 前向逐步加性建模10.4 指数损失和 AdaBoost10.5 为什么是指数损失10.6 损失函数和鲁棒性10.7 数据挖掘的“Off-the-Shelf”方法10.8 垃圾邮件的例子10.9 boosting 树10.10 使用梯度 Boosting 进行数值优化10.10.1 最速下降10.10.2 Gradient Boosting10.10.2 Gradient Boosting的实现10.11 大小合适的 boosting 树10.12 正则化10.12.1收缩10.12.2 子采样10.13 解释性10.13.1预测变量的相对重要性10.13.2 偏相依性图10.14 例子10.14.1加州住房10.14.2 New Zealand Fish10.14.3人口统计数据11 神经网络11.1 导言11.2 投影寻踪回归11.3 神经网络11.4 拟合神经网络11.5 训练神经网络的一些问题11.5.1初始值11.5.2过拟合11.5.3输入的缩放11.5.4隐藏单元和层的数目11.5.5多重最小值11.6 例子：模拟数据11.7 例子：邮编数字11.8讨论11.9贝叶斯神经网络和NIPS 2003挑战11.9.1 贝叶斯, Boosting and Bagging1.9.2性能比较11.10计算上的考虑12 支持向量机与柔性判别法12.1 导言12.2 支持向量分类器12.2.1计算支持向量分类器12.2.2混合示例（续）12.3 支持向量机和核12.3.1用于分类的 SVM12.3.2 SVM作为惩罚的方法12.3.3函数估计和再生核12.3.4支持向量机和维数灾难12.3.5支持向量机分类器的路径算法12.3.6回归支持向量机12.3.7回归和核方法12.3.8讨论12.4 广义线性判别分析12.5 柔性判别分析12.5.1计算FDA估算值12.6 惩罚判别分析12.7 混合判别分析12.7.1示例：波形数据12.8 计算上的考虑13 原型法与近邻法13.1 导言13.2 原型法13.2.1 K-均值聚类13.2.2 量化学习向量13.2.3高斯混合13.3 k 最近邻分类器13.3.1示例：比较研究13.3.2示例：k近邻和图像场景分类13.3.3 不变量和切线距离13.4 自适应的最近邻方法13.4.1示例13.4.2最近邻的全局降维13.5 计算上的考虑14 无监督学习14.1 导言14.2 关联规则14.2.1市场篮子分析14.2.2 Apriori算法14.2.3示例：市场篮子分析14.2.4 作为监督学习的非监督14.2.5广义关联规则14.2.6监督学习方法的选择14.2.7示例：市场篮子分析（续）14.3 聚类分析14.3.1接近矩阵14.3.2 基于属性的不相似性14.3.3 样品的不相似性14.3.4聚类算法14.3.5组合算法14.3.6 K-均值14.3.7高斯混合作为 Soft K均值聚类14.3.8 例子：人类肿瘤微阵列数据14.3.9 向量量化14.3.10 K-medoids14.3.11实际中的问题14.3.12层次聚类14.4 自组织图14.5 主成分，主曲线以及主曲面14.5.1主成分14.5.2主曲线和主曲面14.5.3 谱聚类14.5.4核主成分14.5.5稀疏主成分14.6 非负矩阵分解14.6.1原型分析14.7 独立成分分析和探索投影寻踪14.7.1隐变量和因子分析14.7.2独立成分分析14。7.3 探索投影寻踪14.7.4 ICA的直接方法14.8 多维缩放14.9 非线性降维和局部多维缩放14.10 谷歌的 PageRank 算法15 随机森林15.1 导言15.2 随机森林的定义15.3 随机森林的细节15.3.1 集外样本15.3.2 变量重要性15.3.3 邻近图15.3.4 随机森林和过拟合15.4 随机森林的分析15.4.1方差和去相关性的影响15.4.2 偏差15.4.3 自适应最近邻16 集成学习16.1 导言16.2 增强和正则路径16.2.1 带惩罚的回归16.2.2 “Bet on Sparsity” 原则16.2.3 正则化路径，过拟合和 Margin16.3 学习集成16.3.1 学习一个好的集成16.3.2 规则集成 17 无向图模型17.1 导言17.2 马尔科夫图及其性质17.3 连续变量的无向图模型17.3.1 图结构已知时参数的估计17.3.2 图结构的估计17.4 离散变量的无向图模型17.4.1 当图结构已知时估计参数17.4.2 隐藏结点17.4.3 图结构的估计17.4.4 受制玻尔兹曼机18 高维问题18.1 当 p 大于 N18.2 对角线性判别分析和最近收缩重心18.3 二次正则的线性分类器18.3.1正则化判别分析18.3.2 二次正则的逻辑斯蒂回归18.3.3 支持向量分类器18.3.4 特征选择18.3.5 当 p>>N时的计算捷径18.4 一次正则的线性分类器18.4.1 应用 lasso 的方法到蛋白质质谱18.4.2 对于函数型数据的 Fused Lasso18.5 当特征不可用时的分类18.5.1 例子：字符串核和蛋白质分类18.5.2 分类和其它使用内积核和成对距离的模型18.5.3 例子：摘要分类18.6 有监督的主成分18.6.1 与隐变量模型的联系18.6.2 与偏最小二乘的联系18.6.3 特征选择的预处理18.7 特征评估和多重检验问题18.7.1 18.7.1错误发现率18.7.2 对称分割点和 SAM 过程18.7.3 FDR 的贝叶斯解释

Machine Learning A Probabilistic Perspective

这本书应该是最难翻译的，有一个翻译了一半的github项目：

https://github.com/qiguming/MLAPP_CN_CODE

大家一起去点个Star，支持一下译者。

MLAPP1 绪论1.1 机器学习：是什么？为什么？1.1.1 机器学习的类型1.2 监督学习1.2.1 分类1.2.2 回归1.3 无监督学习1.3.1 发现聚类1.3.2 发现潜在因子1.3.3 发现图结构1.3.4 矩阵补全1.4 一些机器学习的基本概念1.4.1 参数模型和非参数模型1.4.2 一个简单的非参数分类器：K近邻1.4.3 维度灾难1.4.4 分类和回归中的参数模型1.4.5 线性回归1.4.6 逻辑回归1.4.7 过拟合1.4.8 模型选择1.4.9 没有免费的午餐理论2 概率2.1 引言2.2 关于概率论的简单综述2.2.1 离散随机变量2.2.2 基本定理2.2.3 贝叶斯法则2.2.4 独立性和条件独立性2.2.5 连续随机变量2.2.6 分位数2.2.7均值和方差2.3 常见的离散分布2.3.1二项式和伯努利分布2.3.2多项式和multinoulli分布2.3.3泊松分布2.3.4经验分布2.4 常见的连续分布2.4.1高斯（正态）分布2.4.2退化pdf2.4.3拉普拉斯分布2.4.4伽马分布2.4.5贝塔分布2.4.6帕累托分布2.5联合概率分布2.5.1协方差和相关性2.5.2多元高斯分布2.5.3多元学生t分布2.5.4狄利克雷分布2.6随机变量的变换2.6.1线性变换2.6.2一般变换2.6.3中心极限定理2.7蒙特卡罗(MC)近似2.7.1示例：变量替换，MC方式2.8信息论2.8.1熵2.8.2 KL散度2.8.3互信息3 离散数据的生成模型3.1 引言3.2 贝叶斯概念学习3.2.1 似然3.2.2 先验3.2.3 后验3.2.4 后验预测分布3.2.5 一种更复杂的先验3.3 贝塔——二项式模型3.3.1 似然3.3.2 先验3.3.3 后验3.3.4 后验预测分布3.4 狄利克雷——多项式模型3.4.1 似然3.4.2 先验3.4.3 后验3.4.4 后验预测分布3.5 朴素贝叶斯分类器3.5.1模型拟合3.5.2 使用模型进行预测3.5.3 log-sum-exp技巧3.5.4 使用互信息进行特征选择3.5.5 使用词袋法对文本进行分类4 高斯模型4.1 引言4.1.1 符号表达4.1.2 基础知识4.1.3多元高斯模型( MVN)的极大似然估计(MLE)4.1.4 高斯分布的最大熵性质推导4.2 高斯判别分析4.2.1 二次判别分析 (QDA)4.2.2 线性判别分析(LDA)4.2.3 二分类LDA4.2.4 判别分析的MLE4.2.5 克服过拟合的策略4.2.6 含正则项的LDA*4.2.7 对角LDA4.2.8 最近收缩质心分类器*4.3 联合高斯分布中的推理问题4.3.1 相关结论4.3.2 例子4.3.3 MVN的信息表达形式4.3.4 结果证明*4.4 线性高斯系统4.4.1 结果陈述4.4.2 例子4.4.3 结果的证明*4.5 拓展：威舍特分布*4.5.1 逆威舍特分布4.5.2 威舍特分布的可视化*4.6 MVN的参数推理4.6.1 参数μ的后验分布4.6.2 参数Σ的后验分布*4.6.3 参数μ 和 Σ的后验分布*4.6.4 未知精度下的传感器融合*5 贝叶斯统计5.1 引言5.2 关于后验分布的相关总结5.2.1 最大后验估计5.2.2 可靠区间5.2.3 对比例差异的推断5.3 贝叶斯模型选择5.3.1 贝叶斯奥卡姆剃刀5.3.2 计算边缘似然（证据）5.3.3 贝叶斯因子5.3.4 Jeffreys-Lindley 悖论*5.4 先验分布5.4.1 无信息先验分布5.4.2 Jeffreys 先验*5.4.3 鲁棒先验5.4.4 混合共轭先验5.5 分层贝叶斯5.6 经验贝叶斯5.6.1 例子：beta-binomial模型5.6.2 例子：高斯-高斯模型5.7 贝叶斯决策论5.7.1 常规损失函数下的贝叶斯估计量5.7.2 假正例与假负例之间的权衡5.7.3 其他的主题*6 频率统计6.1 引言6.2 估计量的采样分布6.2.1 自举法6.3 频率学派的决策论6.3.1 贝叶斯风险6.3.2 最小最大风险6.3.3 可接受的估计量6.4 估计量的理想性质6.4.1 相容性估计量6.4.2 无偏估计6.4.3 方差最小估计量6.4.4 偏差-方差权衡6.5 经验风险最小化6.5.1 正则化风险最小化6.5.2 结构化风险最小化6.5.3 使用交叉验证估计风险6.5.4 使用统计学习理论计算风险的上确界6.5.5 代理损失函数6.6 (吐槽)频率学派的病理6.6.1置信区间的反直觉行为6.6.2 被认为无益的p值6.6.3似然原理6.6.4为什么不是每个人都是贝叶斯？7 线性回归7.1 引言7.2 模型说明7.3 最大似然估计（最小二乘法）7.3.1 最大似然估计(MLE)的推导7.3.2 几何解释7.3.3 凸函数7.4 健壮的线性回归7.5 岭回归7.5.1 基本思想7.5.2 计算中的数值稳定性问题7.5.3 与主成分分析(PCA)的联系*7.5.4 大数据的正则化效果7.6 贝叶斯线性回归7.6.1 计算后验分布7.6.2 计算后验预测7.6.3 当方差未知时的贝叶斯推理7.6.4 线性回归的EB（证据程序）8 Logistic回归8.1 引言8.2 模型描述8.3 模型训练8.3.1 MLE8.3.2 最速下降法8.3.3 牛顿法8.3.4 重复再加权最小二乘8.3.5拟牛顿（可变度量）方法8.3.6 L2正则化8.3.7多类别logistic回归8.4贝叶斯 logistic回归8.4.1拉普拉斯近似8.4.2 BIC的推导8.4.3 高斯近似用于logistic回归8.4.4近似后验预测8.4.5残差分析（异常值检测）*8.5在线学习和随机优化8.5.1在线学习和遗憾最小化8.5.2随机优化和风险最小化8.5.3 LMS算法8.5.4感知器算法8.5.5贝叶斯角度8.6生成式分类器与判别分类器8.6.1每种方法的优缺点8.6.2处理缺失数据8.6.3 Fisher线性判别分析（FLDA）*9 广义线性模型与指数族9.1 引言9.2 指数族分布9.2.1 定义9.2.2 例子9.2.3 对数配分函数9.2.4 指数族分布的MLE9.2.5 指数族分布的贝叶斯方法*9.2.6 指数族分布的最大熵推导*9.3 广义线性模型（GLMs）9.3.1 基础9.3.2 ML(最大似然)和MAP（最大后验概率）估计9.3.3 贝叶斯推理9.4 Probit 回归9.4.1 使用基于梯度优化的方法求解ML/MAP估计9.4.2 潜在变量解释9.4.3 顺序probit回归*9.4.4 Multinomial probit回归*9.5 多任务学习9.5.1 多任务学习的分层贝叶斯方法9.5.2个性化邮件垃圾邮件过滤应用9.5.3域适配应用9.5.4其他类型的先验9.6广义线性混合模型*9.6.1示例：医疗数据的半参数广义线性混合模型(GLMMs)9.6.2计算问题9.7 排序学习*9.7.1逐点方法9.7.2成对方法9.7.3列表法9.7.4排序损失函数10 有向图模型（DGMs,贝叶斯网络）10.1 引言10.1.1 链式法则10.1.2 条件独立性10.1.3 图模型10.1.4 图中的术语10.1.5 有向图模型10.2 例子10.2.1 朴素贝叶斯分类器10.2.2 马尔科夫和隐马尔科夫模型10.2.3医学诊断10.2.4基因连锁分析*10.2.5有向高斯图模型*10.3 推断10.4学习10.4.1 Plate notation10.4.2从完整数据中学习10.4.3缺失和/或潜在变量的学习10.5 DGMs的条件独立性10.5.1 d-分离和Bayes-Ball算法（全局马尔可夫性）10.5.2 DGMs的其他马尔可夫性10.5.3马尔可夫覆盖和完整条件10.6影响（决策）图*10.6影响（决策）图*11 混合模型与EM算法11.1 隐变量模型11.2 混合模型11.2.1 高斯混合模型11.2.2 混合多项式分布11.2.3 使用混合模型进行聚类11.2.4 混合专家11.3 混合模型中的参数估计11.3.1 不可辨识性11.3.2 MAP估计是一个非凸问题11.4 EM算法11.4.1 基本思想11.4.2 高斯混合模型（GMMs）的EM11.4.3 EM算法用于混合专家模型11.4.4 EM算法用于含隐变量的DGMs11.4.5 学生分布的EM算法11.4.6 probit回归的EM算法11.4.7 EM的理论基础11.4.8 在线EM算法11.4.9 其他EM算法变体11.5 潜变量模型的模型选择11.5.1 概率模型的模型选择11.5.2 非概率模型的模型选择11.6 含缺失数据的模型拟合11.6.1 EM算法用于含缺失数据的模型MLE12 隐线性模型12.1 因子分析（FA）12.1.1 FA是MVN的低秩参数化12.1.2 潜在因子的推理12.1.3不可识别性12.1.4混合因子分析12.1.5因子分析模型的EM12.1.6用缺失数据拟合FA模型12.2 主元分析12.2.1 经典PCA：定理陈述12.2.2 证明*12.2.3 奇异值分解（SVD）12.2.4概率主成分分析12.2.5 PCA的EM算法12.3选择潜在维度的数量12.3.1 FA/概率主成分分析(PPCA)的模型选择12.3.2 PCA的模型选择12.4分类数据的PCA分析12.5配对和多视角数据的PCA12.5.1监督PCA(潜在因子回归)12.5.2偏最小二乘12.5.3典型相关分析12.6独立分量分析(ICA)12.6.1最大似然估计12.6.2 FastICA算法12.6.3使用EM12.6.4其他估算原理*13 稀疏线性模型13.1 引言13.2 贝叶斯观点下的变量选择13.2.1 spike and slab model13.2.2从伯努利-高斯模型到L0正则化13.2.3算法13.3 L1正则：基本原理13.3.1 为什么L1正则可以得到稀疏解13.3.2 lasso最优解条件13.3.3 最小二乘，lasso,ridge和子集选择的比较13.3.4正规化的方式13.3.5模型选择13.3.6带拉普拉斯先验的线性模型的贝叶斯推理13.4 L1正则化:算法13.4.1坐标下降13.4.2 最小角回归算法（LARS）和其他同伦法13.4.3近端和梯度投影法13.4.4 EM之于 lasso13.5 L1正则化:扩展13.5.1 Group Lasso13.5.2 Fused lasso13.5.3 Elastic net (ridge and lasso结合)13.6非凸正则13.6.1桥回归13.6.2分层自适应lasso13.6.3其他层次先验13.7自动关联确定(ARD)/稀疏贝叶斯学习(SBL)13.7.1ARD之于 线性回归13.7.2 何处稀疏何处13.7.3 联系到MAP估算13.7.4 ARD 的算法*13.7.5 ARD之于logistic回归13.8 Sparse coding *13.8.1学习稀疏编码字典13.8.2 从图像patches的字典学习的结果13.8.3压缩传感13.8.4图像修复与去噪14 核方法14.1 引言14.2 核函数14.2.1 RBF核14.2.2 用于比较文本的核14.2.3 梅塞(正定)核14.2.4 线性核14.2.5 Matern 核14.2.6 String 核14.2.7 Pyramid match 核14.2.8 根据概率生成模型推导核14.3在GLMs中使用核14.3.1核机14.3.2 ：相关向量机(L1VM),相关向量机（RVMs）等稀疏向量机14.4核技巧14.4.1核化近邻分类14.4.2核化K-medoids聚类14.4.3核化岭回归14.4.4核化主成分分析14.5支持向量机(SVM)14.5.1回归支持向量机14.5.2分类支持向量机14.5.3选择C14.5.4要点总结14.5.5支持向量机的概率解释14.6判别核方法的比较14.7核方法用于构建生成模型14.7.1平滑核14.7.2核密度估计(KDE)14.7.3从KDE到K最近邻算法(KNN)14.7.4核回归14.7.5局部加权回归15 高斯过程15.1引言15.2 高斯过程(GPs)回归15.2.1使用无噪声观测进行预测15.2.2使用噪声观测进行预测15.2.3核参数的影响15.2.4估计核参数15.2.5计算和数值问题*15.2.6半参数GPs *15.3 GPs遇到GLMs15.3.1二进制分类15.3.2多层次分类15.3.3泊松回归的GPs15.4与其他方法联系15.4.1与GPs相比的线性模型15.4.2与GPs相比的线性平滑器15.4.3支持向量机与GPs的比较15.4.4与GPs相比的L1VM和RVM15.4.5与GPs相比的神经网络15.4.6与GPs相比的平滑样条15.4.7 再生希尔伯特空间(RKHS)方法与GPs方法比较15.5 GP隐变量模型15.6大数据集的近似方法16 自适应基函数模型16.1 引言16.2 分类和回归树16.2.1 基本原理16.2.2 树的生成16.2.3 树的剪枝16.2.4 树的优势和缺点16.2.5 随机森林16.2.6 分类与回归树(CART)与分层混合专家*的比较16.3 广义叠加模型16.3.1 Backfitting16.3.2计算效率16.3.3多元自适应回归样条曲线(MARS)16.4 Boosting16.4.1 前向逐步叠加建模16.4.2 L2boosting16.4.3 AdaBoost16.4.4 LogitBoost16.4.5 作为函数梯度下降的提升16.4.6 稀疏boosting16.4.7 多变量自适应回归树16.5前馈神经网络(多层感知机)16.5.1卷积神经网络16.5.2其他类型的神经网络16.5.3 领域简史16.5.4反向传播算法16.5.5 Identifiability16.5.6 正则化16.5.7贝叶斯推断16.6 集成学习16.6.1 Stacking16.6.2纠错输出码16.6.3集成学习并不等同于贝叶斯模型平均16.7实验比较16.7.1 Low-dimensional features16.7.2高维特征16.8解释黑匣子模型17 马尔可夫与隐马尔可夫模型17.1 前言17.2 马尔科夫模型17.2.1 转移矩阵17.2.2 应用：语言模型17.2.3马尔可夫链的平稳分布17.2.4应用:谷歌的网页排名的PageRank算法*17.3 隐马尔可夫模型(HMMs)17.3.1 HMMs的应用17.4 HMMs的推理17.4.1 时间模型中推理问题的类型17.4.2 前向算法17.4.3 前向-后向算法17.4.4 Viterbi算法17.4.5前向滤波, 反向采样17.5 HMMs学习17.5.1充分观测数据进行培训17.5.2 HMMs的EM (Baum-Welch算法)17.5.3“拟合”HMMs的贝叶斯方法*17.5.4 区别性训练17.5.5模型选择17.6 HMMs的概括7.6.1可变持续时间（半马尔可夫）HMMs17.6.2分层HMMs17.6.3输入输出HMMs17.6.4自回归和buried HMM17.6.5 因子HMM17.6.6耦合HMM及其影响模型17.6.7动态贝叶斯网络（DBN）18 状态空间模型(SSMs)18.1 前言18.2 SSMs的应用18.2.1用于目标跟踪的SSMs18.2.2机器人SLAM18.2.3使用递归最小二乘法的在线参数学习18.2.4时间序列预测的SSM*18.3 LG-SSM推断18.3.1卡尔曼滤波算法18.3.2卡尔曼平滑算法18.4 LG-SSM学习18.4.1可辨识性和数值稳定性18.4.2充足观察数据的训练18.4.3 LG-SSM的EM8.4.4子空间方法18.4.5“拟合”LG SSMs的贝叶斯方法18.5非线性、非高斯ssm的近似在线推断18.5.1扩展卡尔曼滤波(EKF)18.5.2 Unscented卡尔曼滤波(UKF)18.5.3假设密度滤波（ADF）18.6混合离散/连续SSM18.6.1推断18.6.2应用：数据关联和多目标跟踪18.6.3应用：故障诊断18.6.4应用：计量经济预测19 无向图模型（UGMs,马尔可夫随机场(MRF)）19.1前言19.2UGMs的条件独立性19.2.1关键特性19.2.2 d分离的无向替代方案19.2.3比较有向和无向图模型19.3 MRFs参数化19.3.1 Hammersley-Clifford定理19.3.2表示潜在函数19.4 MRF示例19.4.1 Ising 模型19.4.2 Hopfield网络19.4.3 Potts模型19.4.4高斯MRFs19.4.5马尔可夫逻辑网络*19.5学习19.5.1使用梯度方法训练最大熵模型19.5.3 MRF最大似然估计的近似计算方法19.5.4伪似然19.5.5随机最大似然19.5.6 最大熵模型的特征归纳*19.5.7迭代比例拟合（IPF）*19.6条件随机场（CRF）19.6.1链式结构的CRF、MEMM和标签偏差问题19.6.2 CRF的应用19.6.3 CRF训练19.7结构支持向量机(SSVM)19.7.1 SSVMs：概率角度19.7.2 SSVMs：非概率角度19.7.3拟合SSVM的切平面方法19.7.4 拟合SSVM的在线算法19.7.5潜在结构支持向量机20 图模型的精确推断20.1 引言20.2 树的置信度传播(BP)算法20.2.1串行协议20.2.2并行协议20.2.3高斯BP*20.2.4其他BP变体20.3变量消除（VE）算法20.3.1广义分配律*20.3.2 VE的计算复杂度20.3.3 VE的缺陷20.4联合树算法（JTA）*20.4.1创建联合树20.4.2连联合树的消息传递20.4.3 JTA的计算复杂性20.4.4 JTA概述*20.5最坏情况下精确推断的计算困难性20.5.1近似推断21 变分推断21.1 前言21.2变分推断21.2.1变分目标的替代解释21.2.2 Forward or reverse KL? *21.3平均场法21.3.1平均场更新方程的推导21.3.2示例： Ising 模型的平均场21.4结构化平均场*21.4.1示例：因子HMM21.5变分贝叶斯(VB)21.5.1 示例：VB用于一元高斯分布21.5.2示例：用于线性回归的VB21.6 变分Bayes EM21.6.1示例：高斯混合的VBEM*21.7信息传递和 VIBS21.8局部变分界限*21.8.1 Motivating应用21.8.2log-sum-exp函数的Bohning二次界21.8.3 sigmoid函数的界限21.8.4log-sum-exp函数的其他界限和近似值*21.8.5基于上界的变分推理22 more 变分推断22.1 前言22.2循环信念传播（LBP）：算法问题22.2.1 一段简短历史22.2.2 成对模型中的LBP22.2.3 因子图的LBP22.2.4 收敛22.2.5 LBP的准确率22.2.6 LBP 的其他加速技巧*22.3循环信念传播：理论问题*22.3.1 UGMs以指数族形式表示22.3.2 边沿多面体22.3.3 作为变分优化问题的精确推理22.3.4 作为变分优化问题的平均场22.3.5 作为变分优化问题的LBP22.3.6 Loopy 与 平均场22.4 信念传播的扩展*22.4.1 广义信念传播22.4.2 凸信念传播22.5期望传播(EP)22.5.1 EP作为变分推断问题22.5.2 利用矩匹配对EP目标进行优化22.5.3 聚类问题的EP22.5.4 LBP是特殊的EP22.5.5 Ranking players using TrueSkill22.5.6 EP的其他应用22.6 MAP状态估计22.6.1 线性规划松弛22.6.2 Max-product信念传播22.6.3 Graphcuts22.6.4 graphcuts和BP算法的实验比较22.6.5 对偶分解23 蒙特卡洛推断23.1 前言23.2 Sampling from standard distributions23.2.1 使用cdf从高斯分布中采样( (Box-Muller方法))23.3 拒绝采样23.3.1 基本思路23.3.2 例子23.3.3 贝叶斯统计的应用23.3.4 自适应拒绝采样23.3.5 高维拒绝采样23.4 重要性采样23.4.1 基本思路23.4.2处理未标准化的分布23.4.3有向图模型( DGM)的重要性抽样:似然加权23.4.4 重要性重采样23.5 粒子滤波23.5.1 序列重要性采样23.5.2 退化问题23.5.3 重采样步骤23.5.4 The proposal distribution23.5.5 应用：机器人定位23.5.6 应用：视觉目标跟踪23.5.7 应用：时间序列预测23.6 Rao-Blackwellised粒子滤波（RBPF）23.6.1 RBPF for switching LG-SSMs23.6.2 应用：机动目标跟踪23.6.3 应用：Fast SLAM24 马尔可夫链蒙特卡罗推断24.1 前言24.2 吉布斯（Gibbs ）采样24.2.1 基本思想24.2.2 例子：Ising 模型的吉布斯采样24.2.3 例子：吉布斯采样用于推导GMM的参数24.2.4 Collapsed Gibbs sampling *24.2.5 分层GLMs的吉布斯采样24.2.6 BUGS和JAGS24.2.7 后验插补(IP)算法24.2.8 Blocking吉布斯抽样24.3 Metropolis Hastings （MH）算法24.3.1 基本思想24.3.2 吉布斯采样是MH的特特例24.3.3 Proposal distributions24.3.4 自适应马尔科夫链蒙特卡洛（MCMC）24.3.5 初始化和模式跳转24.3.6 MH的工作原理*24.3.7 可逆跳跃（跨维）MCMC*24.4 MCMC的速度和精度24.4.1 burn-in 阶段24.4.2 马尔可夫链的混合率*24.4.3 实用收敛诊断24.4.4 MCMC的准确率24.4.5 有多少链24.5辅助变量MCMC*24.5.1 logistic回归的辅助变量抽样24.5.2 切片取样24.5.3 Swendsen Wang24.5.4 混合/Hamiltonian MCMC*24.6 退火方法24.6.1 模拟退火24.6.2 退火重要性取样24.6.3 并行退火24.7 近似边际似然24.7.1 候选方法24.7.2 调和平均值估计24.7.3 退火重要性采样25 聚类25.1 前言25.1.1 Measuring (dis)similarity25.1.2评估聚类方法的输出*25.2 Dirichlet过程混合模型25.2.1 有限到无限混合模型25.2.2Dirichlet过程25.2.3 将Dirichlet 过程应用到混合模型25.2.4 拟合一个DP混合模型25.3 仿射传播25.4 谱聚类25.4.1 图拉普拉斯25.4.2 标准化图拉普拉斯25.4.3 例子25.5 层次聚类25.5.1凝聚聚类25.5.2 分裂聚类25.5.3 选择聚类数目25.5.4 贝叶斯层次聚类25.6 聚类数据点和特性25.6.1 双聚类算法25.6.2 多视图聚类26 图模型的结构学习26.1 前言26.2知识发现的结构学习26.2.1 关联网络26.2.2 依赖网络26.3学习树结构26.3.1 有向还是无向树？26.3.2 Chow-Liu 算法求解最大似然树结构求最大后验概率森林26.3.4 树混合26.4学习DAG结构26.4.1 马尔可夫等价性26.4.2 精确结构推断26.4.3 放大到更大的图26.5学习潜在变量的有向无环图(DAG)结构26.5.1 马尔可夫等价性26.5.2 结构化EM26.5.3 发现隐藏变量26.5.4 示例学习： Google’s Rephil26.5.5：结构方程模型*26.6学习因果DAGs26.6.1 DAGs的因果解释26.6.2 用因果DAGs解Simpson悖论26.6.3 学习因果DAG结构26.7 学习无向高斯图模型26.7.1GGm和MLE26.7.2 图 lasso26.7.3 G广义高斯一马尔可夫(GGM)构的贝叶斯推断26.7.4 26.7.4使用copulas处理非高斯数据*26.8学习无向离散图模型26.8.1 马尔科夫随机场(MRFs)/条件随机场(CRDs)的图lasso26.8.2 联合树27 离散数据的隐变量模型27.1 前言27.2 离散数据的分布式状态隐变量模型(LVMs)27.2.1 混合模型27.2.2 指数族PCA27.2.3 LDA和Multilinear PCA（MPCA）27.2.4 GaP模型与非负矩阵分解27.3 潜在狄氏分配（LDA）27.3.1 基础27.3.2 主题的无监督发现27.3.3 LDA作为语言模型的定量评价27.3.4 使用（collapsed）Gibbs采样进行拟合27.3.5 例子27.3.6 用批量变分推断拟合27.3.7 使用在线变分推断拟合27.3.8 确定主题的数量27.4 LDA的扩展27.4.1 相关主题模型27.4.2 动态主题模型27.4.3 LDA-HMM27.4.4 监督LDA27.5 图结构数据的LVMs27.5.1 Stochastic block model27.5.2 Mixed membership stochastic block model27.5.3 Relational 主题模型27.6关系数据的LVMs27.6.1 无限关系模型27.6.2 协同过滤的概率矩阵分解27.7 受限玻尔兹曼机(RBMs)27.7.1 RBM的种类27.7.2 学习RBMs27.7.3 RBMs的应用28 深度学习28.1 前言28.2 深度生成式模型28.2.1深度有向网络28.2.2深度玻尔兹曼机28.2.3深度信念网络（DBN）28.2.4 dbn的贪婪分层学习28.3 深度神经网络28.3.1 深度多层感知机28.3.2 深度自编码器28.3.3 叠加去噪自动编码器28.4 深度网络的应用28.4.1使用DBN进行手写数字分类28.4.2使用深度自动编码器进行数据可视化和特征发现28.4.3使用深度自动编码器进行信息检索(语义哈希)28.4.4使用一维卷积DBN学习音频特性28.4.5使用二维卷积DBN学习图像特征28.5 讨论

西瓜书

未开源

西瓜书1 绪论1.1 引言1.2 基本术语1.3 假设空间1.4 归纳偏好1.5 发展历程1.6 应用现状1.7 阅读材料2 模型评估与选择 2.1 经验误差与过拟合2.2 评估方法2.2.1 留出法2.2.2 交叉验证法2.2.3 自助法2.2.4 调参与最终模型2.3 性能度量 2.3.1 错误率与精度2.3.2 查准率、查全率与F1 2.3.3 ROC与AUC2.3.4 代价敏感错误率与代价曲线2.4 比较检验2.4.1 假设检验2.4.2 交叉验证t检验2.4.3 McNemar检验2.4.4 Friedman检验 与后续检验2.5 偏差与方差2.6 阅读材料3 线性模型3.1 基本形式3.2 线性回归3.3 对数几率回归3.4 线性判别分析3.5 多分类学习3.6 类别不平衡问题3.7 阅读材料4 决策树4.1 基本流程4.2 划分选择4.2.1 信息增益4.2.2 增益率4.2.3 基尼指数4.3 剪枝处理4.3.1 预剪枝4.3.2 后剪枝4.4 连续与缺失值4.4.1 连续值处理4.4.2 缺失值处理4.5 多变量决策树4.6 阅读材料5 神经网络5.1 神经元模型5.2 感知机与多层网络5.3 误差逆传播算法5.4 全局最小与局部极小5.5 其他常见神经网络 5.5.1 RBF网络5.5.2 ART网络5.5.3 SOM网络5.5.4 级联相关网络5.5.5 Elman网络5.5.6 Boltzmann机5.6 深度学习5.7 阅读材料6 支持向量机 6.1 间隔与支持向量6.2 对偶问题6.3 核函数6.4 软间隔与正则化6.5 支持向量回归6.6 核方法6.7 阅读材料7 贝叶斯分类器7.1 贝叶斯决策论 7.2 极大似然估计7.3 朴素贝叶斯分类器7.4 半朴素贝叶斯分类器7.5 贝叶斯网7.5.1 结构7.5.2 学习 7.5.3 推断 7.6 EM算法 7.7 阅读材料8 集成学习8.1 个体与集成 8.2 Boosting8.3 Bagging与随机森林8.3.1 Bagging8.3.2 随机森林8.4 结合策略8.4.1 平均法8.4.2 投票法8.4.3 学习法8.5 多样性8.5.1 误差--分歧分解8.5.2 多样性度量8.5.3 多样性增强8.6 阅读材料9 聚类9.1 聚类任务9.2 性能度量9.3 距离计算9.4 原型聚类9.4.1 k均值算法9.4.2 学习向量量化9.4.3 高斯混合聚类9.5 密度聚类9.6 层次聚类9.7 阅读材料10 降维与度量学习10.1 k近邻学习10.2 低维嵌入10.3 主成分分析10.4 核化线性降维10.5 流形学习10.5.1 等度量映射 10.5.2 局部线性嵌入10.6 度量学习10.7 阅读材料11 特征选择与稀疏学习11.1 子集搜索与评价11.2 过滤式选择11.3 包裹式选择11.4 嵌入式选择与L1正则化11.5 稀疏表示与字典学习11.6 压缩感知12 计算学习理论12.1 基础知识12.2 PAC学习12.3 有限假设空间12.3.1 可分情形12.3.2 不可分情形12.4 VC维12.5 Rademacher复杂度12.6 稳定性13 半监督学习 13.1 未标记样本13.2 生成式方法13.3 半监督SVM13.4 图半监督学习13.5 基于分歧的方法13.6 半监督聚类 13.7 阅读材料14 概率图模型14.1 隐马尔可夫模型14.2 马尔可夫随机场14.3 条件随机场14.4 学习与推断14.4.1 变量消去14.4.2 信念传播14.5 近似推断14.5.1 MCMC采样14.5.2 变分推断14.6 话题模型14.7 阅读材料15 规则学习15.1 基本概念15.2 序贯覆盖15.3 剪枝优化 15.4 一阶规则学习15.5 归纳逻辑程序设计15.5.1 最小一般泛化 15.5.2 逆归结15.6 阅读材料16 强化学习16.1 任务与奖赏16.2K-摇臂赌博机16.2.1 探索与利用16.2.2 epsilon-贪心16.2.3 Softmax 16.3 有模型学习16.3.1 策略评估16.3.2 策略改进16.3.3 策略迭代与值迭代16.4 免模型学习16.4.1 蒙特卡罗强化学习16.4.2 时序差分学习16.5 值函数近似16.6 模仿学习16.6.1 直接模仿学习16.6.2 逆强化学习16.7 阅读材料

花书

已被翻译：

https://github.com/exacity/deeplearningbook-chinese

中文版的pdf也在我分享的那个文件夹里。

花书1 前言1.1 谁应该读这本书？1.2 深度学习的历史发展趋势I 应用到的数学与机器学习基础2 线性代数2.1 标量，向量，矩阵和张量2.2 矩阵和向量相乘2.3 单位矩阵与逆矩阵2.4 线性相关与张成空间2.5 范数2.6 特殊的矩阵和向量2.7 特征分解2.8 奇异值分解2.9 Moore-Penrose伪逆2.10 迹运算2.11 行列式2.12 示例：主成分分析3 概率论与信息论3.1 为什么要用概率3.2 随机变量3.3 概率分布3.4 边缘概率3.5 条件概率3.6 条件概率的链式法则3.7 独立性与条件独立性3.8 期望，方差和协方差3.9 常用概率分布3.10 常用函数的有用性质3.11 贝叶斯法则3.12 连续型变量的技术细节3.13 信息论3.14 结构化概率模型4 数值计算4.1 上溢与下溢4.2 病态条件数4.3 基于梯度的优化方法4.4 约束优化4.5 实例：线性最小二乘5 机器学习基础5.1 学习算法5.2 容量，过拟合与欠拟合5.3 超参数与验真集5.4 估计，偏差和方差5.5 极大似然估计5.6 贝叶斯统计5.7 监督学习算法5.8 无监督学习算法5.9 随机梯度下降5.10 构建机器学习算法5.11 推动机器学习的挑战II 深度网络：现代方法6 深度前馈网络6.1 例子：学习XOR6.2 基于梯度的学习6.3 隐藏单元6.4 结构设计6.5 反向传播与其他微分算法6.6 历史小记7 深度学习的正规化7.1 参数范数惩罚7.2 范数惩罚约束优化7.3 正则化与欠约束问题7.4 数据集增强7.5 噪声鲁棒性7.6 半监督学习7.7 多任务学习7.8 早停法7.9 参数板顶与参数共享7.10 稀疏表示7.11 Bagging 和其他集成方法7.12 dropout7.13 对抗训练7.14 切面距离、正切传播和流形正切分类8 深部模型训练的优化8.1 学习和单纯的优化有什么不同8.2 神经网络优化的挑战8.3 基本算法8.4 参数初始化策略8.5 自适应学习率的算法8.6 二阶近似方法8.7 优化技巧和元算法9 卷积网络9.1 卷积运算9.2 动机9.3 池化9.4 卷积与池化作为一种无限强的先验9.5 基本卷积函数的变体9.6 结构化输出9.7 数据类型9.8 高效的卷积算法9.9 随机或无监督的特征9.10 卷积神经网络的神经科学基础9.11 卷积神经网络与深度学习的历史10 序列建模：循环和递归网络10.1 展开计算图10.2 循环神经网络10.3 双向RNN10.4 基于编码-解码的序列到序列的架构10.5 深度循环网络10.6 递归神经网络10.7 长期依赖的挑战10.8 回声状态函数10.9 渗透单元和其他多时间尺度的策略10.10 长短期记忆和其他门限RNN10.11 优化长期依赖10.12 外显记忆11 一些实用的方法11.1 性能度量11.2 默认的基准模型11.3 决定是否收集更多数据11.4 选择超参数11.5 调试技巧11.6 示例：多位数字识别12 应用12.1 大规模深度学习12.2 GPU实现12.3 语音识别12.4 自然语言处理12.5 其他应用III 深度学习研究13 线性因子模型13.1 概率PCA与因子分析13.2 独立分量分析13.3 慢特征分析13.4 稀疏编码13.5 PCA与流形解释14 自动编码器14.1 欠完备自动编码器14.2 正则自动编码器14.3 表示能力14.4 随机编码器与解码器14.5 去噪自动编码器14.6 使用自动编码器学习流形14.7 收缩自动编码器14.8 预测稀疏分解14.9 自动编码器的应用15 表示学习15.1 贪心逐层无监督预训练15.2 迁移学习与领域自适应15.3 半监督解释因果关系15.4 分布式表示15.5 得益于深度的指数增益15.6 提供发现潜在原因的线索16 深度学习中的结构化概率模型16.1 非结构化建模的挑战16.2 使用图来描述结构16.3 从图模型中采样16.4 结构化建模的优势16.5 学习依赖性关系16.6 推断与近似推断16.7 结构化概率模型的深度学习方法17 蒙特卡洛方法17.1 采样与蒙特卡罗方法17.2 重要采样17.3 马尔科夫链蒙特卡罗方法17.4 吉布斯采样17.5 不同峰值之间的混合挑战18 直面配分函数18.1 对数似然梯度18.2 随机极大似然与对比散度18.3 伪似然18.4 分数匹配与比率匹配18.5 去噪得分匹配18.6 噪扰对比估计18.7 估计分割函数19 近似推断19.1 推断是一个优化问题19.2 期望最大化19.3 最大后验推断与稀疏编码19.4 变分推断与学习19.5 learned 近似推断20 深度生成模型20.1 玻耳兹曼机器20.2 受限波尔兹曼机20.3 深度信念网络20.4 深度玻耳兹曼机20.5 实值数据上的玻尔兹曼机20.6 卷积玻尔兹曼机20.7 用于结构化或序列输出的玻耳兹曼机20.8 其他玻尔兹曼机20.9 通过随机操作的反向传播20.10 有向生成网络20.11 从自动编码器取样20.12 生成随机网络20.13 其他生成方案20.14 评估生成模型20.15 总结

Reinforcement Learning:An Introduction (Second edition)

已被翻译：

https://rl.qiwihui.com/zh_CN/latest/

RLAI1 导论1.1 强化学习1.2 示例1.3 强化学习要素1.4 局限性与适用范围1.5 扩展实例：井字棋 1.6 本章小结1.7 强化学习的早期历史第I部分 表格型求解方法2 多臂赌博机2.1 一个 k 臂赌博机问题 2.2 动作-价值方法2.3 10 臂测试平台2.4 增量式实现2.5 跟踪一个非平稳问题2.6 乐观初始值2.7 基于置信度上界的动作选择2.8 梯度赌博机算法2.9 关联搜索 (上下文相关的赌博机)2.10 本章小结3 有限马尔可夫决策过程3.1 “智能体-环境”交互接口3.2 目标和收益3.3 回报和分幕(Episodes )3.4 分幕式和持续性任务的统一表示法3.5 策略和价值函数3.6 最优策略和最优价值函数3.7 最优化和近似算法 3.8 本章小结4 动态规划4.1 策略评估 (预测)4.2 策略改进 4.3 策略迭代4.4 价值迭代4.5 异步动态规划4.6 广义策略迭代4.7 动态规划的效率4.8 本章小结5 蒙特卡洛方法5.1 蒙特卡洛预测5.2 动作价值的蒙特卡洛估计5.3 蒙特卡洛控制5.4 没有试探性出发假设的蒙特卡洛控制5.5 基于重要度采样的异策预测5.6 增量式实现5.7 异策蒙特卡洛控制5.8 ∗ 折扣敏感的重要性采样5.9 ∗ 每次决策型重要性采样5.10 本章小结 6 时序差分学习6.1 时序差分预测6.2 时序差分预测方法的优势6.3 TD(0) 的最优性6.4 Sarsa：同策的时序差分控制6.5 Q 学习：异策时序差分控制6.6 期望 Sarsa6.7 最大化偏差与双学习6.8 游戏、后位状态和其他特殊例子6.9 本章小结7 n 步自举法7.1 n 步时序差分预测7.2 n 步 Sarsa7.3 n 步异策学习7.4 ∗ 带控制变量的预决策型方法7.5 不需要使用重要性采样的异策学习方法：n 步树回溯算法7.6 ∗ 一个统一的算法：n 步 Q(σ)7.7 本章小结8 基于表格型方法的规划和学习8.1 模型和规划8.2 Dyna：集成规划、动作和学习8.3 当模型错误的时候 8.4 优先遍历8.5 期望更新与采样更新的对比8.6 轨迹采样8.7 实时动态规划8.8 决策时规划8.9 启发式搜索8.10 预演算法8.11 蒙特卡洛树搜索8.12 本章小结8.13 第I部分总结第II部分 近似求解方法9 基于函数逼近的同策预测9.1 价值函数逼近9.2 预测目标 (VE ) 9.3 随机梯度和半梯度方法9.4 线性方法9.5 线性方法的特征构造9.5.1 多项式基9.5.2 傅立叶基9.5.3 粗编码9.5.4 瓦片编码 9.5.5 径向基函数9.6 手动选择步长参数9.7 非线性函数逼近：人工神经网络9.8 最小二乘时序差分9.9 基于记忆的函数逼近9.10 基于核函数的函数逼近9.11 深入了解同策学习：“兴趣”与“强调”9.12 本章小结 10 基于函数逼近的同策控制10.1 分幕式半梯度控制10.2 半梯度 n 步 Sarsa10.3 平均收益：持续性任务中的新的问题设定10.4 弃用折扣10.5 差分半梯度 n 步 Sarsa10.6 本章小结11 ∗ 基于函数逼近的异策方法11.1 半梯度方法11.2 异策发散的例子11.3 致命三要素11.4 线性价值函数的几何性质11.5 对贝尔曼误差做梯度下降11.6 贝尔曼误差是不可学习的11.7 梯度 TD 方法11.8 强调 TD 方法 11.9 减小方差11.10 本章小结12 资格迹12.1 λ-回报 12.2 TD(λ) 12.3 n-步截断 λ- 回报方法12.4 重做更新：在线 λ-回报算法12.5 真实的在线 TD(λ) 12.6 ∗ 蒙特卡洛学习中的荷兰迹12.7 Sarsa(λ) 12.8 变量 λ 和 γ 12.9 带有控制变量的异策资格迹12.10 从 Watkins 的 Q(λ) 到树回溯 TB(λ) 12.11 采用资格迹保障异策方法的稳定性12.12 实现中的问题12.13 本章小结 13 策略梯度方法13.1 策略近似及其优势13.2 策略梯度定理13.3 REINFORCE：蒙特卡洛策略梯度13.4 带有基线的 REINFORCE13.5 “行动器-评判器”方法13.6 持续性问题的策略梯度13.7 针对连续动作的策略参数化方法13.8 本章小结第III部分 深入研究14 心理学14.1 预测与控制14.2 经典条件反射14.2.1 阻塞与高级条件反射14.2.2 Rescorla-Wagner 模型14.2.3 TD 模型14.2.4 TD 模型模拟14.3 工具性条件反射14.4 延迟强化14.5 认知图14.6 习惯行为与目标导向行为14.7 本章小结15 神经科学15.1 神经科学基础15.2 收益信号、强化信号、价值和预测误差15.3 收益预测误差假说15.4 多巴胺15.5 收益预测误差假说的实验支持15.6 TD 误差/多巴胺对应15.7 神经“行动器-评判器” 15.8 行动器与评判器学习规则15.9 享乐主义神经元15.10 集体强化学习15.11 大脑中的基于模型的算法15.12 成瘾15.13 本章小结16 应用及案例分析16.1 TD-Gammon 16.2 Samuel 的跳棋程序16.3 Watson 的每日双倍投注16.4 优化内存控制16.5 人类级别的视频游戏16.6 主宰围棋游戏16.6.1 AlphaGo 16.6.2 AlphaGo Zero16.7 个性化网络服务16.8 热气流滑翔17 前沿技术17.1 广义价值函数和辅助任务17.2 基于选项理论的时序摘要17.3 观测量和状态17.4 设计收益信号17.5 遗留问题17.6 人工智能的未来

统计学习方法（第2版）

未开源

统计学习方法第1篇监督学习1 统计学习及监督学习概论1.1统计学习1.2统计学习的分类1.2.1基本分类1.2.2按模型分类1.2.3按算法分类1.2.4按技巧分类1.3统计学习方法三要素1.3.1模型1.3.2策略 1.3.3算法1.4模型评估与模型选择1.4.1训练误差与测试误差1.4.2过拟合与模型选择1.5正则化与交叉验证1.5.1正则化1.5.2交叉验证1.6泛化能力1.6.1泛化误差1.6.2泛化误差上界1.7生成模型与判别模型1.8监督学习应用1.8.1分类问题1.8.2标注问题1.8.3回归问题2 感知机2.1感知机模型2.2感知机学习策略2.2.1数据集的线性可分性2.2.2感知机学习策略2.3感知机学习算法2.3.1感知机学习算法的原始形式2.3.2算法的收敛性2.3.3感知机学习算法的对偶形式3 k近邻法3.1k近邻算法3.2k近邻模型3.2.1模型3.2.2距离度量3.2.3k值的选择3.2.4分类决策规则3.3k近邻法的实现：kd树3.3.1构造kd树3.3.2搜索kd树4 朴素贝叶斯f方法4.1朴素贝叶斯法的学习与分类4.1.1基本方法4.1.2后验概率最大化的含义4.2朴素贝叶斯法的参数估计4.2.1极大似然估计4.2.2学习与分类算法4.2.3贝叶斯估计5 决策树5.1   决策树模型与学习5.1.1决策树模型5.1.2决策树与if-then规则5.1.3决策树与条件概率分布5.1.4决策树学习5.2特征选择5.2.1特征选择问题5.2.2信息增益5.2.3信息增益比5.3决策树的生成5.3.1ID3算法5.3.2C4.5的生成算法5.4决策树的剪枝5.5CART算法5.5.1CART生成5.5.2CART剪枝6 逻辑斯谛回归与最大熵模型6.1逻辑斯谛回归模型6.1.1   逻辑斯谛分布6.1.2二项逻辑斯谛回归模型6.1.3模型参数估计6.1.4多项逻辑斯谛回归6.2最大熵模型6.2.1最大熵原理6.2.2最大熵模型的定义6.2.3最大熵模型的学习6.2.4  极大似然估计6.3模型学习的最优化算法6.3.1改进的迭代尺度法6.3.2拟牛顿法7 线性可分支持向量机与硬间隔最大化7.1线性可分支持向量机与硬间隔最大化7.1.1线性可分支持向量机7.1.2函数间隔和几何间隔7.1.3间隔最大化7.1.4学习的对偶算法7.2线性支持向量机与软间隔最大化7.2.1线性支持向量机7.2.2学习的对偶算法7.2.3支持向量7.2.4 合页损失函数7.3非线性支持向量机与核函数7.3.1核技巧7.3.2正定核7.3.3常用核函数7.3.4非线性支持向量分类机7.4序列最小最优化算法7.4.1两个变量二次规划的求解方法7.4.2变量的选择方法7.4.3SMO算法8 提升方法8.1提升方法AdaBoost算法8.1.1提升方法的基本思路8.1.2AdaBoost算法8.1.3AdaBoost的例子8.2AdaBoost算法的训练误差分析8.3AdaBoost算法的解释8.3.1前向分步算法8.3.2前向分步算法与AdaBoost8.4提升树8.4.1提升树模型8.4.2提升树算法8.4.3梯度提升9 EM算法及其推广9.1EM算法的引入9.1.1EM算法9.1.2EM算法的导出9.1.3EM算法在无监督学习中的应用9.2EM算法的收敛性9.3EM算法在 高斯混合模型  学习中的应用9.3.1高斯混合模型9.3.2高斯混合模型参数估计的EM算法9.4EM算法的推广9.4.1 F函数的极大-极大算法9.4.2 GEM算法10 隐马尔可夫模型10.1隐马尔可夫模型的基本概念10.1.1隐马尔可夫模型的定义10.1.2观测序列的生成过程10.1.3隐马尔可夫模型的3个基本问题10.2概率计算算法10.2.1    直接计算法10.2.2前向算法10.2.3后向算法10.2.4一些概率与期望值的计算10.3学习算法10.3.1监督学习方法10.3.2Baum-Welch算法10.3.3Baum-Welch模型参数估计公式10.4预测算法10.4.1近似算法10.4.2维特比算法11 条件随机场11.1概率无向图模型11.1.1模型定义11.1.2概率无向图模型的因子分解11.2条件随机场的定义与形式11.2.1条件随机场的定义11.2.2条件随机场的参数化形式11.2.3条件随机场的简化形式11.2.4条件随机场的矩阵形式11.3条件随机场的概率计算问题11.3.1前向-后向算法11.3.2概率计算11.3.3期望值的计算11.4条件随机场的学习算法11.4.1改进的迭代尺度法11.4.2拟牛顿法11.5 条件随机场的预测算法12 监督学习方法总结第2篇无监督学习13 无监督学习概论13.1无监督学习基本原理13.2基本问题13.3机器学习三要素13.4 无监督学习方法14 聚类方法14.1聚类的基本概念14.1.1相似度或距离14.1.2类或簇14.1.3类与类之间的距离14.2层次聚类14.3k均值聚类14.3.1模型14.3.2策略14.3.3算法14.3.4算法特性15 奇异值分解15.1奇异值分解的定义与性质15.1.1定义与定理15.1.2紧奇异值分解与截断奇异值分解15.1.3几何解释15.1.4主要性质15.2奇异值分解的计算15.3   奇异值分解   与矩阵近似15.3.1弗罗贝尼乌斯范数15.3.2矩阵的最优近似15.3.3矩阵的外积展开式16 主成分分析16.1总体主成分分析16.1.1基本想法16.1.2定义和导出16.1.3主要性质16.1.4主成分的个数16.1.5规范化变量的总体主成分16.2样本主成分分析16.2.1样本主成分的定义和性质16.2.2相关矩阵的特征值分解算法16.2.3数据矩阵的奇异值分解算法17 潜在语义分析17.1单词向量空间与话题向量空间17.1.1单词向量空间17.1.2话题向量空间17.2潜在语义分析算法17.2.1   矩阵奇异值   分解算法17.2.2例子17.3非负矩阵分解算法17.3.1  非负矩阵分解17.3.2潜在语义分析模型17.3.3非负矩阵分解的形式化17.3.4算法18  概率潜在语义分析18.1概率潜在语义分析模型18.1.1基本想法18.1.2生成模型18.1.3共现模型18.1.4模型性质18.2 概率潜在语义分析的算法19    马尔可夫链蒙特卡罗法19.1蒙特卡罗法19.1.1随机抽样19.1.2数学期望估计19.1.3积分计算19.2马尔可夫链19.2.1基本定义19.2.2离散状态    马尔可夫链19.2.3连续状态马尔可夫链19.2.4马尔可夫链的性质19.3马尔可夫链 蒙特卡罗法19.3.1基本想法19.3.2基本步骤19.3.3马尔可夫链蒙特卡罗法与统计学习19.4Metropolis-Hastings算法19.4.1基本原理19.4.2Metropolis-Hastings算法19.4.3单分量Metropolis-Hastings算法19.5吉布斯抽样19.5.1基本原理19.5.2吉布斯抽样算法19.5.3抽样计算20 潜在狄利克雷分配20.1 狄利克雷分布20.1.1分布定义20.1.2共轭先验20.2潜在狄利克雷分配模型20.2.1基本想法20.2.2模型定义20.2.3概率图模型20.2.4随机变量序列的可交换性20.2.5概率公式20.3LDA的吉布斯抽样算法20.3.1基本想法20.3.2算法的主要部分20.3.3算法的后处理20.3.4算法20.4LDA的变分EM算法20.4.1变分推断20.4.2变分EM算法20.4.3算法推导20.4.4算法总结21 PageRank算法21.1PageRank的定义21.1.1基本想法21.1.2有向图和    随机游走模型21.1.3PageRank的基本定义21.1.4PageRank的一般定义21.2PageRank的计算21.2.1迭代算法21.2.2幂法21.2.3代数算法22 无监督学习方法总结

蒲公英书

开源

https://nndl.github.io/

蒲公英书第一部分 机器学习基础1 绪论1.1人工智能1.1.1人工智能的发展历史1.1.2人工智能的流派1.2机器学习1.3表示学习1.3.1局部表示和分布式表示1.3.2表示学习1.4深度学习1.4.1端到端学习1.5神经网络1.5.1人脑神经网络1.5.2   人工神经网络1.5.3神经网络的发展历史1.6本书的知识体系1.7常用的深度学习框架1.8总结和深入阅读2 机器学习概述2.1基本概念2.2机器学习的三个基本要素2.2.1模型2.2.2学习准则2.2.3优化算法2.3机器学习的简单示例——线性回归2.3.1参数学习2.4 偏差-方差分解2.5 机器学习算法  的类型2.6数据的特征表示2.6.1传统的特征学习2.6.2深度学习方法2.7评价指标2.8理论和定理2.8.1 PAC学习理论2.8.2 没有免费午餐定理2.8.3奥卡姆剃刀原理2.8.4 丑小鸭定理2.8.5 归纳偏置2.9总结和深入阅读3 线性模型3.1  线性判别函数和决策边界3.1.1二分类3.1.2多分类3.2 Logistic回归3.2.1参数学习3.3 Softmax回归3.3.1参数学习3.4感知器3.4.1参数学习3.4.2感知器的收敛性3.4.4扩展到多分类3.4.4扩展到多分类3.5 支持向量机3.5.1参数学习3.5.2核函数3.5.3软间隔3.6 损失函数对比3.7总结和深入阅读第三部分 进阶模型11 概率图模型11.1模型表示11.1.1有向图模型11.1.2常见的有向图模型11.1.3无向图模型11.1.4无向图模型的概率分解11.1.5常见的无向图模型11.1.6有向图和无向图之间的转换11.2学习11.2.1不含隐变量的参数估计11.2.2含隐变量的参数估计11.3推断11.3.1精确推断11.3.2近似推断.11.4变分推断11.5基于采样法的近似推断11.5.1采样法11.5.2拒绝采样11.5.3重要性采样11.5.4马尔可夫链蒙特卡罗方法11.6总结和深入阅读12 深度信念网络12.1玻尔兹曼机12.1.1生成模型12.1.2能量最小化与模拟退火12.1.3参数学习12.2受限玻尔兹曼机12.2.1生成模型12.2.2参数学习12.2.3受限玻尔兹曼机的类型12.3深度信念网络12.3.1生成模型12.3.2参数学习12.4总结和深入阅读13 深度生成模型13.1概率生成模型13.1.1密度估计13.1.2生成样本13.1.3应用于监督学习13.2变分自编码器13.2.1含隐变量的生成模型13.2.2推断网络13.2.3生成网络13.2.4模型汇总13.2.5再参数化13.2.6训练13.3生成对抗网络13.3.1显式密度模型和隐式密度模型13.3.2网络分解13.3.3训练13.3.4一个生成对抗网络的具体实现：DCGAN.13.3.5模型分析13.3.6改进模型13.4总结和深入阅读14 深度强化学习14.1强化学习问题14.1.1典型例子14.1.2强化学习定义14.1.3马尔可夫决策过程14.1.4强化学习的目标函数14.1.5值函数14.1.6深度强化学习14.2基于值函数的学习方法14.2.1动态规划算法14.2.2蒙特卡罗方法14.2.3时序差分学习方法14.2.4深度Q网络14.3基于策略函数的学习方法14.3.1REINFORCE算法14.3.2带基准线的REINFORCE算法14.4演员-评论员算法14.5总结和深入阅读15 序列生成模型15.1序列概率模型15.1.1序列生成15.2N元统计模型15.3深度序列模型15.3.1模型结构15.3.2参数学习15.4评价方法15.4.1困惑度15.4.2BLEU算法15.4.3ROUGE算法15.5序列生成模型中的学习问题15.5.1曝光偏差问题15.5.2训练目标不一致问题15.5.3计算效率问题15.6序列到序列模型15.6.1基于循环神经网络的序列到序列模型15.6.2基于注意力的序列到序列模型15.6.3基于自注意力的序列到序列模型15.7总结和深入阅读第二部分 基础模型4 前馈神经网络4.1神经元4.1.1Sigmoid型函数4.1.2ReLU函数4.1.3Swish函数4.1.4GELU函数4.1.5Maxout单元4.2网络结构4.2.1前馈网络4.2.2记忆网络4.2.3图网络4.3前馈神经网络4.3.1通用近似定理4.3.2应用到机器学习4.3.3参数学习4.4反向传播算法4.5自动梯度计算4.5.1数值微分4.5.2符号微分4.5.3自动微分4.6优化问题.4.6.1非凸优化问题.4.6.2梯度消失问题4.7总结和深入阅读5 卷积神经网络5.1卷积5.1.1卷积的定义5.1.2互相关5.1.3卷积的变种5.1.4卷积的数学性质5.2卷积神经网络5.2.1用卷积来代替全连接5.2.2卷积层5.2.3汇聚层5.2.4卷积网络的整体结构5.3参数学习5.3.1卷积神经网络的反向传播算法5.4几种典型的卷积神经网络5.4.1LeNet-5.5.4.2AlexNet.5.4.3Inception网络5.4.4残差网络5.5其他卷积方式5.5.1转置卷积5.5.2空洞卷积6 循环神经网络6.1给网络增加记忆能力6.1.1延时神经网络6.1.2有外部输入的非线性自回归模型6.1.3循环神经网络6.2简单循环网络6.2.1循环神经网络的计算能力6.3应用到机器学习6.3.1序列到类别模式6.3.2同步的序列到序列模式6.3.3异步的序列到序列模式6.4参数学习.6.4.1随时间反向传播算法6.4.2实时循环学习算法6.5长程依赖问题6.5.1改进方案6.6基于门控的循环神经网络6.6.1长短期记忆网络6.6.2LSTM网络的各种变体6.6.3门控循环单元网络6.7深层循环神经网络6.7.1堆叠循环神经网络6.7.2双向循环神经网络6.8扩展到图结构6.8.1递归神经网络6.8.2图神经网络6.9总结和深入阅读7 网络优化与正则化7.1网络优化7.1.1网络结构多样性7.1.2高维变量的非凸优化7.1.3神经网络优化的改善方法7.2优化算法7.2.1小批量梯度下降7.2.2批量大小选择7.2.3学习率调整7.2.4梯度估计修正7.2.5优化算法小结7.3参数初始化7.3.1基于固定方差的参数初始化7.3.2基于方差缩放的参数初始化7.3.3正交初始化7.4数据预处理7.5逐层归一化7.5.1批量归一化.7.5.2层归一化.7.5.3权重归一化.7.5.4局部响应归一化7.6超参数优化7.6.1网格搜索7.6.2随机搜索7.6.3贝叶斯优化7.6.4动态资源分配7.6.5神经架构搜索7.7网络正则化7.7.1 L1和L2正则化7.7.2权重衰减7.7.3提前停止7.7.4丢弃法7.7.5数据增强7.7.6标签平滑7.8总结和深入阅读8 注意力机制与外部记忆8.1认知神经学中的注意力8.2注意力机制8.2.1注意力机制的变体8.3自注意力模型8.4人脑中的记忆8.5记忆增强神经网络8.5.1端到端记忆网络8.5.2神经图灵机8.6基于神经动力学的联想记忆8.6.1Hopfiel网络8.6.2使用联想记忆增加网络容量8.7总结和深入阅读.9 无监督学习9.1无监督特征学习.9.1.1主成分分析9.1.2稀疏编码9.1.3自编码器9.1.4稀疏自编码器.9.1.5堆叠自编码器9.1.6降噪自编码器9.2概率密度估计9.2.1参数密度估计9.2.2非参数密度估计9.3总结和深入阅读10 模型独立的学习方式10.1集成学习10.1.1AdaBoost算法10.2自训练和协同训练10.2.1自训练10.2.2协同训练10.3多任务学习10.4迁移学习.10.4.1归纳迁移学习10.4.2转导迁移学习10.5终身学习10.6元学习10.6.1基于优化器的元学习10.6.2模型无关的元学习10.7总结和深入阅读