数学公式

Ⅱ ( ⋅ ) 是 指 示 函 数 , 若 ⋅ 为 真 则 取 1 , 否 则 取 0 Ⅱ(·)是指示函数,若·为真则取1,否则取0 Ⅱ(⋅)是指示函数,若⋅为真则取1,否则取0

#第一章:绪论

数据集→示例(instance)/样本(sample)→属性(attribute)/特征(feature)
                  ↓
一个属性为一维,n个属性构成n维属性空间/样本空间/输入空间,空间中每个点对应一个坐标向量, 把这个示例成为特征向量(feature vector)
训练过程中使用的数据称为“训练数据”,训练样本组成的集合 称为“训练集”,其为样本空间的一个采样
样例(example):拥有标记信息的示例。所有标记的集合称为“标记空间”或“输出空间”

预测任务:通过训练对训练集进行学习,建立一个从输入空间到输出空间的映射

预测的是离散值:分类 { 二 分 类 { 正 类 负 类 多 分 类 \begin{cases}二分类\begin{cases}正类\\负类\end{cases}\\ 多分类\end{cases} ⎩⎪⎨⎪⎧​二分类{正类负类​多分类​

预测的是连续值:回归

聚类(clustering):将训练集中训练数据分为若干组,每组称为一个“簇(cluster)”,这些簇是自动形成的

根 据 训 练 数 据 是 否 拥 有 标 记 信 息 ? { 有 监 督 学 习 ( s u p e r v i s e d l e a r n i n g ) : 分 类 、 回 归 无 监 督 学 习 : 聚 类 根据训练数据是否拥有标记信息?\begin{cases}有监督学习(supervised\ learning):分类、回归\\无监督学习:聚类\end{cases} 根据训练数据是否拥有标记信息?{有监督学习(supervised learning):分类、回归无监督学习:聚类​

归纳(induction):特殊到一般的泛化

演绎(deduction):一般到特殊的特化

版本空间(version space):存在着一个与训练集一致的"假设集合"即可能有多个假设与训练集一致,称之.

归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好

任何一个有效的机器学习算法必有其归纳偏好,采用"奥卡姆剃刀"原则(若有多个假设与观察一致,则选最简单的那个)引导算法确立"正确的"偏好                   ↑
                       假设选择原则

从 样 例 中 学 习 { 符 号 主 义 学 习 产 生 明 确 的 概 念 { 决 策 树 以 信 息 论 为 基 础 , 以 信 息 熵 的 最 小 化 为 目 标 基 于 逻 辑 的 学 习 基 于 神 经 网 络 的 连 接 主 义 学 习 产 生 " 黑 箱 " 模 型 : B P 算 法 从样例中学习\begin{cases}符号主义学习_{产生明确的概念}\begin{cases}决策树_{以信息论为基础,以信息熵的最小化为目标}\\基于逻辑的学习\end{cases}\\ 基于神经网络的连接主义学习_{产生"黑箱"模型}:BP算法\end{cases} 从样例中学习⎩⎪⎨⎪⎧​符号主义学习产生明确的概念​{决策树以信息论为基础,以信息熵的最小化为目标​基于逻辑的学习​基于神经网络的连接主义学习产生"黑箱"模型​:BP算法​

统 计 学 习 { 支 持 向 量 机 ( s u p p o r t v e c t o r m a c h i n e ) 核 方 法 ( k e r n e l m e t h o s ) 统计学习\begin{cases}支持向量机(support\ vector\ machine)\\核方法(kernel\ methos)\end{cases} 统计学习{支持向量机(support vector machine)核方法(kernel methos)​

第二章:模型评估与选择

错 误 率 = 分 类 错 误 的 样 本 数 样 本 总 数 错误率= \frac {分类错误的样本数}{样本总数} 错误率=样本总数分类错误的样本数​

精度=1-错误率

学习器的实际输出与样本的真实输出之间的差异称为"误差" { 训 练 误 差 或 经 验 误 差 : 学 习 器 在 训 练 集 上 的 误 差 泛 化 误 差 : 在 新 样 本 上 的 误 差 \begin{cases}训练误差或经验误差:学习器在训练集上的误差\\泛化误差:在新样本上的误差\end{cases} {训练误差或经验误差:学习器在训练集上的误差泛化误差:在新样本上的误差​

过拟合(overfitting):把训练样本自身的一些特点当作所有潜在样本都具有的一般性质,即"学的特征过多了".

欠拟合(underfitting):对训练样本的一般性质尚未学好,即学的特征过少了.

在决策树中扩展分支、在神经网络中增加训练轮数来克服欠拟合,而过拟合解决很麻烦,无法彻底避免

数据集划分
  • 留出法(hold-out):直接将数据集D划分为两个互斥的集合作为训练集S和测试集T,采用"分层采样"保持数据分布的一致性.而且要采用多次划分求平均值的方法得出评估结果.
  • 交叉验证法(cross validation):将数据集D划分为k个大小相似的互斥子集,每个子集通过分层抽样得到,每次用k-1个子集的并集作为训练集,剩下的那个子集作为测试集,这样可得k组训练/测试集,进行k次训练和测试,返回k个测试结果.同样需要多次划分
  • 自助法(bootstrapping):以自助采样(亦称"可重复采样"或"有放回采样")为基础,有放回的从D中挑选一个样本放在D’中,重复m次,得到含m个样本的训练集D’,D-D’作为测试集."包外估计"数据集较小、难以划分时很有用,自助法产生的数据集改变了初始数据集的分布,引入了估计偏差.

机 器 学 习 参 数 { 算 法 的 参 数 , 亦 称 " 超 参 数 " , 人 工 设 定 多 个 参 数 候 选 值 后 产 生 模 型 模 型 的 参 数 , 通 过 学 习 来 产 生 多 个 候 选 模 型 两 者 调 参 方 式 相 似 , 均 是 产 生 多 个 模 型 后 通 过 某 种 评 估 方 法 来 选 择 机器学习参数\begin{cases}算法的参数,亦称"超参数",人工设定多个参数候选值后产生模型\\模型的参数,通过学习来产生多个候选模型\end{cases}\ 两者调参方式相似,均是产生多个模型后通过某种评估方法来选择 机器学习参数{算法的参数,亦称"超参数",人工设定多个参数候选值后产生模型模型的参数,通过学习来产生多个候选模型​ 两者调参方式相似,均是产生多个模型后通过某种评估方法来选择

回归任务最常用的性能度量是"均方误差"(mean squared error): E ( f ; D ) = 1 m ∑ i = 1 m ( f ( X i − y i ) 2 ) E(f;D)=\frac 1m\sum_{i=1}^m(f(X_i-y_i)^2) E(f;D)=m1​∑i=1m​(f(Xi​−yi​)2)

查准率(precision)、查全率(recall)与F1

P-R曲线

平衡点:查准率=查全率时的取值

F 1 = 2 × P × R P + R = 2 × T P 样 例 总 数 + T P − T N F1=\frac {2×P×R}{P+R}=\frac {2×TP}{样例总数+TP-TN} F1=P+R2×P×R​=样例总数+TP−TN2×TP​ F1是基于查准率与查全率的调和平均定义的: 1 F 1 = 1 2 ⋅ ( 1 P + 1 R ) \frac 1{F1}=\frac 12·(\frac 1P+\frac 1R) F11​=21​⋅(P1​+R1​)

F1度量的一般形式—— F β F_β Fβ​(其为加权调和平均),表达出对查准率/查全率的不同偏好

ROC与AUC

很多学习器是为测试样本产生一个实值或概率预测,将这个预测值与一个分类阈值(threshold)进行比较,大于则分为正类,否则为反类.

  • ROC(Receiver Operating Characteristic):根据学习器的预测结果对样例排序,按此顺序逐个把样本作为正例进行预测(把分类阈值设为最小),每次计算"真正例率"、“假正例率”,以他们为纵、横轴作图
  • ROC曲线下的面积,即AUC(Area Under ROC Curve)

排序损失 ζ r a n k ζ_{rank} ζrank​, AUC=1- ζ r a n k ζ_{rank} ζrank​

“规范化"是将不同变化范围的值映射到相同的固定范围中,常见的是[0,1],此时亦称"归一化”.

s.t. 是"subject to"的简写,使左边式子在右边条件满足时成立

算法的期望泛化误差(泛化错误率?)=偏差+方差+噪声即 E ( f ; D ) = b i a s 2 ( x ) + v a r ( x ) + ε 2 E(f;D)=bias^2(x)+var(x)+ε^2 E(f;D)=bias2(x)+var(x)+ε2

偏差 : 期望输出与真是标记的差别 b i a s 2 ( x ) = ( f ‾ ( x ) − y ) 2 bias^2(x)=(\overline f(x)-y)^2 bias2(x)=(f​(x)−y)2

度量了学习算法的期望预测与真实结果的偏离程度,即刻画了算法本身的拟合能力

方差 : 使用样本数相同的不同训练集产生的方差 v a r ( x ) = E D [ ( f ( x ; D ) − f ‾ ( x ) ) 2 ] var(x)=E_D[(f(x;D)-\overline f(x))^2] var(x)=ED​[(f(x;D)−f​(x))2]

度量了同样大小的训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响

噪声 : ε 2 = E D [ ( y D − y ) 2 ] ε^2=E_D[(y_D-y)^2] ε2=ED​[(yD​−y)2]

表达了在当前任务上任何学习算法所能达到的期望泛化误差的下界,即刻画了学习问题本身的难度

第三章 : 线性模型

线性回归

若属性值间存在"序"关系,可通过连续化将其转化为连续值,例如"身高"的"高","矮"可转化为{1.0 , 0.0},若不存在"序"关系,则转化为k维向量

arg min 就是使后面这个式子达到最小值时的x,t的取值。

欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”(即直线)距离。欧几里得度量(euclidean metric)(也称欧氏距离)是一个通常采用的距离定义,指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
凸函数

解析解与数值解

解析解,又称为闭式解,是可以用解析表达式来表达的解。 在数学上,如果一个方程或者方程组存在的某些解,是由有限次常见运算的组合给出的形式,则称该方程存在解析解。二次方程的根就是一个解析解的典型例子。在低年级数学的教学当中,解析解也被称为公式解。当解析解不存在时,比如五次以及更高次的代数方程,则该方程只能用数值分析的方法求解近似值。大多数偏微分方程,尤其是非线性偏微分方程,都只有数值解。

数值解,是指给出一系列对应的自变量,采用数值方法求出的解。采用的方法有限元法、数值逼近、插值法。他人只能利用数值计算的结果,而不能随意给出自变量并求出计算值。

数值解是在一定条件下通过某种近似计算得出来的一个数值,能在给定的精度条件下满足方程.

解析解为方程的解析式(比如求根公式之类的),是方程的精确解,能在任意精度下满足方程.

对数线性回归

考虑单调可微函数g(·),令 y = g − 1 ( w T x + b ) y=g^{-1}(w^Tx+b) y=g−1(wTx+b)

这样得到的模型称为"广义线性模型",函数g(·)称为”联系函数“,显然,对数线性回归是广义线性模型在g(·)=ln(·)时的特例.

对数几率回归 — 却 是 一 种 分 类 学 习 方 法 _{—却是一种分类学习方法} —却是一种分类学习方法​

对于二分类任务,y∈{0,1},而线性回归模型预测值为实值z,用"单位阶跃函数"将实值z转换为0/1值.

y = { 0 , z &lt; 0 0.5 , z = 0 1 , z &gt; 0 y=\begin{cases}0,&amp;z&lt;0\\0.5, &amp;z=0\\1, &amp;z&gt;0\end{cases} y=⎩⎪⎨⎪⎧​0,0.5,1,​z<0z=0z>0​

但该函数不连续,故用"对数几率函数"替代

y = 1 1 + e − z y=\frac 1{1+e^{-z}} y=1+e−z1​, 用线性回归的预测结果去逼近真是标记的对数几率

几率(odds): y 1 − y \frac y{1-y} 1−yy​, y为x作为正例的可能性,对数几率: l n y 1 − y ln\frac y{1-y} ln1−yy​

数值优化算法如梯度下降法,牛顿法可求解目标函数最优解

协方差其意义:度量各个维度偏离其均值的程度。协方差的值如果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义),结果为负值就说明负相关的,如果为0,也是就是统计上说的“相互独立”。

范数

(1) 0范数

​ ∣ ∣ v ⃗ ∣ ∣ 0 ||\vec v||_0 ∣∣v ∣∣0​=非零元素个数

(2) 1范数

​ $||\vec v||_1=∣v_1∣+∣v_2∣+…+∣v_n|$1范数可以用来表示曼哈顿距离,规定:只允许上下左右移动,不允许斜着移动,在这种情景下,1范数就可以很好的用来作为两点之间的距离的测度。

(3) 2范数

​ ∣ ∣ v ⃗ ∣ ∣ 2 = ( v 1 2 + v 2 2 + . . . + v n 2 ) 1 2 ||\vec v||_2=(v_1^2+v_2^2+...+v_n^2)^\frac 12 ∣∣v ∣∣2​=(v12​+v22​+...+vn2​)21​显然,2范数可以用来表示欧式距离

(4)无穷范数

​ ∣ ∣ v ⃗ ∣ ∣ ∞ ||\vec v||_∞ ∣∣v ∣∣∞​无穷范数可以表示向量的最大元素

线性判别分析(Linear Discriminant Analysis,LDA)

一种经典的线性学习方法,思想为:将训练样本投影到一条直线上,使得同类样本的投影点尽可能近,异类样本尽可能远;通过新样本投影点的位置来确定类别

《机器学习》西瓜书读书笔记相关推荐

  1. 《机器学习》(周志华)西瓜书读书笔记

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 第1章 绪论 第2章 模型评估与选择 第3章 线性模型 第4章 决策树 第5章 神经网络 第6章 神经网络 第7章 贝 ...

  2. 西瓜书读书笔记整理(二)—— 第一章 绪论

    第一章 绪论 第一章 绪论 1.1 引言 1. 什么是机器学习 2. 机器学习的主要内容 3. 模型与模式 1.2 基本术语 1. 数据集 / 训练集 / 验证集 / 测试集 2. 示例 / 样本 3 ...

  3. 传统的线性降维方法效果不佳。_机器学习西瓜书简明笔记(11)降维与度量学习...

    上篇主要介绍了几种常用的聚类算法,首先从距离度量与性能评估出发,列举了常见的距离计算公式与聚类评价指标,接着分别讨论了K-Means.LVQ.高斯混合聚类.密度聚类以及层次聚类算法.K-Means与L ...

  4. 西瓜书读书笔记—绪论

    文章目录 机器学习 典型的机器学习过程 基本术语 归纳偏好 机器学习 机器学习:致力于研究如果通过计算的手段,利用经验来改善系统自身的性能 在计算机系统中,"经验" 通常以 &qu ...

  5. 机器学习西瓜书 学习笔记

    第2章 模型评估与选择 2.1 经验误差与过拟合 错误率 E=a/m 精度 A=1-E 过拟合:学习能力过强,学到了不具备普遍性的特质 欠拟合:学不到,cjb 过拟合无法彻底避免 误差 实际输出和真实 ...

  6. 机器学习-西瓜书、南瓜书第三章

    线性模型 基本形式 一.线性回归 回归任务最常用的性能度量是均方误差,因为均方误差有比较好的几何意义,对应了最常用的**"欧氏距离",最小二乘法就是基于均方误差进行模型求解的. 求 ...

  7. 机器学习-西瓜书第一、二章

    第一章:绪论 基本概念 数据集:所有数据的集合 训练集:训练样本的集合 属性(特征):某事物或对象在某方面表现的性质 属性值:属性的取值 属性空间/样本空间/输入空间:属性张成的空间 泛化能力:学得模 ...

  8. 西瓜书学习笔记第2章(模型评估与选择)

    西瓜书学习笔记第2章(模型评估与选择) 2.1经验误差与过拟合 2.2评估方法 2.2.1留出法(hold-out) 2.2.2交叉验证法(cross validation) 2.2.3自助法(boo ...

  9. 周志华西瓜书学习笔记(一)

    周志华西瓜书学习笔记 第一章 绪论 数据处理分为三个阶段:收集,分析,预测. 一.基本概念 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. Mitchell给出的更形式化的定义为 ...

最新文章

  1. 一文了解什么是指数族分布
  2. mysql 启动事件 启动触发器功能
  3. Android生存指南:解Bug策略和思路
  4. 2017年12月计算机一级c,2017年12月计算机二级C语言考试操作题冲刺卷(2)
  5. HTML textarea控件
  6. 几个简单的OpenCV程序
  7. 【杂文】【python】Python 对象的析构
  8. mysql保存表出错1075_navicat出现错误1075怎么办
  9. pycharm——常用快捷键操作
  10. WindRiver编译小结
  11. systrace如何使用
  12. 墨修尧哪一章痊愈_墨修尧叶璃
  13. 计算机网络(5.13)运输层- TCP的拥塞控制方法
  14. 南京信息工程大学计算机类专业排名,2019年南京信息工程大学优势专业排名及分数线...
  15. 基础30讲 第18讲 三重积分、曲线曲面积分
  16. 2023 IEEE Fellow出炉:唐立新、宗成庆、朱军、姬水旺等入选
  17. P02014182王子恒信息论作业
  18. 嵌入式基础学习-烧写工具
  19. 文献阅读---玉米干旱响应和耐受性基因表达的调控变异定位
  20. Keras 和 Tensorflow 框架下五种视频分类

热门文章

  1. 3、Explan执行计划
  2. 【通知】CSDN学院:<华为流程体系课程> 正式上线啦!
  3. 关于cell.getCellType过时
  4. 关于Gensim的初次见面 和 Doc2vec 的模型训练
  5. DoTween插件物体晃动
  6. 一篇就够系列之LAN8720的使用
  7. PostgreSQL 百亿数据 秒级响应 正则及模糊查询
  8. ubuntu系统完全卸载jdk
  9. 中国智能马桶盖市场需求分析与投资前景预测报告2022-2028年
  10. 强烈推荐这款神器,把网站转pdf还能编程高级定制!【建议收藏】