机器学习(周志华)学习笔记(一)


目录

学习内容:

三、线性模型

3.1 基本形式

3.2 线性回归

3.3 对数几率回归

3.4 线性判别分析(LDA)

3.5 多分类问题

3.6  类别不平衡

学习时间:


学习内容:

三、线性模型

3.1 基本形式

线性模型试图学得一个通过属性的线性组合来进行预测的函数,即:

一般用向量形式写为:

其中w和b学到之后,模型就确定下来。w是每一项属性的权重系数矩阵。

下面将介绍几种经典的线性模型。

3.2 线性回归

在给定数据集里做线性回归,学得一个线性模型。本质即为确定权重系数w。令:

如何确定w和b?

->均方误差最小法(在线性回归中即为最小二乘法,试图找到一条直线,使所有样本到直线上的欧氏距离之和最小)

从上面的思想过渡到多元线性回归、对数线性回归

                                             (多元线性回归)

                                         (对数线性回归)

其中对数线性回归,实际是是让逼近y,形式上仍是线性回归。但至此我们只能对数据集回归出两种线(直线、曲线),但这远远不能满足具有其它潜在关系的数据集。故更一般地,考虑单调可微函数g(·):

这样得到的模型称为“广义线性模型”,其中函数g(·)称为联系函数。现在我们可对大部分具有线性关系的数据集进行回归。

3.3 对数几率回归

上述我们解决了利用线性模型进行回归学习,但若要做分类任务该怎么办?

-> 特殊的g(·)函数

理想情况下,单位阶跃函数是最好的选择。但是单位阶跃函数不连续,不满足可微。所以我们需要找到近似单位阶跃函数的代替品,并希望它单调可微。而对数几率函数正是这样一个常用的替代函数。

在这里我们要特别注意,虽然名字是对数几率回归,但实际上确实一种分类学习方法。

如何确定w和b?

-> 极大似然法

3.4 线性判别分析(LDA)

LDA是一种经典的线性学习方法,也叫Fisher判别分析。

LDA的思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。在对新样本进行分类时,将其投影投影到这条直线上,再根据投影的位置点来确定新样本的类别。

当两类数据同先验、满足高斯分布且协方差相等时,LDA可达到最优分类。

投影的操作可以减少样本点的维数,并且投影过程中使用了类别信息,因此LDA常被视为一种经典的监督降维技术。

3.5 多分类问题

有些二分类方法可以直接推广到多分类,但更多情况下,是利用二分类学习器来解决多分类问题。

多分类学习的基本思路是“拆解法”,即将多分类任务拆分为若干个二分类任务求解。其中最经典的拆分策略有三种:“一对一”OvO,“一对其余”OvR,“多对多”MvM。

        OvO:将N个类别两两配对,从而产生N(N-1)/2个分类问题(分类器)。在测试阶段,将新样本同时提交给所有分类器,并产生N(N-1)/2个结果,最终结果通过投票产生。

        OvR:每次将一个类的样例作为正例,所有其他类的样例作为反例;从而训练N个分类器。在测试时若仅有一个分类器预测为正类,则对应的类别标记为最终分类;若有多个分类器预测为正类,则通常考虑分类器的置信度,选择置信度最大的类别标记作为分类结果。

        MvM:每次将若干个类作为正类,若干个其它类作为反类。但正反类构造必须有特殊的设计,不能随便选取。这里纠错输出码(EOOC)就是一种最常见的MvM技术。ECOC工作过程分为两步:

①编码:对N个类别做M次划分,每次划分将一部分化为正,一部分化为反,从而形成一个二分类训练集,这样一共产生M个训练集,可以训练M个分类器。

②解码:M个分类器分别对样本进行预测,这些预测标记组成一个编码,将这个预测编码与每个类别的各自编码进行编码,返回其中距离最小的类别作为预测结果。

一般来说。对于同一个学习任务,ECOC编码越长,纠错能力越强;对于同等长度的编码,理论上来说,任意两个类别之间的编码距离越远,纠错能力越强。

3.6  类别不平衡

是指分类任务中不同类别的训练样例数目差别很大的情况。如何解决?

->欠采样:去除一些样例数较多的类别样本。

->过采样:添加一些样例数较少的类别样本。

->再缩放/阈值移动:直接基于原始训练集进行学习,但在预测时嵌入:

       

其中是反例数目,是正例数目


学习时间:

15:30-17:04


机器学习(周志华)学习笔记(二)相关推荐

  1. 《机器学习》周志华 学习笔记

    <机器学习>周志华 学习笔记 第一章 绪论 1.1 引言 机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. 经验:"经验"通常以"数据& ...

  2. 机器学习-周志华-学习记录-第一章绪论

    文章目录 绪论 一.什么是机器学习 二.基本术语 三.假设空间 四.归纳偏好 总结 参考链接 绪论 为了更早地适应研究生的生活,我决定重新学习周志华老师的机器学习这本书.同时也为了能够养成博客记录的习 ...

  3. 《机器学习》 周志华学习笔记第二章 模型评估与选择(课后习题)

    模型选择与评估 一.内容 1.经验误差与过拟合 1.1 学习器在训练集上的误差称为训练误差(training error),在新样本上的误差称为泛化误差(generalizion error). 1. ...

  4. 《机器学习》 周志华学习笔记第一章 绪论(课后习题)

    最近需要学习机器学习,有一点点基础但是很少,希望能通过写博客的方式和大家交流以及学习达到共同进步的目的. 绪论 : 一.内容 1.基本术语 2.假设空间与版本空间 3.归纳偏好(常用的有奥卡姆剃刀) ...

  5. 《机器学习》 周志华学习笔记第四章 决策树(课后习题)python 实现

    一.基本内容 1.基本流程 决策树的生成过程是一个递归过程,有三种情形会导致递归返回 (1)当前节点包含的yangben全属于同一类别,无需划分: (2)当前属性集为空,或是所有yangben在所有属 ...

  6. 《机器学习》 周志华学习笔记第三章 线性模型(课后习题)python 实现

    线性模型 一.内容 1.基本形式 2.线性回归:均方误差是回归任务中最常用的性能度量 3.对数几率回归:对数几率函数(logistic function)对率函数是任意阶可导的凸函数,这是非常重要的性 ...

  7. 《机器学习》 周志华学习笔记第十四章 概率图模型(课后习题)python实现

    一.基本内容 1.隐马尔可夫模型 1.1. 假定所有关心的变量集合为Y,可观测变量集合为O,其他变量集合为R, 生成式模型考虑联合分布P(Y,R,O),判别式模型考虑条件分布P(Y,R|O),给定一组 ...

  8. 《机器学习》 周志华学习笔记第八章 集成学习(课后习题)python实现

    1.个体与集成 1.1同质集成 1.2异质集成 2.boosting:代表AdaBoost算法 3.Bagging与随机森林 3.1Bagging 是并行式集成学习方法最著名的代表(基于自主采样法bo ...

  9. 《机器学习》 周志华学习笔记第六章 支持向量机(课后习题)python 实现

    一. 1.间隔与支持向量 2.对偶问题 3.核函数 xi与xj在特征空间的內积等于他们在原始yangben空间中通过函数k(.,.)计算的结果. 核矩阵K总是半正定的. 4.软间隔与正则化 软间隔允许 ...

  10. 《机器学习》 周志华学习笔记第五章 神经网络(课后习题) python实现

    1.神经元模型 2.感知机与多层网络 3.误差逆传播算法 (A)BP算法:最小化训练集D上的累积误差 标准BP算法:更新规则基于单个Ek推导而得 两种策略防止过拟合:(1)早停(通过验证集来判断,训练 ...

最新文章

  1. CSS 中功能相似伪类间的区别
  2. 计算机科学与技术创新实验班是什么意思,计算机科学与技术系成立2010级创新实验班(图)...
  3. SQL查询【根据生日计算】
  4. 关于写博客的原因以及一点个人说明。
  5. js利用HTML5的拖拽API做流程图
  6. Spring Data JPA 从入门到精通~@Modifying修改查询
  7. “dedeCMS 提示信息!”跳转页,如何修改文字?
  8. Linux时间子系统之六:高精度定时器(HRTIMER)的原理和实现
  9. redis操作之迭代器 hscan
  10. SAP ABAP 培训测试 试卷 答案
  11. The Things Network LoRaWAN Stack V3 学习笔记 2.6 新增一个 CN470 子频段
  12. 课程设计题七:交通灯控制器
  13. animation 详细讲解
  14. uniapp 公众号微信支付提示 调用支付jsapi缺少参数appid
  15. 新手小坑:sql表int字段自动填0
  16. BladeX框架源码分析--00、包结构
  17. Linux内核中内存分配函数
  18. 结巴(jieba)分词的使用-Java实现
  19. ARM中MRS汇编指令
  20. 自己经验AP 月结对账过程

热门文章

  1. Android音频之多设备同时输出-cast通路分析
  2. 前端学习-吃豆子游戏设计
  3. [渝粤教育] 武汉理工大学 人文物理 参考 资料
  4. 计算机毕设 SpringBoot+Vue车辆租赁管理系统 网上汽车租赁系统 汽车租赁管理系统 汽车分时租赁系统Java Vue MySQL数据库 远程调试 代码讲解
  5. 安装Sql Server 2000时提示“安装Sql挂起”的解决方案
  6. matlab数控加工,关于MATLAB复杂型面数控加工编程.pdf
  7. WMS仓库管理系统与ERP仓储系统的区别与联系
  8. 掘金往期沸点神评合集(别审过)
  9. java集成信鸽推送
  10. 信鸽 ios tag推送 php,信鸽推送(iOS)踩过的坑