好记性不如烂笔头,打算以博客连载的方式把最近机器学习的一些学习笔记记下来,机器学习涉及的知识点很多,时间一长很容易遗忘,写在博客上也方便自己随时查阅及复习。学习笔记偏重实用工程,尽量不涉及复杂的数学推导。

机器学习分类

-- 监督学习:训练数据中带有标记(分类、回归);

-- 无监督学习:训练数据中无标记(聚类、异常检测、密度分析);

-- 半监督学习:训练数据中带有少量标记(分类、回归);

-- 强化学习:通过状态空间的大量试错学习达成最佳决策(决策);

-- 深度学习:利用多层神经网络进行监督、无监督或是强化学习的方法(分类、回归、聚类)。

数据划分

-- 留出法:直接将数据集D划分为两个互斥的集合,一个集合作为训练集S,另一个作为测试机T。

-- 交叉验证法:将数据集D划分为k个大小相同的互斥子集,每次用k-1个子集作为训练集,余下的作为测试集,可进行k次训练和验证,最后取测试结果的均值。

-- 自助法:有m个样本的数据集D,每次随机从D中挑选一个样本放入D‘,再把此样本放回D中,重复执行m次后,得到训练数据集D’。约有1/3的数据没在训练数据中出现过,用于包外估计。(数据集较小时使用效果较好)

模型评估

      泛化能力:指模型对未知数据的预测能力。

-- 泛化误差:偏差、方差、噪声之和。

-- 过拟合:模型在训练及上表现很好,但在未知数据上不能很好的预测。

-- 欠拟合:模型在训练集和测试集上都不能很好的预测。

性能度量指标

-- 均方误差:m个样本的方差的平均数,均方误差小的模型性能好,主要用于回归。

-- 错误率:分类错误的样本占样本总数的比例。

-- 精度:分类正确的样本占样本总数的比例。

-- 查准率:真正例样本数(TP)和预测结果是正例的样本数(TP(真正例数)+FP(假正例数))的比值。

-- 查全率(召回率):真正例样本数(TP)和真实正例样本数(TP(真正例数)+FN(假反例数))的比值。

-- P-R图:以查全率做x轴,查准率做y轴的平面图。判断模型优劣的两种方式:1、平衡点(查全率=查准率时的取值)更大的性能更好;2、曲线没有交叉的情况下,被“包住”的曲线模型性能弱于外侧的模型,如下图,A模型优于C模型。

-- 混淆矩阵:用在分类问题中的NxN矩阵,N为分类的个数。如下图猫、狗、兔子的三分类系统,每一列代表预测值,每一行代表实际值,对角线两边的都是预测错误的,从混淆矩阵中可以很直观地发现问题在哪里。

-- ROC和AUC:ROC(受试者工作特征曲线)以假正例率为x轴,真正例率为y轴,AUC是ROC曲线下的面积,面积越大分类效果越好(真正例率越高,假正例率越低越好)。

偏差(Bias):反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,高偏差,即为欠拟合。

方差(Variance):反映的是同样大小的训练集的变动导致的学习性能的波动,即刻画了数据扰动所造成的影响,即模型的稳定性。高方差,即为过拟合。
      模型复杂度和偏差、方差的关系如下图,随着模型复杂度增大,偏差减小,方差变大,预测错误率在模型复杂度到达一定程度后,反而会增大,偏差和方差从某种程度上说是一对矛盾体,很难做到偏差和方差都很低,只能从偏差、方差和模型复杂度中找到一个平衡点。

作者:华为云专家周捷

机器学习笔记(一)----基本概念相关推荐

  1. 一份520页的机器学习笔记!附下载链接

    点击上方"视学算法",选择"星标"公众号 第一时间获取价值内容 近日,来自SAP(全球第一大商业软件公司)的梁劲(Jim Liang)公开了自己所写的一份 52 ...

  2. 700 页的机器学习笔记火了!完整版开放下载

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 作者       梁劲(Jim Liang),来自SAP(全球第一大商业软件公司). 书籍特点       条理清晰 ...

  3. 机器学习笔记七:损失函数与风险函数

    一.损失函数 回顾之前讲过的线性回归模型,我们为了要学习参数使得得到的直线更好的拟合数据,我们使用了一个函数 这个函数就是比较模型得到的结果和"真实值"之间的"差距&qu ...

  4. 700 页的机器学习笔记火啦,图文生动形象

    为了方便大家学习,我们已经准备好了完整版的机器学习笔记PDF,感兴趣的同学可以直接下载 链接: 百度网盘 请输入提取码 提取码: ie8i 作者介绍了常用的算法,包括:   线性回归 逻辑回归 神经网 ...

  5. 机器学习笔记(六) ---- 支持向量机(SVM)

    支持向量机(SVM)可以说是一个完全由数学理论和公式进行应用的一种机器学习算法,在小批量数据分类上准确度高.性能好,在二分类问题上有广泛的应用. 同样是二分类算法,支持向量机和逻辑回归有很多相似性,都 ...

  6. 最小错误率贝叶斯决策的基本思想_机器学习笔记—模式识别与智能计算(四)基于概率统计的贝叶斯分类器设计(贝叶斯决策)...

    系列文章: 机器学习笔记-模式识别与智能计算(一)模式识别概述 机器学习笔记-模式识别与智能计算(二)特征的选择与优化 机器学习笔记-模式识别与智能计算(三)模式相似性测度 同类文章: 机器学习笔记- ...

  7. 【学习打卡02】可解释机器学习笔记之ZFNet

    可解释机器学习笔记之ZFNet 文章目录 可解释机器学习笔记之ZFNet ZFNet介绍 ZFNet结构 特征可视化 可视化结构 特征不变性 特征演化 遮挡性分析 其他内容 总结和思考 首先非常感谢同 ...

  8. 机器学习笔记之深度信念网络(一)背景介绍与结构表示

    机器学习笔记之深度信念网络--背景介绍与结构表示 引言 深度信念网络 场景构建 深度信念网络的联合概率分布 引言 从本节开始,将介绍深度信念网络. 深度信念网络 深度信念网络(Deep Belief ...

  9. 吴恩达机器学习笔记第一周

    第一周 吴恩达机器学习笔记第一周 一. 引言(Introduction) 1.1 欢迎 1.2 机器学习是什么? 1.3 监督学习 1.4 无监督学习 二.单变量线性回归(Linear Regress ...

  10. 机器学习笔记 (第一周)

    机器学习笔记 (第一周) 目录 机器学习笔记 (第一周) 引言(Introduction) 1.1 什么是机器学习,机器学习能做些什么事情 1.2 机器学习是什么? 1.3 监督学习 1.4 无监督学 ...

最新文章

  1. 【第八篇】SAP ABAP7.5x新语法之F4增强【续】
  2. 逻辑设计中复位的稳妥处理方法?
  3. 渗透攻击(NT/2000系统)
  4. 写一个程序,用于分析一个字符串中各个单词出现的频率,并将单词和它出现的频率输出显示。(单词之间用空格隔开,如“Hello World My First Unit Test”);...
  5. 手机可以使用鸿蒙系统,【图片】华为鸿蒙系统的厉害之处在于 你可能非用不可 !【手机吧】_百度贴吧...
  6. linux重启后版本变了,linux – 重启后如何使设备映射保持不变?
  7. DDoS的攻击方式和防御方法
  8. 云计算基础架构即服务、平台即服务、软件即服务的三种服务类型的介绍
  9. 【云原生之kubernetes实战】在k8s环境下部署BookBrowser电子书浏览器
  10. 计算机无法验证签名,电脑提示“无法验证此文件的数字签名”的修复方法
  11. smb.php如何使用,win10smb1协议怎么开
  12. 计算机网络原理(交换机,路由器详解)
  13. CLIP学习笔记:Learning Transferable Visual Models From Natural Language Supervision
  14. BZOJ_P1123 [POI2008]BLO(无向图割点)
  15. 计算机教师信息化大赛作品,全国“xx杯”计算机专业类说课大赛优秀作品:信息化色彩搭配训练说课课件.ppt...
  16. AWVS扫描报告分析
  17. 牛客寒假算法基础集训营6补题和题解
  18. 前端 iOS 和 Android 的兼容问题
  19. 语音合成论文优选:Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features
  20. Vue 实现移动端在线选座功能(支持miniMap,支持缩放)

热门文章

  1. mysql数据库连接锁住_锁mysql方法
  2. d3.js(v5.7)树状图
  3. linux上NFS性能参数
  4. Mysql 常用show命令
  5. 常用linux terminal 命令
  6. J2SE7规范_2013.2_类型_命名
  7. 个人收藏的flex特效网址【经典中的极品】
  8. Andrew Ng机器学习公开课笔记 -- Logistic Regression
  9. PHP函数调用的新的用法
  10. chr(10) chr(13) chr(32)