机器学习笔记(一)----基本概念
好记性不如烂笔头,打算以博客连载的方式把最近机器学习的一些学习笔记记下来,机器学习涉及的知识点很多,时间一长很容易遗忘,写在博客上也方便自己随时查阅及复习。学习笔记偏重实用工程,尽量不涉及复杂的数学推导。
机器学习分类
-- 监督学习:训练数据中带有标记(分类、回归);
-- 无监督学习:训练数据中无标记(聚类、异常检测、密度分析);
-- 半监督学习:训练数据中带有少量标记(分类、回归);
-- 强化学习:通过状态空间的大量试错学习达成最佳决策(决策);
-- 深度学习:利用多层神经网络进行监督、无监督或是强化学习的方法(分类、回归、聚类)。
数据划分
-- 留出法:直接将数据集D划分为两个互斥的集合,一个集合作为训练集S,另一个作为测试机T。
-- 交叉验证法:将数据集D划分为k个大小相同的互斥子集,每次用k-1个子集作为训练集,余下的作为测试集,可进行k次训练和验证,最后取测试结果的均值。
-- 自助法:有m个样本的数据集D,每次随机从D中挑选一个样本放入D‘,再把此样本放回D中,重复执行m次后,得到训练数据集D’。约有1/3的数据没在训练数据中出现过,用于包外估计。(数据集较小时使用效果较好)
模型评估
泛化能力:指模型对未知数据的预测能力。
-- 泛化误差:偏差、方差、噪声之和。
-- 过拟合:模型在训练及上表现很好,但在未知数据上不能很好的预测。
-- 欠拟合:模型在训练集和测试集上都不能很好的预测。
性能度量指标:
-- 均方误差:m个样本的方差的平均数,均方误差小的模型性能好,主要用于回归。
-- 错误率:分类错误的样本占样本总数的比例。
-- 精度:分类正确的样本占样本总数的比例。
-- 查准率:真正例样本数(TP)和预测结果是正例的样本数(TP(真正例数)+FP(假正例数))的比值。
-- 查全率(召回率):真正例样本数(TP)和真实正例样本数(TP(真正例数)+FN(假反例数))的比值。
-- P-R图:以查全率做x轴,查准率做y轴的平面图。判断模型优劣的两种方式:1、平衡点(查全率=查准率时的取值)更大的性能更好;2、曲线没有交叉的情况下,被“包住”的曲线模型性能弱于外侧的模型,如下图,A模型优于C模型。
-- 混淆矩阵:用在分类问题中的NxN矩阵,N为分类的个数。如下图猫、狗、兔子的三分类系统,每一列代表预测值,每一行代表实际值,对角线两边的都是预测错误的,从混淆矩阵中可以很直观地发现问题在哪里。
-- ROC和AUC:ROC(受试者工作特征曲线)以假正例率为x轴,真正例率为y轴,AUC是ROC曲线下的面积,面积越大分类效果越好(真正例率越高,假正例率越低越好)。
偏差(Bias):反映的是模型在样本上的输出与真实值之间的误差,即模型本身的精准度,高偏差,即为欠拟合。
方差(Variance):反映的是同样大小的训练集的变动导致的学习性能的波动,即刻画了数据扰动所造成的影响,即模型的稳定性。高方差,即为过拟合。
模型复杂度和偏差、方差的关系如下图,随着模型复杂度增大,偏差减小,方差变大,预测错误率在模型复杂度到达一定程度后,反而会增大,偏差和方差从某种程度上说是一对矛盾体,很难做到偏差和方差都很低,只能从偏差、方差和模型复杂度中找到一个平衡点。
作者:华为云专家周捷
机器学习笔记(一)----基本概念相关推荐
- 一份520页的机器学习笔记!附下载链接
点击上方"视学算法",选择"星标"公众号 第一时间获取价值内容 近日,来自SAP(全球第一大商业软件公司)的梁劲(Jim Liang)公开了自己所写的一份 52 ...
- 700 页的机器学习笔记火了!完整版开放下载
点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 作者 梁劲(Jim Liang),来自SAP(全球第一大商业软件公司). 书籍特点 条理清晰 ...
- 机器学习笔记七:损失函数与风险函数
一.损失函数 回顾之前讲过的线性回归模型,我们为了要学习参数使得得到的直线更好的拟合数据,我们使用了一个函数 这个函数就是比较模型得到的结果和"真实值"之间的"差距&qu ...
- 700 页的机器学习笔记火啦,图文生动形象
为了方便大家学习,我们已经准备好了完整版的机器学习笔记PDF,感兴趣的同学可以直接下载 链接: 百度网盘 请输入提取码 提取码: ie8i 作者介绍了常用的算法,包括: 线性回归 逻辑回归 神经网 ...
- 机器学习笔记(六) ---- 支持向量机(SVM)
支持向量机(SVM)可以说是一个完全由数学理论和公式进行应用的一种机器学习算法,在小批量数据分类上准确度高.性能好,在二分类问题上有广泛的应用. 同样是二分类算法,支持向量机和逻辑回归有很多相似性,都 ...
- 最小错误率贝叶斯决策的基本思想_机器学习笔记—模式识别与智能计算(四)基于概率统计的贝叶斯分类器设计(贝叶斯决策)...
系列文章: 机器学习笔记-模式识别与智能计算(一)模式识别概述 机器学习笔记-模式识别与智能计算(二)特征的选择与优化 机器学习笔记-模式识别与智能计算(三)模式相似性测度 同类文章: 机器学习笔记- ...
- 【学习打卡02】可解释机器学习笔记之ZFNet
可解释机器学习笔记之ZFNet 文章目录 可解释机器学习笔记之ZFNet ZFNet介绍 ZFNet结构 特征可视化 可视化结构 特征不变性 特征演化 遮挡性分析 其他内容 总结和思考 首先非常感谢同 ...
- 机器学习笔记之深度信念网络(一)背景介绍与结构表示
机器学习笔记之深度信念网络--背景介绍与结构表示 引言 深度信念网络 场景构建 深度信念网络的联合概率分布 引言 从本节开始,将介绍深度信念网络. 深度信念网络 深度信念网络(Deep Belief ...
- 吴恩达机器学习笔记第一周
第一周 吴恩达机器学习笔记第一周 一. 引言(Introduction) 1.1 欢迎 1.2 机器学习是什么? 1.3 监督学习 1.4 无监督学习 二.单变量线性回归(Linear Regress ...
- 机器学习笔记 (第一周)
机器学习笔记 (第一周) 目录 机器学习笔记 (第一周) 引言(Introduction) 1.1 什么是机器学习,机器学习能做些什么事情 1.2 机器学习是什么? 1.3 监督学习 1.4 无监督学 ...
最新文章
- 【第八篇】SAP ABAP7.5x新语法之F4增强【续】
- 逻辑设计中复位的稳妥处理方法?
- 渗透攻击(NT/2000系统)
- 写一个程序,用于分析一个字符串中各个单词出现的频率,并将单词和它出现的频率输出显示。(单词之间用空格隔开,如“Hello World My First Unit Test”);...
- 手机可以使用鸿蒙系统,【图片】华为鸿蒙系统的厉害之处在于 你可能非用不可
!【手机吧】_百度贴吧...
- linux重启后版本变了,linux – 重启后如何使设备映射保持不变?
- DDoS的攻击方式和防御方法
- 云计算基础架构即服务、平台即服务、软件即服务的三种服务类型的介绍
- 【云原生之kubernetes实战】在k8s环境下部署BookBrowser电子书浏览器
- 计算机无法验证签名,电脑提示“无法验证此文件的数字签名”的修复方法
- smb.php如何使用,win10smb1协议怎么开
- 计算机网络原理(交换机,路由器详解)
- CLIP学习笔记:Learning Transferable Visual Models From Natural Language Supervision
- BZOJ_P1123 [POI2008]BLO(无向图割点)
- 计算机教师信息化大赛作品,全国“xx杯”计算机专业类说课大赛优秀作品:信息化色彩搭配训练说课课件.ppt...
- AWVS扫描报告分析
- 牛客寒假算法基础集训营6补题和题解
- 前端 iOS 和 Android 的兼容问题
- 语音合成论文优选:Flavored Tacotron: Conditional Learning for Prosodic-linguistic Features
- Vue 实现移动端在线选座功能(支持miniMap,支持缩放)