吃瓜教程——第1,2章
第1章 :绪论
1.2基本术语
每对括号内代表一条记录, “=”意思是"取值为"。每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个"示例" (instance) 或"样本" (sample),用以反映事件或对象在某方面的表现或性质的事项。
例如
"属性" (attribute) 或"特征" (feature) :"色泽";"根蒂" ;"敲声"。
"属性值" (attribute value)即属性上的取值:"青绿"; "乌黑";"浅白“。
拥有了标记信息的示例,则称为"样例" (example)。
(xi,yi) 表示第i个样例其中 yi∈ Y是示例 xi 的标记,
Y是所有标记的集合,亦称"标记空间" (label space)或"输出空间
1.3 假设空间
演绎(deduction)则是从一般到特殊的"特化" (specialization)过程,即从基础原理推演出具体状况。例如,在数学公理系镜中,基于一组公理和推理规则推导出与之相洽的定理,这是演绎。
第2章:模型评估与选择
2.1经验误差与过拟合
2.2评估方法
2.2.1 留出法
如果从采样(sampling) 的角度来看待数据集的划分过程,则保留类别比例的采样方式通常称为"分层采样" (stratified sampling). 例如通过对 进行分层采样而获得含 70% 样本的训练集和含 30% 样本的测试集,包含 500 个正例, 500 个反例,则分层采样得到的S应包含 350个正例,350个反例。而 T 则包含150个正例和150个反例。
2.2.2 交叉验证法
2.2.3 自助法
即通过自助采样,初始数据集中约有 36.8% 的样本未出现在采样数据集 D' 中.于是我们可将 D' 用作训练集, D\D' ("\"表示集合减法)用作测试集。这样,实际评估的模型与期望评估的模型都使用m个训练样本,而我们仍有数据总量约 1/3 的、没在训练集中出现的样本用于测试。这样的测试结果,亦称"包外估计" (out-of-bag estimate)。
2.2.4 调参与最终模型
2.3 性能度量
在预测任务中,给定样例集 D = {(x1, y1) , (x2 , y2) ,..., (xm, ym)},其中yi是示例 xi 的真实标记。要评估学习器 f 的性能,就要把学习器预测结果 f(x) 与真实标记y进行比较。
回归任务最常用的性能度量是"均方误差" (mean squared error)
2.3.1 错误率与精度
2.3.2 查准率、查全率与F1
查准率和查全率是一对矛盾的度量.一般来说,查准率高时,查全率往往偏低;而查全率高时,查准率往往偏低.例如,若希望将好瓜尽可能多地选出来,则可通过增加选瓜的数量来实现,如果将所有西瓜都选上,那么所有的好瓜也必然都被选上了,但这样查准率(precision)就会较低;若希望选的瓜中好瓜比例尽可能高,则可只挑选最有把握的瓜,但这样就难免会漏掉不少好瓜,使得查全率(recaall)较低.通常只有在一些简单任务中才可能使查全率和查准率都很高.
很多情形,我们可根据学习器的预测结果对样例进行排序,排在前面 的是学习器认为"最可能 "是正例的样本,排在最后的则是学习器认为"最不可能"是正例的样本。按此顺序逐个把样本作为正例进行预测,则每次可以 计算出当前的查全率、 查准率以查准率为纵轴、查全率为横轴作图 ,就得到了查准率,查全率曲线,简称 "P- R线",显示该 曲线的图称为 "P- R图"。
"平衡点" (Break-Event Point ,简称 BEP)就是这样一个度量,它是" 查准率= 查全率"时的取值。如图 2.3 学习器C的BEP 0.64,而基于 BEP 的比较,可认为学习器 A优于B。
但BEP 还是过于简化了些,更常用的是 F1 度量:
其中 ß>0度量了查全率对查准率的相对重要性。 ß = 1 时退化为标准的 F1; ß> 时查全率有更大影响 ß < 1 时查准率有更大影响。
吃瓜教程——第1,2章相关推荐
- 吃瓜教程task02 第3章 线性模型
第三章 线性模型 2022/5/16 雾切凉宫 至3.2节/视频P3 文章目录 第三章 线性模型 3.1 基本形式 3.2 线性回归 P2 一元线性回归 P2.1 最小二乘法 P2.2 极大似然估计 ...
- 吃瓜教程task03 第4章 决策树
第四章 决策树 2022/5/26 雾切凉宫 至4.2节/视频P6 文章目录 第四章 决策树 4.1 基本流程 p6 决策树 p6.1 算法原理 4.2划分选择 p6.2 ID3决策树 自信息 信息熵 ...
- 吃瓜教程task05 第6章 支持向量机
第6章 支持向量机 2022/6/2 雾切凉宫 至6.5节/视频P9 文章目录 第6章 支持向量机 6.1 间隔与支持向量 p8 支持向量机 超平面 几何间隔 支持向量机 6.2 对偶问题 凸优化问题 ...
- 吃瓜教程task04 第5章 神经网络
第5章 神经网络 2022/5/28 雾切凉宫 至5.3节/视频P7 文章目录 第5章 神经网络 5.1 神经元模型 p7 神经网络 p7.1 M-P神经元 5.2 感知机与多层网络 p7.2 感知机 ...
- 吃瓜教程task01 第2章 模型评估与选择
第二章 模型评估与选择 2022/5/15 雾切凉宫 至2.3.3节 2.1 经验误差与过拟合 中文名 英文名 意义 训练误差/经验误差 training error/empirical error ...
- 吃瓜教程task01 第1章 绪论
第一章 绪论 2022/5/15 雾切凉宫 1.2 基本术语 中文名 英文名 意义 数据集 data set 一组记录的集合 示例/样本/特征向量 instance/sample/feature ve ...
- 【吃瓜教程】《机器学习公式详解》西瓜书与南瓜书公式推导
[吃瓜教程]<机器学习公式详解>西瓜书与南瓜书公式推导 2021年7月11日 第0章-导学 深度学习:狭义地来说,就是具有较多层的神经网络. 整个学习过程; 先看西瓜书,在看 Datawh ...
- 【组队学习】【35期】吃瓜教程——西瓜书+南瓜书
吃瓜教程--西瓜书+南瓜书 航路开辟者:谢文睿.秦州 领航员:凌亮 航海士:谢文睿.秦州 基本信息 开源内容:https://github.com/datawhalechina/pumpkin-boo ...
- 【组队学习】【33期】吃瓜教程——西瓜书+南瓜书
吃瓜教程--西瓜书+南瓜书 航路开辟者:谢文睿.秦州 领航员:潘磊 航海士:谢文睿.秦州 基本信息 开源内容:https://github.com/datawhalechina/pumpkin-boo ...
最新文章
- 如何把VS Code的Language Server Protocol整合到Eclipse中来
- ECMA-335(CLI)标准 读书笔记(第一部:概念和架构 第7章)
- ubuntu安装-Caffe依赖
- 使用jQuery Treeview插件实现树状结构效果
- HDU5985 Lucky Conins 概率题
- C# 字符、字符串过滤,只能输入数字、中文、英文、大写、小写(转)
- PC软件开发技术之三:C#操作SQLite数据库
- hⅰgh怎么读音发音英语_gh的发音规律
- pip下载 离线安装第三方包
- Python实现批量生成二维码小工具
- 中控考勤机忘记密码处理
- 电气专业需要考什么计算机证书吗,电气自动化专业可以考什么证书
- 词频分析与词频统计在线工具---如何统计文章词频,从而更快了解一篇文章?今天跟大家介绍一个词频分析在线工具
- SEO基础知识完美教程
- NodeJS 初学之安装配置环境
- CSS中flex对部分IOS版本兼容性问题
- 直播平台开发时iOS 开发内购功能,直播平台源码搭建
- 计算机二级c++考试
- Cocos2d-x 面试题解 整理01
- STC8A单片机功能和应用电路
热门文章
- 笑话:​我是个程序员,一天我坐在路边一边喝水一边苦苦检查程序。这时一个乞丐在我边上坐下了,开始要饭,我觉得可怜,就给了他1块钱...
- 马拉松成绩和体重的关系
- type=submit表单提交理解
- Monte Carlo Integration
- 天猫精灵携新品向500万家庭致敬,未来客厅更进一步
- python实现对密码的加密和解密
- 【一罐寡言】你的时间真的是不够用吗?
- 合泰杯 | 合泰单片机入门 定时器详解(三)
- arduino 步进电机驱动库_Arduino第三方库_步进电机控制
- BUCK型开关电源中的损耗与效率的计算