【ML从入门到入土系列01】概述
文章目录
- 1 ML基本概念
- 1.1 ML分类
- 1.2 基本术语
- 2 ML基本流程
- 3 ML算法
- 4 ML评估
- 4.1 评估方法
- 4.2 评估指标
1 ML基本概念
如下图所示,ML 是计算机从数据中学习出规律,应用在新数据上做预测;其在互联网、生物、医疗、交通、金融等领域有着广泛应用。
1.1 ML分类
- 监督学习:特征+标签
分类:输出离散值
回归:输出连续值 - 无监督学习:特征
聚类:抱团学习 - 强化学习:环境->行为
1.2 基本术语
- 数据集:训练集,测试集
- 样本/示例/样例
- 特征/属性
2 ML基本流程
如上图所示,ML主要流程如下:
- 数据预处理
数据采样、数据切分、特征抽取、特征选择、降维 - 模型学习
超参数选择、交叉验证、结果评估、模型选择、模型训练 - 模型评估
- 模型上线
3 ML算法
如下图所示,这是Sk-learn官网提供的ML算法选择路径图。
4 ML评估
ML的目标是训练出泛化能力强的模型,常用的评估方法有:留出法、交叉验证法、自助法;常用的评估指标有精度、召回率、F1值、AUC、MSE等。
4.1 评估方法
留出法
将数据集分为训练集与测试集,注意测试集约占数据集的1/5~1/3,多次重复划分,分层采样保持数据分布分一致性K折交叉验证法
具体流程如下图所示。
自助法(bootstrap)
别名有放回采样,可重复采样,注意训练集与数据集同规模,数据分布有一定的改变,约有36.8%的样本不会出现在训练集。
4.2 评估指标
- 分类问题
错误率
E(f;D)=1m∑i=1mI(f(xi)≠yi)E(f ; D)=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(f\left(\boldsymbol{x}_{i}\right) \neq y_{i}\right)E(f;D)=m1i=1∑mI(f(xi)=yi)精度
acc(f;D)=1m∑i=1mI(f(xi)=yi)=1−E(f;D)\begin{aligned} \operatorname{acc}(f ; D) &=\frac{1}{m} \sum_{i=1}^{m} \mathbb{I}\left(f\left(\boldsymbol{x}_{i}\right)=y_{i}\right) \\ &=1-E(f ; D) \end{aligned}acc(f;D)=m1i=1∑mI(f(xi)=yi)=1−E(f;D)混淆矩阵
查准率(准确率)
P=TPTP+FPP=\frac{T P}{T P+F P}P=TP+FPTP查全率(召回率)
R=TPTP+FNR=\frac{T P}{T P+F N}R=TP+FNTPF1值
F1=2×P×RP+R=2×TP样例总数 +TP−TNF 1=\frac{2 \times P \times R}{P+R}=\frac{2 \times T P}{\text { 样例总数 }+T P-T N}F1=P+R2×P×R= 样例总数 +TP−TN2×TPFβF_{\beta}Fβ 值
Fβ=(1+β2)×P×R(β2×P)+RF_{\beta}=\frac{\left(1+\beta^{2}\right) \times P \times R}{\left(\beta^{2} \times P\right)+R}Fβ=(β2×P)+R(1+β2)×P×RAUC
- 回归问题
平均绝对误差MAE
MAE=1n∑i=1n∣fi−yi∣M A E=\frac{1}{n} \sum_{i=1}^{n}\left|f_{i}-y_{i}\right|MAE=n1i=1∑n∣fi−yi∣均方误差MSE
MSE=1n∑i=1n(fi−yi)2M S E=\frac{1}{n} \sum_{i=1}^{n}\left(f_{i}-y_{i}\right)^{2}MSE=n1i=1∑n(fi−yi)2均方根误差RMSE
RMSE=MSER M S E=\sqrt{M S E}RMSE=MSE
【ML从入门到入土系列01】概述相关推荐
- 【MQTT从入门到提高系列 | 01】从0到1快速搭建MQTT测试环境
这是机器未来的第24篇文章 原文首发地址:https://blog.csdn.net/RobotFutures/article/details/125532208 1. mosquitto概述 Ecl ...
- R语言|for循环————R语言入门到入土系列(八)
R语言入门到入土系列 R语言作为数据科学的第一利器:本人介绍了一些R语言的基础入门知识,希望能帮到大家,往期系列文章点击下面文字直达
- 【从入门到入土系列】C语言制作小游戏-贪吃蛇:Copy+运行即可另附注释
系列文章 本系列持续更新中,欢迎您的访问! 系列简介 本系列由唐文疏撰写,负责记录博主的学习生涯中的一点一滴.独乐乐不如众乐乐,故此分享给大家.欢迎大家一起讨论.学习和批评指点. 博主只是一个普普通通 ...
- R语言|数据类型————R语言入门到入土系列(一)
本系列将从R语言的基本入门到R语言实战系列,逐步编写R语言的教程. R语言数据类型 R语言的赋值与输出 R语言的数据类型 数据类型的查看 数据类型的转换 R语言的赋值与输出 R语言赋值语法如下: 赋值 ...
- 【CSS从入门到入土系列】—— 列表边框属性专题
列表标识符\color{pink}{列表标识符}列表标识符 (1)修改默认列表标识符 list-style-type circle 空心圆 square 实心方块 disc 默认 ...
- 【Python】pyqt6入门到入土系列,非常详细...
写在前面 最近真的是运气不好,国庆前一天,隔壁小区有人中招了,结果国庆出不了门,好不容易国庆结束了,准备上班,结果小区又有个叼毛中招了,搞得我直接国庆放了半个月,还只能在家过,没事干只能这里写写,那里 ...
- 【安全利器SELinux快速入门系列 | 01】SELinux基础入门
这是机器未来的第35篇文章 原文首发地址:https://blog.csdn.net/RobotFutures/article/details/125914553 文章目录 1. 研究目标 2. se ...
- AutoSAR系列讲解(入门篇)4.1-BSW概述
AutoSAR系列讲解(入门篇)4.1-BSW概述 BSW概述 一.什么是BSW 二.BSW的结构 1.微控制器硬件抽象层(MCAL) 2.ECU抽象层 3.服务层 四.复杂驱动 三.再将结构细分 B ...
- Git使用 从入门到入土 收藏吃灰系列 (九) git reset 移除暂存区与版本回退
文章目录 一.前言 二.Git远程命令实践 2.1git reset 移除暂存区 2.2 git log+git reflog+git reset 版本回退 一.前言 参考安装Git 详细安装教程 参 ...
最新文章
- 杭电acm1004java答案_水过杭电OJ hdu1004
- led灯串怎么摆造型_一元包邮的家用LED日光灯泡,究竟是怎么做到的?
- 最小哈希 minhash
- html点击按钮计算两个输入框的和_小程序计算报价功能介绍
- 计算机桌面显示器,电脑安装多显示器方法图文教程
- java面试换背景颜色_开源)嗨,Java,你可以生成金山词霸的二维码分享海报吗?...
- 算法之迪杰斯特拉算法
- 准提咒LA 观想 3D文字
- 计算机不能上网的故障和解决办法,电脑无法上网的原因分析及解决办法
- 阿里旺旺 php,QQ、旺旺、MSN、SKYPE在线代码生成
- ISP Pipeline lens shading
- 基于平均背景建模的运动目标检测
- 用ArcGIS制作核密度分析图
- 725 数模 空气污染问题研究 (15 五一 B)
- DirectUI界面编程(零)简介
- 商务网站建设与维护【8】
- C# 用QQ企业邮箱发邮件
- Spark RDD基本操作
- 举个栗子~Minitab 技巧(3):用分组条形图快速对比数据
- 找出一批学生的最高分
热门文章
- Map转为String
- mybatis if条件判断
- 计算车号Java,汽车VIN码校验算法 java版
- Go实战--golang中使用echo框架中JSONP(labstack/echo)
- 【新智元峰会】德国AI教皇盛赞中国人工智能,25位AI领袖强势打造中国新智极...
- 中国天气网爬虫数据可视化
- 用fail2ban阻止ssh暴力破解root密码
- oracle 判断节气,FullCalendar应用——整合农历节气和节日
- 基于单片机的温湿度监测报警
- 如何快速在线压缩图片大小(包括放大、缩小图片,指定图片尺寸和压缩图片品质)