吐血整理:机器学习的30个基本概念,都在这里了(手绘图解)
01 空间表征
在学习深奥的机器学习理论之前,首先来介绍一些机器学习中最基本的概念。
- 特征(Feature):一个具体事物的属性描述,由属性向量表示。第j个记录xj的属性向量可以表示为:
xj=(xj(1),xj(2),…,xj(i),…,xj(n)), j=1,2,…,N, xj∈X
其中每个xj(i)为一个特征维度上的取值。
- 标记(Label):又称样本标签,用于描述事物某个特性的事项。
- 标记值:标记的取值。在二分类问题中,取值通常为0和1。
- 标记空间(输出空间):所有标记的集合,记为Y。
- 样例(Sample):又称样本。拥有了对应标记的记录,由(记录,标记)对表示。例如,第j个样例可以表示为:
(xj,yj), j=1,2,…,N, xj∈X,yj∈Y
假设空间F通常是由一个参数向量决定的函数族:
F={f|Y=fw(X),w∈Rn}
其中,参数向量w取值于n维向量空间Rn,称为参数空间。假设空间F也可定义为条件概率的集合(概率模型):
F={P|P(Y|X)}
其中,X是定义在输入空间X上的随机变量,Y是定义在输出空间Y上的随机变量。
上述公式理解起来可能较为抽象,接下来我们通过一个实际的例子来理解相关概念。
首先,在建立模型前,一定会有一个由多个样例组成的样本集,比如:
(用户A,{年龄:29,身高:185,年收入:70,婚姻状况:未婚,状态:逾期})
(用户B,{年龄:24,身高:167,年收入:31,婚姻状况:已婚,状态:未逾期})
(用户C,{年龄:46,身高:177,年收入:50,婚姻状况:离异,状态:未逾期})
…
其中每一个用户及其属性对称为一个样本(或观测)。这样的一系列用户及其自身的属性构成了样本集,其中用户“A”“B”“C”构成了样本空间,“特征年龄”“身高”“年收入”“婚姻状况”构成了特征空间。
此外还有一个空间叫作参数空间,即由组成预测函数的参数的所有取值所组成的空间。“状态”这个字段则代表着样本的标签,也就是需要模型来判别的结果。
这个例子中特征空间有4个取值:年龄、身高、年收入、婚姻状况。这4个取值就代表着特征空间中的4个维度,或者说这个特征空间的维度是4。在良好的假设条件下,模型期望每个特征之间互不干扰,然而在实际情况下,通常每个特征之间都有可能存在关系。
比如我们可以将其中两个维度(年龄和身高)画出来。当处于低龄时(即0~8岁),我们可以明显地观察到身高的取值随着年龄增长也在不断地变大,如图3-1所示。
▲图3-1 变量相关性示例
婚姻状况这个特征可能取值为{未婚、已婚、离异},那么这3个取值就限制住了特征空间在婚姻状况这个维度上的取值。
如果数据中只有{未婚、离异}这2种取值的样本,则称这个数据集不能完整表征它所在的样本空间,即在它的某一特征维度上,有一些值没有被观测到,不能很好地观察到这个维度特征的真实分布。
通过已观察的样本点,只能表征出阴影部分的空间,如图3-2所示。
▲图3-2 空间表征示例
02 模型学习
模型的训练(又叫学习或者拟合),是指通过将数据传入模型,从而使模型学习到数据的潜在规律(如数据的分布)的过程。而建立模型的本质,可以理解为从数据分布中抽象出一个决策函数。
决策函数(非概率模型)的定义为从输入空间X到输出空间Y的映射f:X→Y。
假设空间F定义为决策函数的集合,其形式如下:
F={f|Y=f(X)}
其中,X是定义在输入空间X上的变量,X∈X;Y是定义在输出空间Y上的变量。
当想要预测的是离散值时,比如一个人是男或是女,或者一个用户还钱与否,这样的任务称为分类(Classification)。与之相对应的,如果想预测一个人的年龄是多少岁,或者一个用户具体会在未来的哪一天还款,这样的任务称为回归(Regression)。
当一个任务只有两个取值时称之为二分类任务。评分卡模型就是一种典型的二分类任务,即预测一个用户是否会产生逾期。而当任务涉及多个类别的时候,称之为多分类任务。
一个典型的例子是在做欺诈检测时预测一个用户是否进行欺诈,这看似是一个二分类任务(预测是否欺诈),但其实用户的欺诈手段各不相同,每一个欺诈方法都是一个单独的类别,因此它本质上是一个多分类任务。
从数据是否带有标签的角度来看,又可以将模型划分成三大类:监督学习(Supervised Learning,SL)、半监督学习(Semi-Supervised Learning,SSL)和无监督学习(Unsupervised Learning,UL)。
- 监督学习是指在一个申请评分卡建模中,已经明确知道样本集中每个用户的标签,即随便取一个人出来,都可以知道他的逾期状态。
- 无监督学习是指在建模时,完全没有当前样本集的任何标签信息,即完全不知道哪些人是逾期的。
- 而半监督学习介于两者之间,对于当前的样本集,知道其中一部分样本的标签,另一部分则不知道其是否已逾期。
通常情况下,模型的效果排序如下:
监督学习>半监督学习>无监督学习
在绝大多数情况下,应该尽可能利用标签信息,这样得到的模型效果会更好。但是很多时候,是否能拥有标签并不是由个体决定的。例如,很多平台是没有欺诈用户的标签的,此时训练一个监督模型就很困难,而半监督及无监督学习可以起到一定的作用。
03 模型评价
对于模型学习的结果,主要关心两件事:欠拟合(underfit)和过拟合(overfit)。
欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能很好地拟合数据。换言之,模型在学习的过程中没有很好地掌握它该掌握的知识,模型学习的偏差较大。
过拟合是指为了得到一致假设而使假设变得过度严格,即模型学习得太过详细,把一些个例的特点作为共性,使得模型的泛化能力较低。
图3-3很好地解释了过拟合与欠拟合的含义,a图表示欠拟合,b图表示一个良好的拟合,c图则表示过拟合。通俗理解,过拟合就是模型学得过于细致,欠拟合就是学得过于粗糙。
▲图3-3 拟合优度
模型结构越复杂,通常越倾向于过拟合。而样本量越大,数据分布得到越充分的曝光,模型越不容易过拟合。为了更好地表示过拟合和欠拟合,通常建模的时候会将样本集划分为训练集(Train)和测试集(Test)。
训练集就是用来带入模型训练的集合,而测试集主要是待模型训练好之后,对模型做测试,以检验模型的效果。一般认为,训练集上表现好但在测试集上表现不好的模型,有过拟合的风险;而模型在训练集上效果明显差于测试集,则有欠拟合的风险。
在训练一个模型的时候,我们不只希望模型在训练集上的表现足够好,还希望模型在其他数据集上的表现也很好。训练集上的表现与测试集上的表现的差值称为泛化误差,而泛化误差由3部分组成:偏差(bias)、方差(variance)、噪声(noise)。
偏差度量了模型的期望预测与真实结果的偏离程度,也就是模型本身的拟合能力。
方差度量了同样大小的训练集的变动所导致的学习能力的变化,也就是数据扰动所造成的影响。
而噪声则刻画了问题本身的拟合难度。
图3-4所示为训练程度与误差的关系。
▲图3-4 训练程度与误差
通常离线模型训练完成后,在最终模型上线前,会将测试集和训练集整合,重新对模型的系数做拟合,进而得到最终的模型。这是因为人为数据集越大,对样本空间的表征可能越充分。某些曝光不充分的特征值所对应的标签分布,在数据量增加时,可能有更高的曝光率。比如之前例子中的数据集如下所示:
(用户A,{年龄:29,身高:185,年收入:70,婚姻状况:未婚,状态:逾期})
(用户B,{年龄:24,身高:167,年收入:31,婚姻状况:已婚,状态:未逾期})
(用户C,{年龄:46,身高:177,年收入:50,婚姻状况:离异,状态:未逾期})
…
如果训练集中婚姻状况有一个值没有取到,只存在于测试集中,那么将测试集和训练集合并得到最终模型时,对未来的用户进行预测时偏差就会更小。
然而部分模型,如极端梯度提升机(eXtreme Gradient Boosting,XGBoost)需要利用测试样本集实现训练过程的提前停止,因此需要额外选择部分样本不参与训练,比如从原始训练集中选择少部分样本作为提前停止的依据。
关于作者:梅子行,资深风控技术专家、AI技术专家和算法专家,历任多家知名金融科技公司的算法研究员、数据挖掘工程师。师承Experian、Discover等企业的资深风控专家,擅长深度学习、复杂网络、迁移学习、异常检测等非传统机器学习方法,热衷于数据挖掘以及算法的跨领域优化实践。
毛鑫宇,资深品牌视觉设计师、插画设计师。曾任职国内知名文旅公司品牌设计师,设计打造知名文化旅游目的地及品牌设计案例。
吐血整理:机器学习的30个基本概念,都在这里了(手绘图解)相关推荐
- 手绘图解 | 机器学习最常见的30个基本概念
来源:大数据DT 本文约3300字,建议阅读9分钟 本文主要介绍机器学习基础知识,包括名词解释(约30个).基础模型的算法原理及具体的建模过程. 标签:机器学习 01 空间表征 在学习深奥的机器学习理 ...
- c语言课后题2.52.8答案,新概念第二册课后题答案详解:Lesson52
新概念英语作为一套世界闻名的英语教程,以其全新的教学理念,有趣的课文内容和全面的技能训练,深受广大英语学习者的欢迎和喜爱.为了方便同学们的学习,新东方在线新概念英语网为大家整理了最全面的新概念第二册课 ...
- c语言中5 2 11 意思,新概念第二册课后题答案详解:Lesson55
新概念英语作为一套世界闻名的英语教程,以其全新的教学理念,有趣的课文内容和全面的技能训练,深受广大英语学习者的欢迎和喜爱.为了方便同学们的学习,新东方在线新概念英语网为大家整理了最全面的新概念第二册课 ...
- 【干货收藏】统计分析/机器学习吐血整理最强指南
http://mp.weixin.qq.com/s?__biz=MzAxNzc3NDA3OA==&mid=2651304431&idx=1&sn=4e82688613ecc6a ...
- 【计算机视觉算法岗面经】“吐血”整理:2019秋招资料
相关链接:[计算机视觉算法岗面经]"吐血"整理:2019秋招面经 //2018/09/27 兵荒马乱.浩浩荡荡的秋招终于差不多要结束了. 秋招这段时间真是感慨很多,一时得意一时失意 ...
- Java学习之路吐血整理技术书从入门到进阶最全50+本(珍藏版)
本博文系转载:原博地址:https://blog.csdn.net/qq_43336600/article/details/83537307 重要:注:原博整理的资源是加密资源,所以我在进行转载时已经 ...
- 别人的【计算机视觉算法岗面经】“吐血”整理:2019秋招资料
别人的[计算机视觉算法岗面经]"吐血"整理:2019秋招资料 相关链接:[计算机视觉算法岗面经]"吐血"整理:2019秋招面经 //2018/09/27 兵荒马 ...
- [转]《吐血整理》系列-顶级程序员工具集
你知道的越多,你不知道的越多 点赞再看,养成习惯 GitHub上已经开源 https://github.com/JavaFamily 有一线大厂面试点脑图.个人联系方式,欢迎Star和指教 前言 这期 ...
- 吐血整理!顶级程序员的百宝箱来咯!| 原力计划
作者 | 敖丶丙 责编 | Elle 出品 | CSDN 博客 你知道的越多,你不知道的越多 因为读者很多还是学生,还有很多应届生,对一个需求的研发流程都不是很熟悉,还有可能对于以后自己需要使用到的工 ...
最新文章
- 阿里巴巴开源的缓存框架JetCache创建缓存
- Redis API的原子性分析
- linux 网络状态表 /proc/net/tcp 各项参数说明
- java_IO_File(3)_遍历、递归
- mysql数据库算法_数据库:MySQL索引背后的数据结构及算法原理【转】
- 【渝粤教育】国家开放大学2018年秋季 0699-22T阅读与写作 参考试题
- java中文分词算法_Java实现逆向最大匹配中文分词算法
- android立体3D效果_谷歌裸眼3D动物意外蹿红,掀起一股AR体验小高潮
- 数据库系统原理简答题、论述题、判断题
- iTOP4412 gdbserver安装
- qt传递数组给js(支持多组)
- 廖雪峰git学习(3)分支管理【待续】
- docker 删除镜像
- 电子商务网站的购物流程设计(简述)
- 如何解决'chromedriver' executable needs to be in PATH.的问题
- 简单谈谈编程语言(二)
- 计算机考试当场出分,基金从业资格考试当场出成绩吗?
- Herb Sutter简介
- 喜欢花,喜欢海,喜欢日出和日落
- Android中使用封装的OKHttp上传图片,从相机和相册中获取图片并剪切
热门文章
- 怎么读取h5文件内容_【Python编程特训连载72】读取two.txt文件,模拟输出“两会”内容 答案公布...
- python监听文件更改记录_如何用机器人监听老板微信?
- NumPy 高级索引
- virtualenv 安装与使用linux下(记录一下)
- tomcat环境变量参数catalina.home和catalina.base的设置位置
- conda env环境配置
- 编程字典keras.layers API方法
- jupyter notebook中执行命令报错No module named ‘wordcloud‘
- php替换时 css中的图片不显示不出来,URL重写:CSS,JS和图像未加载
- 2019北京智源大会完整议程重磅揭晓!