特征空间、(数据集)线性可分:线性(二分类)模型
文章目录
- 二分类问题
- 特征空间
- 线性可分
- 线性分类模型
在学习 SVM 时发现自己没能很好地理解在线性模型中充当决策函数角色的 符号函数Sign(),说明对线性模型的理解还不够到位,下面主要梳理一下对数据集 “线性可分”概念以及其它相关概念的一些理解,大概按照下面思路进行:
二分类问题
|
特征空间
|
线性可分
|
线性模型
二分类问题
(分类问题-二分类)
在机器学习的应用中,至少现阶段,分类是一个非常常见的需求。特别是二分类,它是一切分类的基础。而且,很多情况下,多分类问题可以转化为二分类问题来解决。
所谓二分类问题就是:给定的各个样本数据分别属于两个类之一,而目标是确定新数据点将归属到哪个类中。
特征空间
输入空间、输出空间、特征空间
在监督学习中,将输入与输出所有可能取值的集合分别成为输入空间和输出空间。输入空间和输出空间可以是有限元素的集合,也可以是整个欧式空间。每个具体的输入是一个实例(instance),通常由特征向量表示,特征向量所在的空间被称为特征空间。假设样本的特征向量为 n 维,那么我们说这些样本的特征向量处在 n 维的特征空间中。
一般来说,特征空间可以是欧氏空间,也可以是希尔伯特空间,不过为了便于理解,在以后的所有例子中都使用欧氏空间。
直观上,当我们把一个 n 维向量表达在一个 n 维欧氏空间中的时候,能够“看到”的一个个向量对应为该空间中的一个个点。数据集、样本/样本点
对监督学习来说,数据集由训练集和测试集构成,而不论训练集还是测试集都是由输入(或特征向量)和输出组成的对所组成,因此输入与输出对又被称为样本或者样本点。
线性可分
所谓”线性可分“,首先要明白其描述的对象是数据集,或者说样本点。
还是以二分类为例,如下图所示,数据集线性可分,表示两类样本能够被完全分隔开,此时,我们说这两类样本在其特征空间里线性可分。
上面的表述很不严谨,我们来看看线性可分严格的数学定义:
D0和 D1 是 n 维欧氏空间中的两个点集(点的集合)。
如果存在 n 维向量 w 和实数 b,使得所有属于 D0 的点 xi 都有 wxi+b>0,
而对于所有属于 D1 的点 xj 则有 wxj+b<0。则我们称 D0 和 D1 线性可分。
该篇文章最主要的点来了
- 如何去描述上述定义,以及为什么我们都将输出空间定义为 y∈{-1, 1} ?
我们将满足wxi+b>0的样本类别输出值取为1,满足wxi+b<0的样本类别输出值取为-1,
这样取y的值有一个好处,就是方便定义损失函数。
因为正确分类的样本满足 y(wxi+b)>0,而错误分类的样本满足y(wxi+b)<0。参考
为什么将输出值定义为-1 和 1 ,可以是其他是实数值,比如-5 和 5 ?
答:其实这里只是为了计算方便,才定义y的分类值取-1 和 1 (所以不要太过纠结)注意,与 SVM 的约束条件作区分!
线性分类模型
超平面
超平面:n 维欧氏空间中维度等于 n-1 的线性子空间。1维欧氏空间(直线)中的超平面为0维(点),2维欧氏空间中的超平面为1维(直线);3维欧氏空间中的超平面为2维(平面);以此类推。
线性分类模型
在数学意义上,将线性可分的样本用超平面分隔开的分类模型,叫做线性分类模型,或线性分类器。
在一个样本特征向量线性可分的特征空间里,可能有许多超平面可以把两类样本分开。
一个合理的策略是:以最大间隔把两类样本分开的超平面,是最佳超平面!这就是线性可分支持向量机的思想。
线性可分支持向量机就是:以找出线性可分的样本在特征空间中的最大间隔超平面为学习目的的分类模型。
参考:
- 第18课:SVM——线性可分 SVM 原理
特征空间、(数据集)线性可分:线性(二分类)模型相关推荐
- 【火炉炼AI】机器学习008-简单线性分类器解决二分类问题
[火炉炼AI]机器学习008-简单线性分类器解决二分类问题 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplot ...
- [机器学习] 二分类模型评估指标---精确率Precision、召回率Recall、ROC|AUC
一 为什么要评估模型? 一句话,想找到最有效的模型.模型的应用是循环迭代的过程,只有通过持续调整和调优才能适应在线数据和业务目标. 选定模型时一开始都是假设数据的分布是一定的,然而数据的分布会随着时间 ...
- ML之分类预测:基于sklearn库的七八种机器学习算法利用糖尿病(diabetes)数据集(8→1)实现二分类预测
ML之分类预测:基于sklearn库的七八种机器学习算法利用糖尿病(diabetes)数据集(8→1)实现二分类预测 目录 输出结果 数据集展示 输出结果 1.k-NN 2.LoR 4.DT 5.RF ...
- AI:神经网络IMDB电影评论二分类模型训练和评估
AI:Keras神经网络IMDB电影评论二分类模型训练和评估,python import keras from keras.layers import Dense from keras import ...
- 【Kay】机器学习——二分类模型的评价
一.评价二分类模型的好坏 二分类问题:预测这条数据是0还是1的问题 1.混淆矩阵 数字代表个数 2.准确率.精确率.召回率 ①准确率: ②精确率(查准率): ③召回率(查全率recall) : ④ ...
- 衡量二分类模型的统计指标(TN,TP,FN,FP,F1,准确,精确,召回,ROC,AUC)
文章目录 - 衡量二分类问题的统计指标 分类结果 混淆矩阵 准确率 精确率 召回率 F1评分 推导过程 ROC曲线.AUC - 衡量二分类问题的统计指标 分类结果 二分类问题,分类结果有以下四种情 ...
- 【机器学习】SVM基本线性可分与多分类
上一篇讲了线性可分的SVM推导,现在讲一讲基本线性可分的情形,后面还会介绍多分类的使用以及核函数的使用. outlier 的处理 给定数据集 ,当样本数据大部分为线性可分的,存在少量异常值使得数据线 ...
- 线性可分 线性不可分
转自http://blog.csdn.net/u013300875/article/details/44081067 很多机器学习分类算法,比如支持向量机(SVM),的介绍都说了假设数据要是线性可分. ...
- RDKit | 基于随机森林的化合物活性二分类模型
基于随机森林算法的化合物二分类机器学习模型 代码示例 #导入依赖包 import pandas as pd import numpy as np from rdkit import Chem, Dat ...
- pytorch实现二分类模型
使用的数据集是iris 一共150行数据, 三种花各有50行数据, 这里取了前100行, 选两种花进行二分类. 数据集地址:https://github.com/hydra-ZD/AI/blob/ma ...
最新文章
- 《Ansible权威指南 》一 第一篇 Part 1 基础入门篇
- IE6 下div高度显示的问题
- RDKit | 基于相似图可视化原子贡献
- 麦肯锡季刊 | 人工智能的发展与障碍
- linux回调函数的使用
- 计算机硬件Word,[计算机硬件及网络]word的操作.doc
- html语言制作网页,HTML语言的网页制作技巧与方法
- 看图识物_看图识物:下面图里是什么植物呢?请朋友们评论区留言
- mysql 安装盒子_Windows2008 装 MySQL 问题
- BZOJ 1040 [ZJOI2008]骑士
- 根据文法画出语法树_输入语法推断的强化学习
- html5 命运之轮生产
- Testng 的数据源 驱动測试 代码与配置
- 51Nod 1131 - 覆盖数字的数量(分类讨论)
- 【预测模型】基于Elman神经网络预测电力负荷matlab代码
- SVG 与 Canvas:如何选择
- A4988驱动步进电机教学
- androidFD泄露问题总结
- html网页设计作业代码——网上鲜花网页设计(5页)HTML+CSS+JavaScript web期末作业设计网页
- MongoDB勒索事件中,DBA们到底该学到什么?