文章目录

二分类问题
特征空间
线性可分
线性分类模型

在学习 SVM 时发现自己没能很好地理解在线性模型中充当决策函数角色的符号函数Sign()，说明对线性模型的理解还不够到位，下面主要梳理一下对数据集 “线性可分”概念以及其它相关概念的一些理解，大概按照下面思路进行：

二分类问题
|
特征空间
|
线性可分
|
线性模型

二分类问题

（分类问题-二分类）
在机器学习的应用中，至少现阶段，分类是一个非常常见的需求。特别是二分类，它是一切分类的基础。而且，很多情况下，多分类问题可以转化为二分类问题来解决。

所谓二分类问题就是：给定的各个样本数据分别属于两个类之一，而目标是确定新数据点将归属到哪个类中。

特征空间

输入空间、输出空间、特征空间
在监督学习中，将输入与输出所有可能取值的集合分别成为输入空间和输出空间。输入空间和输出空间可以是有限元素的集合，也可以是整个欧式空间。

每个具体的输入是一个实例（instance），通常由特征向量表示，特征向量所在的空间被称为特征空间。假设样本的特征向量为 n 维，那么我们说这些样本的特征向量处在 n 维的特征空间中。

一般来说，特征空间可以是欧氏空间，也可以是希尔伯特空间，不过为了便于理解，在以后的所有例子中都使用欧氏空间。
直观上，当我们把一个 n 维向量表达在一个 n 维欧氏空间中的时候，能够“看到”的一个个向量对应为该空间中的一个个点。
数据集、样本/样本点
对监督学习来说，数据集由训练集和测试集构成，而不论训练集还是测试集都是由输入（或特征向量）和输出组成的对所组成，因此输入与输出对又被称为样本或者样本点。

线性可分

所谓”线性可分“，首先要明白其描述的对象是数据集，或者说样本点。
还是以二分类为例，如下图所示，数据集线性可分，表示两类样本能够被完全分隔开，此时，我们说这两类样本在其特征空间里线性可分。

上面的表述很不严谨，我们来看看线性可分严格的数学定义：

D₀和 D₁ 是 n 维欧氏空间中的两个点集（点的集合）。
如果存在 n 维向量 w 和实数 b，使得所有属于 D₀ 的点 x_i 都有 wx_i+b>0，
而对于所有属于 D₁ 的点 x_j 则有 wx_j+b<0。则我们称 D₀ 和 D₁ 线性可分。
该篇文章最主要的点来了

如何去描述上述定义，以及为什么我们都将输出空间定义为 y∈{-1, 1} ？

我们将满足wx_i+b>0的样本类别输出值取为1，满足wx_i+b<0的样本类别输出值取为-1，
这样取y的值有一个好处，就是方便定义损失函数。
因为正确分类的样本满足 y(wx_i+b)>0，而错误分类的样本满足y(wx_i+b)<0。参考

为什么将输出值定义为-1 和 1 ，可以是其他是实数值，比如-5 和 5 ？
答：其实这里只是为了计算方便，才定义y的分类值取-1 和 1 （所以不要太过纠结）
注意，与 SVM 的约束条件作区分！

线性分类模型

超平面
超平面：n 维欧氏空间中维度等于 n-1 的线性子空间。

1维欧氏空间（直线）中的超平面为0维（点），2维欧氏空间中的超平面为1维（直线）；3维欧氏空间中的超平面为2维（平面）；以此类推。
线性分类模型
在数学意义上，将线性可分的样本用超平面分隔开的分类模型，叫做线性分类模型，或线性分类器。

在一个样本特征向量线性可分的特征空间里，可能有许多超平面可以把两类样本分开。
一个合理的策略是：以最大间隔把两类样本分开的超平面，是最佳超平面！这就是线性可分支持向量机的思想。

线性可分支持向量机就是：以找出线性可分的样本在特征空间中的最大间隔超平面为学习目的的分类模型。

参考：

第18课：SVM——线性可分 SVM 原理

特征空间、（数据集）线性可分：线性（二分类）模型相关推荐

【火炉炼AI】机器学习008-简单线性分类器解决二分类问题
[火炉炼AI]机器学习008-简单线性分类器解决二分类问题 (本文所使用的Python库和版本号: Python 3.5, Numpy 1.14, scikit-learn 0.19, matplot ...
[机器学习] 二分类模型评估指标---精确率Precision、召回率Recall、ROC|AUC
一为什么要评估模型? 一句话,想找到最有效的模型.模型的应用是循环迭代的过程,只有通过持续调整和调优才能适应在线数据和业务目标. 选定模型时一开始都是假设数据的分布是一定的,然而数据的分布会随着时间 ...
ML之分类预测：基于sklearn库的七八种机器学习算法利用糖尿病(diabetes)数据集(8→1)实现二分类预测
ML之分类预测:基于sklearn库的七八种机器学习算法利用糖尿病(diabetes)数据集(8→1)实现二分类预测目录输出结果数据集展示输出结果 1.k-NN 2.LoR 4.DT 5.RF ...
AI：神经网络IMDB电影评论二分类模型训练和评估
AI:Keras神经网络IMDB电影评论二分类模型训练和评估,python import keras from keras.layers import Dense from keras import ...
【Kay】机器学习——二分类模型的评价
一.评价二分类模型的好坏二分类问题:预测这条数据是0还是1的问题 1.混淆矩阵数字代表个数 2.准确率.精确率.召回率 ①准确率: ②精确率(查准率): ③召回率(查全率recall) : ④ ...
衡量二分类模型的统计指标（TN,TP,FN,FP,F1,准确,精确,召回,ROC,AUC）
文章目录 - 衡量二分类问题的统计指标分类结果混淆矩阵准确率精确率召回率 F1评分推导过程 ROC曲线.AUC - 衡量二分类问题的统计指标分类结果二分类问题,分类结果有以下四种情 ...
【机器学习】SVM基本线性可分与多分类
上一篇讲了线性可分的SVM推导,现在讲一讲基本线性可分的情形,后面还会介绍多分类的使用以及核函数的使用. outlier 的处理给定数据集 ,当样本数据大部分为线性可分的,存在少量异常值使得数据线 ...
线性可分线性不可分
转自http://blog.csdn.net/u013300875/article/details/44081067 很多机器学习分类算法,比如支持向量机(SVM),的介绍都说了假设数据要是线性可分. ...
RDKit | 基于随机森林的化合物活性二分类模型
基于随机森林算法的化合物二分类机器学习模型代码示例 #导入依赖包 import pandas as pd import numpy as np from rdkit import Chem, Dat ...
pytorch实现二分类模型
使用的数据集是iris 一共150行数据, 三种花各有50行数据, 这里取了前100行, 选两种花进行二分类. 数据集地址:https://github.com/hydra-ZD/AI/blob/ma ...

特征空间、（数据集）线性可分：线性（二分类）模型