先简单的说下吧,下面给出实际例子

类和回归的区别在于输出变量的类型。

定量输出称为回归,或者说是连续变量预测;
定性输出称为分类,或者说是离散变量预测。

举个例子:
预测明天的气温是多少度,这是一个回归任务;
预测明天是阴、晴还是雨,就是一个分类任务。

拿支持向量机举个例子,分类问题和回归问题都要根据训练样本找到一个实值函数g(x)。

回归问题的要求是:给定一个新的模式,根据训练集推断它所对应的输出y(实数)是多少。也就是使用y=g(x)来推断任一输入x所对应的输出值。

分类问题是:给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1)。也就是使用y=sign(g(x))来推断任一输入x所对应的类别。

综上,回归问题和分类问题的本质一样,不同仅在于他们输出的取值范围不同。分类问题中,输出只允许取两个值;而在回归问题中,输出可取任意实数。

也就是说,回归其实是求一个函数能尽可能的描述出X和Y的关系。对应的是每一个X都有一个Y与之对应。分类是一定范围内的X确定与一个Y对应。

最后在粘贴下两个的概念和方法:

1. 线性回归

回归分析常用于分析两个变量X和Y 之间的关系。 比如 X=房子大小 和 Y=房价 之间的关系, X=(公园人流量,公园门票票价) 与 Y=(公园收入) 之间的关系等等。

那么你的数据点在图上可以这么看

现在你想找到 房子大小和房价的关系, 也就是一个函数f(x) = y. 能够很好的表示 这两个变量之间的关系。

于是你需要大概评估一下这个 房子大小和房价大概是一个什么关系.

线性的关系吗? 还是非线性的关系?

当然在这个问题里面, 线性的关系更符合这两者的关系。于是我们 选择一个合适的 线性模型, 最常用的是 f(x) = ax+b.

然后用这个线性的模型 去 匹配这些数据点。

1.1 怎么匹配?

有了数据点 和 你臆想出来的线性模型,怎么进行匹配,也就是怎么用这根线最好地描述些数据点的关系?

需要最好地描述点, 我们又需要一个关于“好”的定义。你也可以想出很多关于“好”的定义。下面有两个,

这两个定义都是 将模型与数据点之间的距离差 之和做为 衡量匹配好坏的标准。  误差越小,  匹配程度越大。

但是 总的来说, 我们想要找到的模型, 最后是想要使 f(x) 最大程度地 与y相似, 所以我们想要尽量地减少 f(x)与y之间的差值。 所以在这里 用第二个图的“好的定义” 来评估这根线的匹配程度是很合理的。于是我们有了误差公式!!!!!

这个公式,说的是,可以通过调整不同的a 和 b的值,就能使 误差不断变化,而当你找到这个公式的最小值时,你就能得到最好的a,b. 而这对(a,b)就是能最好描述你数据关系的模型参数

1.1.1 沿导数下降法(Gradient Descent)

怎么找 cost(a,b)的最小? cost(a,b) 的图像其实像一个碗 一样,有一个最低点。 找这个最低点的办法就是,先随便找一个点(e.g. a=3, b = 2), 然后 沿着这个碗下降的方向找,最后就能找到碗的最低点。

cost(a,b) 的形状

怎么找(某一点)碗下降的方向?? 答案是,找那一点导数的反方向。拿参数a 举个例子,  a与cost 关系如下图,

只要将任意一个a, 沿着使cost 导数的反方向 慢慢移动,那么 最终有一天a值就会到达使 cost 最小的那一点. 于是你可以不断地移动a,b, 向着最低点前进。

当然在进行移动的时候也需要考虑,每次移动的速度,也就是\Alpha的值,这个值也叫做(学习率). 学习率的增大可以加速参数逼近最优的情况, 但是如果在快要到达函数的底端的时候,需要减小学习率,以免出现cost 不断增大或者不停摆动的情况(如下图, J(a,b)就是cost(a,b) )。 所以说,当出现以上两种情况时候,我们应该果断选取一个较小的学习率, 以保证cost能减少到一个稳定的值(我们称为 收敛converge).

1.1.2 直接求解最小点方法

这时候,有的人会问,为什么要让a不停地往下跑呢? 而且还需要设定学习率, 多麻烦, 直接让找 导数为0点(最小极值), 不就可以了吗? 嗯。。。也可以...但是各有优缺,

具体方法和优劣分析可见Rachel-Zhang 的博客: http://blog.csdn.net/abcjennifer/article/details/7700772

总结一下:  回归问题的解决方法是:

1. 假定一个模型   2.  定义什么叫做最好的匹配(构造误差函数)   3. 用这个模型去匹配已有的数据点(训练集)

需要进一步讨论的问题:

2.分类(Logistic regression)

  • 现在是分成两类,如果数据需要分成三类或者更多该怎么办?  ---- 假如有A,B,C三类, 把其中A类做为1,BC做为0,然后做Logistic regression, 得到模型a, 同理将B类做为1,AC作为0,得到模型b, 再同理得到模型c.    最后测试的时候, 对任意一个数据点x, 我们能够得到x分别属于A,B,C三类的概率值

最后比较大小,哪个大,这个x就属于哪一类

3.总结(两个问题的区别)

这篇文章大概的意图是能想让大家了解, 机器学习中最基本的两类问题,线性回归和分类。 能让大家有个清晰的思想,对于这两类问题都有以下几个步骤,
  • 如何选取一个 合理的模型(线性的,or 非线性的(e.g. 阶跃函数, 高斯函数)).--模型
  • 制造一个"美好"的 误差函数 (可以评估拟合程度,而且还是convex函数)--策略
  • 采取一切可能的技术(e.g. 导数下降法,解极值方程法) 求出最好的模型参数--算法(算法中涵盖:1.对策略的实现,2.以及为了达到某种效果(例如,时间减少),而对策略的优化)
谈谈回归和分类的区别:
总的来说两个问题本质上都是一致的,就是模型的拟合(匹配)。 但是分类问题的y值(也称为label), 更离散化一些. 而且, 同一个y值可能对应着一大批的x,  这些x是具有一定范围的。 
所以分类问题更多的是 (一定区域的一些x) 对应 着 (一个y).   而回归问题的模型更倾向于 (很小区域内的x,或者一般是一个x)  对应着  (一个y).
在把一个问题建模的时候一定要考虑好需求,让你的模型更好的与现实问题相对应。

转自:

http://blog.csdn.net/abcjennifer/article/details/7716281

http://blog.csdn.net/ppn029012/article/details/8775597

http://blog.csdn.net/u010159842/article/details/46457781

分类和回归的区别和联系相关推荐

  1. 分类(classification)是认知的基础、分类步骤及主要算法、分类与回归的区别、分类过程

    分类(classification)是认知的基础.分类步骤及主要算法.分类与回归的区别.分类过程 目录

  2. python 线性回归与逻辑回归区别(有监督学习【分类、回归】、无监督学习【聚类、强化学习】、损失函数、梯度下降、学习率、过拟合、欠拟合、正则化)

    引用文章1 https://blog.csdn.net/viewcode/article/details/8794401 引用文章2:一.线性回归和逻辑回归 一.什么是机器学习 利用大量的数据样本,使 ...

  3. 【机器学习小常识】“分类” 与 “回归”的概念及区别详解

    目录 1.分类与回归是干嘛的? 2.二者有什么区别 1.输出不同 2.目的不同 3.本质不同 4.结果不同 3.场景应用 1.分类应用 2.回归应用 学过机器学习的人都听过两个概念:分类与回归,特别的 ...

  4. 机器学习基础:分类vs回归

    经常看到这样的问题:"如何计算回归问题的准确度?"像这样的问题反映了没有真正理解分类和回归之间的区别,以及测量的准确度是什么. 这是分类和回归问题之间的一个重要区别.从根本上说,分 ...

  5. 分类决策树 回归决策树_决策树分类器背后的数学

    分类决策树 回归决策树 决策树分类器背后的数学 (Maths behind Decision Tree Classifier) Before we see the python implementat ...

  6. ml回归_ML中的分类和回归是什么?

    ml回归 机器学习教程 (MACHINE LEARNING TUTORIAL) ML is extracting data from knowledge. ML正在从知识中提取数据. Machine ...

  7. python机器学习案例系列教程——逻辑分类/逻辑回归LR/一般线性回归(softmax回归)

    全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 线性函数.线性回归 参考:http://blog.csdn.net/luanpeng825485697/article/details ...

  8. 一文掌握多分类logistic回归

    Logistic回归分析(logit回归)一般可分为3类,分别是二元Logistic回归分析.多分类Logistic回归分析和有序Logistic回归分析.logistic回归分析类型如下所示. Lo ...

  9. 数据挖掘十大经典算法--CART: 分类与回归树

    一.决策树的类型  在数据挖掘中,决策树主要有两种类型: 分类树 的输出是样本的类标. 回归树 的输出是一个实数 (例如房子的价格,病人呆在医院的时间等). 术语分类和回归树 (CART) 包含了上述 ...

最新文章

  1. 选择最合适的预测性维护传感器
  2. 漏洞检测,流量和性能监控
  3. mysql学习-常用的函数(字符串函数)
  4. mysql relaylog 慢_MySQL 主从同步延迟的原因及解决办法
  5. Convolutional Neural Networks for Visual Recognition 1
  6. mysql(待完善)
  7. 【转】c#数字图像处理(二)彩色图像灰度化,灰度图像二值化
  8. linux系统sudoers文件夹权限777以及/etc/profile文件修改后无法进入系统问题
  9. fireFox IE刷新不提示
  10. python-appium手机自动化测试(仅需安装包)前期准备(pydev-eclipse编辑器)
  11. AForge.net简介和认识
  12. 实验三:从整理上理解进程创建、可执行文件的加载和进程执行进程切换,重点理解分析fork、execve和进程切换...
  13. java中queue的使用
  14. 简述使用configurations.all统一androidx的版本
  15. 百度导航引擎初始化失败问题解决
  16. ppt怎么修改页面布局
  17. RuntimeError: Address already in use 端口号冲突,解决思路总结
  18. 推荐系统工程篇之搭建以图搜图服务
  19. 高质量的外链怎么去挖掘?
  20. proxy(代理)用法

热门文章

  1. android 9 patch
  2. 【数据结构】平衡二叉树
  3. DataDir and DirectoryFactory in SolrConfig
  4. 类文件Spring中空值的写法-java教程
  5. Centos7 安装配置 tomcat 并设置自动启动
  6. Serverless实战 —— ​​​​​​​Laravel + Serverless Framework 快速创建 CMS 内容管理系统
  7. 面试官系统精讲Java源码及大厂真题 - 44 场景实战:ThreadLocal 在上下文传值场景下的实践
  8. Java 8 Features Tutorial – The ULTIMATE Guide
  9. Kubernetes入门指南
  10. CentOS 7安装TigerVNC Server