分类和回归的区别和联系
先简单的说下吧,下面给出实际例子
类和回归的区别在于输出变量的类型。
定量输出称为回归,或者说是连续变量预测;
定性输出称为分类,或者说是离散变量预测。
举个例子:
预测明天的气温是多少度,这是一个回归任务;
预测明天是阴、晴还是雨,就是一个分类任务。
拿支持向量机举个例子,分类问题和回归问题都要根据训练样本找到一个实值函数g(x)。
回归问题的要求是:给定一个新的模式,根据训练集推断它所对应的输出y(实数)是多少。也就是使用y=g(x)来推断任一输入x所对应的输出值。
分类问题是:给定一个新的模式,根据训练集推断它所对应的类别(如:+1,-1)。也就是使用y=sign(g(x))来推断任一输入x所对应的类别。
综上,回归问题和分类问题的本质一样,不同仅在于他们输出的取值范围不同。分类问题中,输出只允许取两个值;而在回归问题中,输出可取任意实数。
也就是说,回归其实是求一个函数能尽可能的描述出X和Y的关系。对应的是每一个X都有一个Y与之对应。分类是一定范围内的X确定与一个Y对应。
最后在粘贴下两个的概念和方法:
1. 线性回归
回归分析常用于分析两个变量X和Y 之间的关系。 比如 X=房子大小 和 Y=房价 之间的关系, X=(公园人流量,公园门票票价) 与 Y=(公园收入) 之间的关系等等。
那么你的数据点在图上可以这么看
现在你想找到 房子大小和房价的关系, 也就是一个函数f(x) = y. 能够很好的表示 这两个变量之间的关系。
于是你需要大概评估一下这个 房子大小和房价大概是一个什么关系.
是线性的关系吗? 还是非线性的关系?
当然在这个问题里面, 线性的关系更符合这两者的关系。于是我们 选择一个合适的 线性模型, 最常用的是 f(x) = ax+b.
然后用这个线性的模型 去 匹配这些数据点。
1.1 怎么匹配?
有了数据点 和 你臆想出来的线性模型,怎么进行匹配,也就是怎么用这根线最好地描述些数据点的关系?
需要最好地描述点, 我们又需要一个关于“好”的定义。你也可以想出很多关于“好”的定义。下面有两个,
这两个定义都是 将模型与数据点之间的距离差 之和做为 衡量匹配好坏的标准。 误差越小, 匹配程度越大。
这个公式,说的是,可以通过调整不同的a 和 b的值,就能使 误差不断变化,而当你找到这个公式的最小值时,你就能得到最好的a,b. 而这对(a,b)就是能最好描述你数据关系的模型参数。
1.1.1 沿导数下降法(Gradient Descent)
怎么找(某一点)碗下降的方向?? 答案是,找那一点导数的反方向。拿参数a 举个例子, a与cost 关系如下图,
只要将任意一个a, 沿着使cost 导数的反方向 慢慢移动,那么 最终有一天a值就会到达使 cost 最小的那一点. 于是你可以不断地移动a,b, 向着最低点前进。
1.1.2 直接求解最小点方法
这时候,有的人会问,为什么要让a不停地往下跑呢? 而且还需要设定学习率, 多麻烦, 直接让找 导数为0点(最小极值), 不就可以了吗? 嗯。。。也可以...但是各有优缺,
具体方法和优劣分析可见Rachel-Zhang 的博客: http://blog.csdn.net/abcjennifer/article/details/7700772
1. 假定一个模型 2. 定义什么叫做最好的匹配(构造误差函数) 3. 用这个模型去匹配已有的数据点(训练集)
- 如果参数(a,b)更多了该怎么办?
- 如果最合适的匹配模型并不是线性的怎么办? --- 选用一个 非线性模型 比如 y = ax^2 + bx + c.
- 如果误差(cost)与a,b(模型参数)的关系不是像碗一样的, 而是凹凸不平的该怎么办? ------ 这时候你就得注意你得到的cost的最低点(局部的最低)可能因初始点的不同而不同。 而这些最低点你需要进行比较,以确定是不是全局的最低
2.分类(Logistic regression)
- 现在是分成两类,如果数据需要分成三类或者更多该怎么办? ---- 假如有A,B,C三类, 把其中A类做为1,BC做为0,然后做Logistic regression, 得到模型a, 同理将B类做为1,AC作为0,得到模型b, 再同理得到模型c. 最后测试的时候, 对任意一个数据点x, 我们能够得到x分别属于A,B,C三类的概率值
最后比较大小,哪个大,这个x就属于哪一类
3.总结(两个问题的区别)
- 如何选取一个 合理的模型(线性的,or 非线性的(e.g. 阶跃函数, 高斯函数)).--模型
- 制造一个"美好"的 误差函数 (可以评估拟合程度,而且还是convex函数)--策略
- 采取一切可能的技术(e.g. 导数下降法,解极值方程法) 求出最好的模型参数--算法(算法中涵盖:1.对策略的实现,2.以及为了达到某种效果(例如,时间减少),而对策略的优化)
转自:
http://blog.csdn.net/abcjennifer/article/details/7716281
http://blog.csdn.net/ppn029012/article/details/8775597
http://blog.csdn.net/u010159842/article/details/46457781
分类和回归的区别和联系相关推荐
- 分类(classification)是认知的基础、分类步骤及主要算法、分类与回归的区别、分类过程
分类(classification)是认知的基础.分类步骤及主要算法.分类与回归的区别.分类过程 目录
- python 线性回归与逻辑回归区别(有监督学习【分类、回归】、无监督学习【聚类、强化学习】、损失函数、梯度下降、学习率、过拟合、欠拟合、正则化)
引用文章1 https://blog.csdn.net/viewcode/article/details/8794401 引用文章2:一.线性回归和逻辑回归 一.什么是机器学习 利用大量的数据样本,使 ...
- 【机器学习小常识】“分类” 与 “回归”的概念及区别详解
目录 1.分类与回归是干嘛的? 2.二者有什么区别 1.输出不同 2.目的不同 3.本质不同 4.结果不同 3.场景应用 1.分类应用 2.回归应用 学过机器学习的人都听过两个概念:分类与回归,特别的 ...
- 机器学习基础:分类vs回归
经常看到这样的问题:"如何计算回归问题的准确度?"像这样的问题反映了没有真正理解分类和回归之间的区别,以及测量的准确度是什么. 这是分类和回归问题之间的一个重要区别.从根本上说,分 ...
- 分类决策树 回归决策树_决策树分类器背后的数学
分类决策树 回归决策树 决策树分类器背后的数学 (Maths behind Decision Tree Classifier) Before we see the python implementat ...
- ml回归_ML中的分类和回归是什么?
ml回归 机器学习教程 (MACHINE LEARNING TUTORIAL) ML is extracting data from knowledge. ML正在从知识中提取数据. Machine ...
- python机器学习案例系列教程——逻辑分类/逻辑回归LR/一般线性回归(softmax回归)
全栈工程师开发手册 (作者:栾鹏) python数据挖掘系列教程 线性函数.线性回归 参考:http://blog.csdn.net/luanpeng825485697/article/details ...
- 一文掌握多分类logistic回归
Logistic回归分析(logit回归)一般可分为3类,分别是二元Logistic回归分析.多分类Logistic回归分析和有序Logistic回归分析.logistic回归分析类型如下所示. Lo ...
- 数据挖掘十大经典算法--CART: 分类与回归树
一.决策树的类型 在数据挖掘中,决策树主要有两种类型: 分类树 的输出是样本的类标. 回归树 的输出是一个实数 (例如房子的价格,病人呆在医院的时间等). 术语分类和回归树 (CART) 包含了上述 ...
最新文章
- 选择最合适的预测性维护传感器
- 漏洞检测,流量和性能监控
- mysql学习-常用的函数(字符串函数)
- mysql relaylog 慢_MySQL 主从同步延迟的原因及解决办法
- Convolutional Neural Networks for Visual Recognition 1
- mysql(待完善)
- 【转】c#数字图像处理(二)彩色图像灰度化,灰度图像二值化
- linux系统sudoers文件夹权限777以及/etc/profile文件修改后无法进入系统问题
- fireFox IE刷新不提示
- python-appium手机自动化测试(仅需安装包)前期准备(pydev-eclipse编辑器)
- AForge.net简介和认识
- 实验三:从整理上理解进程创建、可执行文件的加载和进程执行进程切换,重点理解分析fork、execve和进程切换...
- java中queue的使用
- 简述使用configurations.all统一androidx的版本
- 百度导航引擎初始化失败问题解决
- ppt怎么修改页面布局
- RuntimeError: Address already in use 端口号冲突,解决思路总结
- 推荐系统工程篇之搭建以图搜图服务
- 高质量的外链怎么去挖掘?
- proxy(代理)用法
热门文章
- android 9 patch
- 【数据结构】平衡二叉树
- DataDir and DirectoryFactory in SolrConfig
- 类文件Spring中空值的写法-java教程
- Centos7 安装配置 tomcat 并设置自动启动
- Serverless实战 —— ​​​​​​​Laravel + Serverless Framework 快速创建 CMS 内容管理系统
- 面试官系统精讲Java源码及大厂真题 - 44 场景实战:ThreadLocal 在上下文传值场景下的实践
- Java 8 Features Tutorial – The ULTIMATE Guide
- Kubernetes入门指南
- CentOS 7安装TigerVNC Server