经常看到这样的问题:“如何计算回归问题的准确度?”像这样的问题反映了没有真正理解分类和回归之间的区别,以及测量的准确度是什么。

这是分类和回归问题之间的一个重要区别。从根本上说,分类就是预测一个标签,而回归则是预测一个数量。

在本文中,你将发现分类和回归之间的区别。

看完文章后,你将会知道:

  • 预测模型是关于从输入到输出学习映射函数的问题,称为函数逼近。
  • 分类是预测离散类标签输出的问题。
  • 回归是预测连续数量输出的问题。

让我们开始吧。

文章概述

本文分为5部分,它们是:

  1. 函数逼近
  2. 分类
  3. 回归
  4. 分类与回归
  5. 分类与回归问题之间的转换

函数逼近

预测建模是用历史数据来建立一个模型来预测新数据,针对我们没有答案的问题。

有关预测建模的更多信息,请参见:

  • 简要介绍预测建模

预测建模可以描述为从输入变量(x)到输出变量(y)逼近映射函数(f)的数学问题。这称为函数逼近问题。

建模算法的工作是在我们可以提供可用的时间和资源的情况下,找到最好的映射函数。

有关应用机器学习中的逼近函数的更多信息,请参见:

  • 机器学习算法如何工作

一般来说,我们可以把所有函数逼近任务划分为分类任务和回归任务。

分类预测模型

分类预测建模是将映射函数(f)从输入变量(x)逼近到离散输出变量(y)的任务。

输出变量通常称为标签或类别。映射函数预测给定观测值的类或类别。

例如,文本电子邮件可以分为两类:“垃圾邮件”和“非垃圾邮件”。

  • 分类问题要求将实例分为两个或多个类中的一个。
  • 分类可以有实值或离散的输入变量。
  • 两类问题通常被称为二类或二元分类问题。
  • 多于两个类别的问题通常被称为多类别分类问题。
  • 一个例子被指派多个类的问题被称为多标签分类问题。

分类模型通常将连续值预测为属于每个输出类别的给定示例的概率。 概率可以被解释为属于每个类别的给定例子的可能性或置信度。 可以通过选择具有最高概率的类别标签将预测概率转换为类别值。

例如,特定的文本电子邮件可能被指定为“垃圾邮件”的概率为0.1,“非垃圾邮件”的概率为0.9。 通过选择“非垃圾邮件”标签,我们可以将这些概率转换为类标签,因为它具有最高的预测可能性。

评估分类预测模型的技巧有很多种方法,但最常见的方法是计算分类准确度。

分类准确率是所有预测中正确分类的百分比。

例如,如果一个分类预测模型做了5个预测,其中3个是正确的,2个是不正确的,那么基于这些预测的模型的分类准确性将是:

accuracy = correct predictions / total predictions * 100accuracy = 3 / 5 * 100accuracy = 60%

能够学习分类预测模型的算法被称为分类算法。

回归预测建模

回归预测建模是将输入变量(X)映射到连续输出变量(y)的映射函数(f)的任务。

连续输出变量是一个实数值,例如整数或浮点值。 这些往往是数量,如金额和大小。

例如,一所房子可能会以特定的美元价值出售,可能在$ 100,000到$ 200,000的范围内。

  • 回归问题需要预测数量。
  • 回归可以具有实值或离散的输入变量。
  • 多输入变量的问题通常称为多元回归问题。
  • 输入变量按时间排序的回归问题称为时间序列预测问题。

由于回归预测模型预测一个数量,所以该模型的技巧必须作为这些预测中的一个误差来报告。

估计回归预测模型的技巧有许多方法,但最常见的可能是计算均方根误差,缩写为首字母缩略词是RMSE。

例如,如果一个回归预测模型做了2个预测,其中1.5的期望值是1.0,另一个是3.3,期望值是3.0,那么RMSE是:

RMSE = sqrt(average(error^2))RMSE = sqrt(((1.0 - 1.5)^2 + (3.0 - 3.3)^2) / 2)RMSE = sqrt((0.25 + 0.09) / 2)RMSE = sqrt(0.17)RMSE = 0.412

RMSE的一个优点是错误分数的单位与预测值的单位相同。

能够学习回归预测模型的算法被称为回归算法。

一些算法的名称中包含“回归”这个词,如线性回归和逻辑回归,因为线性回归是一种回归算法,而逻辑回归是一种分类算法,这令人感到困惑。

分类与回归

分类预测建模问题不同于回归预测建模问题。

  • 分类是预测离散类标签的任务。
  • 回归是预测连续数量的任务。

分类和回归算法之间有一些重叠,例如:

  • 分类算法可以预测连续值,但是连续值是以类标签的概率的形式。
  • 回归算法可以预测离散值,但离散值以整数形式表示。

一些算法可用于分类和回归的小修改,例如决策树和人工神经网络。有些算法不能或不能很容易地用于这两种问题类型,例如用于回归预测建模的线性回归和用于分类预测建模的逻辑回归。

重要的是,我们评估分类和回归预测的方法各不相同,也不重叠:

  • 分类预测可以使用准确性进行评估,而回归预测则不能。
  • 回归预测可以使用均方根误差进行评估,而分类预测则不能。

分类和回归问题之间的转换

在某些情况下,将回归问题转换为分类问题是可能的。例如,要预测的数量可以转换成离散的量。

例如,连续0至100美元之间的金额可以转换成2个量:

  • 第0类:0至49美元
  • 第1类:50至100美元

这通常被称为离散化,产生的输出变量是一种分类,其中标签有一个有序的关系(称为序数)。

在某些情况下,分类问题可以转化为回归问题。 例如,标签可以被转换成连续的范围。

有些算法通过预测每一个类的概率,从而依次缩放到特定的范围:

quantity = min + probability * range

另外,可以将类值排序并映射到连续范围:

  • 0到49美元为第1类
  • 50到100美元为第二类

如果分类问题中的类别标签不具有自然的序数关系,则从分类到回归的转换可能会导致令人惊讶或糟糕的性能,因为该模型可能会从输入到连续输出范围学习错误或不存在的映射。

进一步的阅读

如果你想深入了解,本节将提供更多有关该主题的资源。

  • 简要介绍预测建模
  • 机器学习算法如何工作

总结

在本教程中,你了解了分类和回归问题之间的区别。

具体来说,你了解到:

  • 预测建模是关于从输入到输出学习映射函数的问题,称为函数逼近。
  • 分类是预测离散类标签输出的问题。
  • 回归是预测连续数量输出的问题。
作者信息

Dr. Jason Brownlee 是一名机器学习从业者,学术研究人员,致力于帮助开发人员从入门到精通机器学习。

本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。

文章原标题《Difference Between Classification and Regression in Machine Learning》

作者:Dr.Jason Brownlee 译者:董昭男 审核:海棠

文章为简译,更为详细内容,请查看原文

机器学习基础:分类vs回归相关推荐

  1. 【机器学习基础】逻辑回归 + GBDT模型融合实战!

    作者:吴忠强,东北大学,Datawhale成员 一.GBDT+LR简介 协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品相互行为信息进行推荐, 忽视了用户自身特征, 物品自身特征以及上下文信息等,导 ...

  2. 机器学习中二分类逻辑回归的学习笔记

    1 致谢 感谢 Andrew Ng的教导! 2 前言 逻辑回归是机器学习中很重要而且很基础的算法,它也代表了分类算法最基本的思想. 3 二分类逻辑回归逻辑回归算法 3.1 假设函数 假设函数的形式为: ...

  3. 机器学习的分类、回归、聚类问题

    分类.回归问题都是监督学习,本质都是对输入做出预测,都要建立映射关系.分类问题输出的是物体所属的类别(瓜是好瓜吗),回归问题输出的是数值(瓜会卖到多少钱).聚类是无监督学习 一.分类问题 分类问题输出 ...

  4. 机器学习:分类,回归,聚类

    https://blog.csdn.net/qq_38462321/article/details/81777402 分类: 分类方法是一种对离散型随机变量建模或预测的监督学习算法.使用案例包括邮件过 ...

  5. 机器学习学习吴恩达逻辑回归_机器学习基础:逻辑回归

    机器学习学习吴恩达逻辑回归 In the previous stories, I had given an explanation of the program for implementation ...

  6. 机器学习基础——分类算法之决策树、随机森林、Titanic乘客生存分类

    目录 1 认识决策树 1.1 信息增益.信息熵的计算 1.2 举例计算​编辑 1.3 决策树的分类依据 1.4 sklearn决策树API 2 泰坦尼克号乘客生存分类 2.1 案例背景 2.2  数据 ...

  7. 机器学习之分类、回归、标注问题

    机器学习的目的是为了解决实际问题.我们将实际问题分为三类:分类问题.回归问题.标注问题. 本文尽量以我的通俗语言描述: 1.分类问题 在机器学习算法中,很大一部分问题是分类问题,比如文本分类.图片分类 ...

  8. 机器学习:分类、回归、决策树

    分类:具有明确的类别         如:去银行借钱,会有借或者不借的两种类别 回归:不具有明确的类别和数值         如:去银行借钱,预测银行会借给我多少钱,如:1~100000之间的一个数值 ...

  9. 机器学习中分类和回归模型的评价指标

    分类算法的效果评估 1,准确率accuracy_score from sklearn.metrics import accuracy_score 2,精确率/查准率precision_score fr ...

  10. 机器学习基础 LR学习

    1 LR是什么? LR全称Logistic Regression,逻辑回归.虽然名称中带有回归.逻辑回归,可以做分类的事情,也可以做回归的事情. 通常来讲,机器学习分为分类和回归两种模型,分类做的是离 ...

最新文章

  1. C# 多网卡 Server Listen
  2. 它来了!ROS2从入门到精通:理论与实战
  3. smarty中section的使用
  4. json 查询 java_怎样在java中查询mysql得到如下的json格式的结果?
  5. 深度学习《CNN架构》
  6. apache 反向代理_通过 Apache 与 Nginx 配置 AJP 配置反向代理
  7. PowerEdge r730xd 安装centos 6.7
  8. K8S 通过 yaml 文件创建资源
  9. 25.XSS跨站原理分类和攻击手法
  10. 写给小白的网站优化初步全过程
  11. 2013年国家自然科学基金经费统计
  12. WebVirtMgr + KVM 环境中的 Linux 虚拟机部署
  13. Codeforces 1342E Placing Rooks(容斥+组合数学)
  14. 渔港股份创业板IPO上会被否:审核被终止,曾计划募资3.3亿元
  15. 二十六篇,Linux库文件(动态库和静态库)的制作。
  16. git在idea中的冲突解决(非常重要)
  17. php 查询功能,php实现查询功能(数据访问)
  18. 一文彻底搞懂MySQL基础:B树和B+树的区别
  19. librosa与python_speech_features
  20. Android 文件打开方式

热门文章

  1. 一张图片学Python
  2. 使用oauth2.0自动获取用户信息
  3. C 链表(单链表的操作)
  4. mybatis控制台打印执行的sql语句
  5. salesforce零基础学习(八十九)使用 input type=file 以及RemoteAction方式上传附件
  6. HihoCoder - 1558
  7. JSP-05- JSP总结
  8. ini_set(display_errors,On);和error_reporting(E_ALL);
  9. .NET和Android解压缩处理
  10. 解决vs新建项目是模板丢失的问题