摘要: 本文总结了一些针对于回归问题的机器学习方法,辩证地分析了其各自的优缺点,读者可以根据具体问题选择合适的机器学习算法以完成相应的任务。

当遇到任何类型的机器学习(ML)问题时,可能会有许多不同的算法可供你选择。但是在机器学习中,有一个“没有免费午餐”的定理,该定理表明,基本上没有一种机器学习算法能够对所有问题而言是最合适的。不同机器学习算法的性能很大程度上取决于数据的大小和结构。因此,除非我们直接通过一次次实验和错误来测试我们采取的算法,否则,如何选择正确的算法通常仍然是不清楚的。
       事物总有两面性,每种机器算法也会有一些优点和缺点,我们可以根据其优点和缺点作为选择合适算法的一种指导。虽然一种具体的算法并不总是优于另外一种算法,但我们可以根据每种算法本身具有的一些属性作为快速选择正确算法和调整超参数的指南。本文将分析一些针对回归问题的典型机器算法,并根据其优势和劣势制定何时使用它们的规则。看完这篇文章,应该可以帮助你为回归问题选择出最佳的机器算法!

线性和多项式回归


线性回归

从简单的情况开始讲解,单变量线性回归是一种技术,用于使用线性模型对单个输入自变量(特征变量)和输出因变量之间的关系进行建模。更一般的情况是多变量线性回归,其中为多个独立输入变量(特征变量)和输出因变量之间的关系构建模型。该模型保持线性,因为输出是输入变量的线性组合。
       存在第三种最常见的情况被称为多项式回归,其中模型变为特征变量的非线性组合,即等式中可以存在指数变量、正弦项和余弦项等。然而,这种情况需要知道数据如何与输出相关,可以使用随机梯度下降(SGD)算法训练回归模型。

优点

  • 能够快速建模,且当要建模的关系不是非常复杂并且没有大量数据时,该方法特别有用。
  • 线性回归很容易被理解,这对于业务决策而言显得非常有价值。

缺点

  • 对于非线性数据,多项式回归在设计时可能非常具有挑战性,因为必须具有关于数据结构和特征变量之间关系的一些信息。
  • 由于上述原因,当涉及高度复杂的数据时,这类模型不如其它模型好。

神经网络


神经网络

神经网络由一组称为神经元的节点相互连接组成。来自数据的输入特征变量作为多变量线性组合传递给这些神经元,其中乘以每个特征变量的值称为权重。然后将非线性应用于该线性组合,这给予神经网络模拟复杂非线性关系的能力。神经网络可以具有多层结构,每一层的输出出以相同的方式传递给下一层。在最后的一层,即输出端,通常不应用非线性。一般使用随机梯度下降(SGD)和反向传播算法训练神经网络模型(如上图所示)。

优点

  • 由于神经网络可以有许多具有非线性的隐藏层,因此它们对于高度复杂的非线性关系建模方面非常有效。
  • 通常, 我们不必担心神经网络中的数据结构,该方法在对任何类型特征变量关系学习时都非常灵活。
           研究表明,简单地为网络提供更多的训练数据,无论是全新的数据,还是增加原始数据集,都有利于提升网络的性能。

缺点

  • 由于这类模型的复杂性,它们不易于解释和理解。
  • 它们在训练时可能具有一定的挑战性,且对计算性能有一定的要求,需要仔细的调整超参数和学习速率的设置。
  • 神经网络方法一般需要大量数据才能获得高的性能,并且在“小数据”情况下通常优于其他的机器算法。

回归树和随机森林


随机森林

从基本情况开始说起,决策树是一种直观的模型,遍历树的分支,并根据节点的决定来选择下一个分支。树形导入是将一组训练实例作为输入,决定哪些属性是最佳分割,分割数据集以及在生成的分割数据集上重复操作,直到所有训练实例都被分类务。在构建决策树时,目标是分割创建最纯子节点的属性,这将使我们的数据集中的所有实例分类所需的分割数量保持最小。纯度是通过信息增益的概念来衡量的,信息增益的概念与先前看不见的实例需要了解多少以便对其进行适当分类有关。在实践中,一般是通过比较熵,或者如果要在给定属性上进一步对当前数据集分区进行分区,则对单个实例进行分类的信息量。
       随机森林只是决策树的集合,输入向量通过多个决策树运行。对于回归问题,所有树的输出值是取的平均值;对于分类问题,投票方案用于确定最终类别。

优点:

  • 擅长学习复杂、高度非线性的关系。通常可以实现相当高的性能,优于多项式回归,并且性能通常与神经网络相当。
  • 很容易被理解和理解。虽然最终训练的模型可以学习到复杂的关系,但是在训练期间建立的决策边界很容易理解。

缺点:

  • 由于在决策树训练时,可能很容易出现严重的过度拟合现象。完整的决策树模型可能过于复杂并且包含不必要的结构,这种情况下有时可以通过适当的树枝修剪和更大的随机森林集合来缓解。
  • 使用较大的随机森林集合来实现更高的性能,这会使得训练过程耗时长,且需要更多的内存。

结论

本文总结了一些针对于回归问题的机器学习方法,辩证地分析了其各自的优缺点。可以根据具体问题选择合适的机器学习算法以完成相应的任务。

原文链接

本文为云栖社区原创内容,未经允许不得转载。

一份关于如何为回归任务选择机器学习算法指南相关推荐

  1. Machine Learning:如何选择机器学习算法?

    2019独角兽企业重金招聘Python工程师标准>>> Machine Learning Algorithms Overview 关于目前最流行的一些机器学习算法,建议阅读: Mac ...

  2. 初学大数据之如何选择机器学习算法

    最近在国外网站看到一篇不错的文章,所以就翻译过来给大家分享一下.主要介绍初学者怎么选择机器学习算法,希望对各位初学者有帮助. 原文如下: 一个初学者面临各种机器学习算法的典型问题是"我应该使 ...

  3. 一张图教你如何选择机器学习算法

    如何选择合适的机器学习算法? 根据你的业务场景,可以从下面这张微软提供的图清单的问题出发:1 从文本中提取信息任务:文本分析算法,如N-Gram语言模型.特征哈希.文本预处理.Word2Vec等. 预 ...

  4. 如何为你的回归问题选择最合适的机器学习算法?

    当我们要解决任意一种机器学习问题时,都需要选择合适的算法.在机器学习中存在一种"没有免费的午餐"定律,即没有一款机器学习模型可以解决所有问题.不同的机器学习算法表现取决于数据的大小 ...

  5. 哪个才是解决回归问题的最佳算法?线性回归、神经网络还是随机森林?

    编译 | AI科技大本营 参与 | 王珂凝 编辑 | 明 明 [AI科技大本营导读]现在,不管想解决什么类型的机器学习(ML)问题,都会有各种不同的算法可以供你选择.尽管在一定程度上,一种算法并不能总 ...

  6. 教程 | 算法太多挑花眼?教你如何选择正确的机器学习算法

    选自Hackernoon 作者:Rajat Harlalka 机器之心编译 机器学习算法虽多,却没有什么普适的解决方案.决策树.随机森林.朴素贝叶斯.深度网络等等等等,是不是有时候觉得挑花了眼呢?福利 ...

  7. 算法太多挑花眼?教你如何选择正确的机器学习算法

    选自Hackernoon,作者:Rajat Harlalka,机器之心编译. 机器学习算法虽多,却没有什么普适的解决方案.决策树.随机森林.朴素贝叶斯.深度网络等等等等,是不是有时候觉得挑花了眼呢?福 ...

  8. 如何选择最佳机器学习算法?

    讲完随机森林算法之后,小冰开口问道 :"咖哥,上面的这几种经典算法,你讲得简明扼要,感觉都挺好.不过,现在的问题来了,算法一多,我反而不知道如何选择了.你能不能给我们说说,什么样的算法适合解 ...

  9. 残差平方和ssr的计算公式为_如何为你的回归问题选择最合适的机器学习方法?...

    文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 转自 | AI算法之心(公众号ID:AIHeartForYou) 作者 | 何从庆 什么是回归呢?回归 ...

最新文章

  1. 高速跟踪--High-Speed Tracking-by-Detection Without Using Image Information
  2. [How TO]-python venv虚拟环境
  3. 2018 “神策杯”高校算法大师赛 6 强诞生,【招人】进行时……
  4. iview select 怎么清空_如何解决iview 的select下拉框选项错位的问题,具体操作如下...
  5. WinDbg+Rotor解析WinForm调用堆栈及实现
  6. 1006: 组合的输出(dfs的一种用法)(与排列类似)
  7. 信息编码:字符串和文本
  8. 2022牛客寒假算法基础集训营2 签到题7题
  9. 牛逼!9种不同的方法帮助你提高国内访问Github的速度到2MB/s以上...
  10. python基础篇--从零开始(下)
  11. android网易云音乐api接口,网易云音乐API分析
  12. Python压缩图片到指定大小
  13. 车间图纸管理软件-车间无纸化管理解决方案
  14. android excel加图片,安卓和iOS版的Excel现在可以拍摄图片上的表格转为电子表格
  15. 影视解说短视频如何吸引粉丝?三个要点助你吸粉引流
  16. 分享scratch转exe可执行文件scratch2exe-ch-se
  17. 中国的铁路订票系统在世界上属于什么水平?
  18. Debian10修改静态ip
  19. 处理ios软键盘弹起和收起时页面滚动问题
  20. 可变气门升程的全球与中国市场2022-2028年:技术、参与者、趋势、市场规模及占有率研究报告

热门文章

  1. python字典会自动排序_python中字典不自动排序的用法
  2. oracle数据库全数据库名,Oracle数据库中的 数据库域名、数据库名、全局数据库名、SID、数据库实例名、服务名 解释...
  3. mysql约束_Mysql约束条件
  4. php注册树模式,php设计模式-注册树模式
  5. hp服务器raid一直显示同步,HP Netserver NetRAID 一致性检查常见问题解答(FAQ)
  6. 与context的关系_你还不知道 OpenGL ES 和 EGL 的关系?
  7. php artisan 计划任务,Laravel 定时任务 任务调度 可手动执行
  8. 成果堪称“诺奖”一夜成名却无法复现的韩春雨,再发高分文章
  9. 中国500多名理工科研究生被美国拒签!美国「制裁清单」影响开始深入校园!...
  10. 颜宁:给实验室博士的一些忠告