机器学习与统计建模 —— 差异和联系
相同点
1、相同的目标:从数据中学习,核心都是探讨如何从数据中提取人们需要的信息或规律。
2、相同含义的常见术语:
不同点
1、不同的学派:
- 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。
- 统计建模(Statistical modeling)则完全是数学的分支,以概率论为基础,采用数学统计方法建立模型。
机器学习更多地强调优化和性能,而统计学则更注重推导。
2、不同的数据量:
- 机器学习应用广泛。 在线学习工具可飞速处理数据。这些机器学习工具可学习数以亿计的观测样本,预测和学习同步进行。一些算法如随机森林和梯度助推在处理大数据时速度很快。机器学习处理数据的广度和深度很大。
- 统计模型一般应用在较小的数据量和较窄的数据属性上。
3、不同的数据分析方式:
机器学习本质上是一种算法,这种算法由数据分析习得,而且不依赖于规则导向的程序设计;
统计建模则是以数据为基础,利用数学方程式来探究变量变化规律的一套规范化流程。
总结来说,机器学习的关键词是预测、监督学习和非监督学习等。而数理统计是关于抽样、统计和假设检验的科学。
4、不同的数据使用方式:
机器学习并不需要对有关变量之间的潜在关系提出先验假设。研究人员只需要将所有的可用数据导入模型,等待算法的分析并输出其中的潜在规律,然后将这一规律应用于新数据进行预测就可以了。对于研究人员来说,机器学习就像一个黑盒子,你只需要会用,但并不清楚其中的具体实现。机器学习通常应用于高维度的数据集,你的可用数据越多,预测通常就越准确。
相比之下,统计学则必须了解数据的收集方式,估计量(包括p值和无偏估计)的统计特征,被研究人群的潜在分布规律,以及多次试验的期望参数的类型。研究人员需要非常清楚自己在做什么,并提出具有预测能力的参数。而且统计建模通常用于较低维度的数据集。
5、不同的着重点:
机器学习着重于探索数据所展现的关系和结构,更关心模型的预测能力,即更注重模型的优化和性能。
统计建模着重于评估小样本数据中所体现的关系和结构在总体中推广,更关心模型的可解释性,即更注重模型的推导。
关于这一点,我们或许可以从下面这两段分别来自统计学家和机器学习研究人员针对同一数据模型的描述上得到更深的体会。
机器学习研究人员:在给定 a、b 和 c 的前提下,该模型准确预测出结果 Y 的概率达到了 85%。
统计学家:在给定 a、b 和 c 的前提下,该模型准确预测出结果 Y 的概率达到了 85%;而且我有九成的把握你也会得到与此相同的结论。
6、不同的数据生成方式:
统计建模认为,数据由某个概率模型生成。统计的目标是找出对应的概率模型
因变量(Y)=f(自变量)+扰动函数因变量(Y)=f(自变量)+扰动函数因变量(Y)=f(自变量)+ 扰动函数
统计建模最基本的目标是回答一个问题:哪一种概率模型可以产生我所观察到的数据?因此你必须:
- 从一个合理的模型群里挑出候选模型
- 预估未知变量(参数,拟合模型到数据中)
- 比较拟合模型与其他备选模型
机器学习认为,数据是特征集到Label集的特征映射X→YX→YX→Y所生成的。机器学习的目标是恢复特征映射。
输出(Y)→输入(X)输出(Y)→输入(X)输出(Y)→输入(X)
结论
总结来说,我们可以认为机器学习和统计建模是预测建模领域的两个不同分支。这两者之间的差距在过去的 10 年中正在不断缩小,而且它们之间存在许多相互学习和借鉴的地方。未来,它们之间的联系将会更加紧密。
对开发者而言,充分了解机器学习和统计建模之间的差异和联系,将有助于他们扩大自己的知识面,甚至将专业领域之外的分析方法引入研发流程之中。这一点也正是数据科学(data science)本身的核心理念,即弥合机器学习和统计建模之间的区别,让二者逐渐趋于归一化。最后需要肯定的是,这两门以数据驱动的学科之间的协作和交流越频繁,我们的生活就会变得越好。
机器学习与统计建模 —— 差异和联系相关推荐
- 机器学习与统计建模 —— 归一化和标准化
归一化(Min-Max Normalization) 特点 1.对不同特征维度进行伸缩变换 2.改变原始数据的分布.使各个特征维度对目标函数的影响权重是一致的(即使得那些扁平分布的数据伸缩变换成类圆形 ...
- 机器学习、数据挖掘、统计建模的技术担当,20款免费预测分析软件
本文推荐一些免费的预测分析软件,它们主要用于分析统计使用,机器学习和数据挖掘来寻找关于客户行为,市场趋势和原始数据集中其他领域的线索的相关性和模式.其中一些预测建模解决方案可通过许可,免费获得开源或社 ...
- 你真的了解机器学习、人工智能、统计建模吗?
2019独角兽企业重金招聘Python工程师标准>>> 一.机器学习 机器学习是以数据为基础,它专注于为回归和分类算法.其底层随机机制往往是次要的.不被重视的.当然,许多机器学习技术 ...
- SLS机器学习介绍(01):时序统计建模
文章系列链接 SLS机器学习介绍(01):时序统计建模 SLS机器学习介绍(02):时序聚类建模 SLS机器学习介绍(03):时序异常检测建模 SLS机器学习介绍(04):规则模式挖掘 SLS机器学习 ...
- 统计建模-多元线性回归预测房价
简单聊聊统计建模中,使用多元线性回归模型来预测房价. 文章目录 变量描述: (1)读取数据 (2)单变量描述 (3)自变量对因变量的影响分析 (4)检验变量重要性 (5)筛选出重要变量建模 (6)模型 ...
- 统计建模--学习笔记1
注:参考视频教程---网易云课堂<统计建模轻松入门>张文彤 传统模型: , y:因变量 : x:自变量 : :未知参数: :扰动函数. 其中,第一个加项是自变量对因变量的影响,反映出 ...
- [统计]_怎样用数据炒菜:统计建模的两种文化
这是之前发在个人公众号上的文章,希望能对读者有帮助. 现在我们经常能听到一个概念叫做"大数据",顾名思义,那就是海量的数据,如果再说大一点,那就是天量的数据,但是光有数据也不行,我 ...
- 统计建模:数据分析基础
本文为学习黄晓林老师开设的慕课<探索数据的奥秘>所作笔记 数据科学简介 现时代科学范式正在转变,继实验.理论与计算之后,数据科学已成为人类探索世界的第四科学范式.工业界对数据科学的关注在应 ...
- 数据挖掘,机器学习,统计学习的区别与联系
这三个领域或学科交叉和重叠部分很多,数据挖掘,机器学习和统计学习的概念一直有或多或少的混淆,希望同样有我这样的困惑的朋友读完下面的文字能够清晰一些. 数据库提供数据管理技术,机器学习和统计学提供数据分 ...
最新文章
- CoordinatorLayout 之深入理解
- input禁止后怎么实现复制功能_(变强、变秃)Java从零开始之JQuery购物车功能实操...
- 坑系列 —— 缓存+哈希=高并发?
- [转载]读史记札记23:并不是每次跌倒都能够重新站起来
- 【opencv】丁达尔效应
- led流水灯——51单片机程序
- Python中re.sub()实现替换文本字符串
- 实现Unicode和汉字的相互转换
- help.hybris.com和help.sap.com网站的搜索实现
- 后端拼接html能做判断吗,怎么判断是前端bug还是后端bug?
- ajax传图片的方法
- Java可变参数的使用
- 修改SRVINSTW支持sys文件
- Maven镜像(mirror)
- GNSS模拟器助力控制器硬件在环仿真测试
- 计算机usb端口没反应,解决电脑USB接口没反应的小方法
- Anaconda的升级与卸载
- Bootstrap 字体图标和自定义矢量图标
- 程序员如何在业余时间接单月入过万
- (智力题)一个屋子有一个门(门是关闭的)和3盏电灯。屋外有3个开关,分别与这3盏灯相连。确定每个开关具体管哪盏灯?