你真的了解机器学习、人工智能、统计建模吗？

2019独角兽企业重金招聘Python工程师标准>>>

一、机器学习

机器学习是以数据为基础，它专注于为回归和分类算法。其底层随机机制往往是次要的、不被重视的。当然，许多机器学习技术也可以通过随机模型和回归计算来定义，但数据并不是由模型生成的。相反，机器学习主要是为了辨识出运行某个特定任务的算法或技术（或者是二者兼有）：顾客最好由k-Means聚类，或者是DBSCAN、决策树、随机森林，还是支持向量机？

简而言之，对统计学家来说，模型是首要的，对机器学习专家来说，数据才是排在第一位的。因为机器学习强调的是数据，而不是模型。把数据分离成训练和测试组的验证技术是非常重要的。一个解决方案的优劣不在于p值，而在于证明这个解决方案在以前看不到的数据方面预测良好。把一个统计模型和一套数据匹配，或者为一套数据训练决策树，就需要评估未知量。决策树的最佳分割点，是由预估参数数据决定的，而预估参数是由从属变量的条件分布决定的。

没有一种技术能够自称会学习。训练才是塑造某物的必经之路。学习，从另一方面来讲，就暗示着获得新的技能，而训练是学习的一部分。通过训练一个深度神经网络，也就是说，通过输入数据设定好它的砝码和偏向，它就学会了分类，这个神经网络就变成了一个分类器。

二、深度学习

当一个机器学习系统不是去通过编程是实现某一项功能，而是通过编程去学习一项能力，这就是一个真的学习系统，被指定去学习完成某项任务的，称之为深度学习。深度学习也是一种数据驱动型的实践。跟机器学习不同的是，深度学习不依赖于强悍的算法技术。几乎所有这种形式的机器学习应用，多是以深度神经网络为基础的。

深度学习被频繁应用于各种弱人工智能应用，在这些领域，机器会去做人类的工作。

三、分布式计算

分布式计算简单来说，是把一个大计算任务拆分成多个小计算任务分布到若干台机器上去计算，然后再进行结果汇总。目的在于分析计算海量的数据，从雷达监测的海量历史信号中分析异常信号(外星文明)，淘宝双十一实时计算各地区的消费习惯等。

海量计算最开始的方案是提高单机计算性能，如大型机，后来由于数据的爆发式增长、单机性能却跟不上，才有分布式计算这种妥协方案。因为计算一旦拆分，问题会变得非常复杂，像一致性、数据完整、通信、容灾、任务调度等问题也都来了。

举个例子，产品要求从数据库中100G的用户购买数据，分析出各地域的消费习惯金额等。如果没什么时间要求，程序员小明就写个对应的业务处理服务程序，部署到服务器上，让它慢慢跑就是了，小明预计10个小时能处理完。后面产品嫌太慢，让小明想办法加快到3个小时。

平常开发中类似的需求也很多，总结出来就是，数据量大、单机计算慢。如果上Hadoop、storm之类成本较高、而且有点大才小用。当然让老板买更好的服务器配置也是一种办法。

四、统计建模

统计建模其实就是解决“哪一种概率模型可以产生我所观察到的数据？”这个问题，所以你可以这样做：首先从众多合理的模型中挑选出候选模型，然后评估它的未知量，再比较你所拟合出来的模型跟其他候选模型的最优化程度。

举例来说，如果你的数据代表了总数，比如这个数字代表了客人感到反胃的数量，或者细胞分裂的数量，那么泊松模型(Poisson)、负二项模型或者零膨胀模型(zero-inflated model)都有可能是适用的。

一旦选择了一个统计模型，那预估模型就会被用作调查的设备：测试假说，创建预测值和测量置信度。预估模型就会成为我们解读数据的棱镜。我们从来没有声称所选模型生成的数据，但会把它当做一个在随机的过程中合理的近似，然后再基于它去验证推论。

验证推理是统计建模中一个重要的方面。举例来说，如果要在三个可能的医疗设备中，决定哪个对病人最有益，你就会对这样的模型感兴趣：它能捕捉病人使用什么样的途径治疗是明显有效果的。总是这样，那些能很好地捕捉数据生成途径的模型，同时也是在观测数据范围内最好地做出预测的模型，或许它还能预测出新的观测结果。

在统计建模中，数据指引人们到一个随机模型的可挑选范围里，它就相当于是抽象的利益问题的概率表达，实现预测的功能和对某些事物的前瞻判断。

更多大数据与分析相关行业资讯、解决方案、案例、教程等请点击查看>>>

转载于:https://my.oschina.net/zhujian111/blog/813033

你真的了解机器学习、人工智能、统计建模吗？相关推荐

机器学习与统计建模 —— 差异和联系
相同点 1.相同的目标:从数据中学习,核心都是探讨如何从数据中提取人们需要的信息或规律. 2.相同含义的常见术语: 不同点 1.不同的学派: 机器学习(Machine Learning, ML)是一门 ...
机器学习与统计建模 —— 归一化和标准化
归一化(Min-Max Normalization) 特点 1.对不同特征维度进行伸缩变换 2.改变原始数据的分布.使各个特征维度对目标函数的影响权重是一致的(即使得那些扁平分布的数据伸缩变换成类圆形 ...
机器学习、数据挖掘、统计建模的技术担当，20款免费预测分析软件
本文推荐一些免费的预测分析软件,它们主要用于分析统计使用,机器学习和数据挖掘来寻找关于客户行为,市场趋势和原始数据集中其他领域的线索的相关性和模式.其中一些预测建模解决方案可通过许可,免费获得开源或社 ...
SLS机器学习介绍（01）：时序统计建模
文章系列链接 SLS机器学习介绍(01):时序统计建模 SLS机器学习介绍(02):时序聚类建模 SLS机器学习介绍(03):时序异常检测建模 SLS机器学习介绍(04):规则模式挖掘 SLS机器学习 ...
10个机器学习人工智能开发框架和AI库（优缺点对比表）/贪心学院
概述通过本文我们来一起看一些用于人工智能的高质量AI库,它们的优点和缺点,以及它们的一些特点. 人工智能(AI)已经存在很长时间了.然而,由于这一领域的巨大进步,近年来它已成为一个流行语.人工智能曾 ...
[统计]_怎样用数据炒菜：统计建模的两种文化
这是之前发在个人公众号上的文章,希望能对读者有帮助. 现在我们经常能听到一个概念叫做"大数据",顾名思义,那就是海量的数据,如果再说大一点,那就是天量的数据,但是光有数据也不行,我 ...
第十七期:2019人工智能统计数字和一些重要事实
人工智能(AI)每天在以惊人的速度发展.这项技术在2018年已经取得了巨大的成功,简化医疗保健业的工作流程,降低制造业的间接费用,并减少教育业的行政工作量.现在是2019年,每天似乎都有一家新的AI初 ...
统计建模-多元线性回归预测房价
简单聊聊统计建模中,使用多元线性回归模型来预测房价. 文章目录变量描述: (1)读取数据 (2)单变量描述 (3)自变量对因变量的影响分析 (4)检验变量重要性 (5)筛选出重要变量建模 (6)模型 ...
统计建模--学习笔记1
注:参考视频教程---网易云课堂<统计建模轻松入门>张文彤传统模型: , y:因变量 : x:自变量 : :未知参数: :扰动函数. 其中,第一个加项是自变量对因变量的影响,反映出 ...

你真的了解机器学习、人工智能、统计建模吗？

你真的了解机器学习、人工智能、统计建模吗？相关推荐

最新文章

热门文章