点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

本文转自|机器学习算法那些事

本文讲述了数据分析师应当了解的五个统计基本概念:统计特征、概率分布、降维、过采样/欠采样、贝叶斯统计方法。

从高的角度来看,统计学是一种利用数学理论来进行数据分析的技术。象柱状图这种基本的可视化形式,会给你更加全面的信息。但是,通过统计学我们可以以更富有信息驱动力和针对性的方式对数据进行操作。所涉及的数学理论帮助我们形成数据的具体结论,而不仅仅是猜测。

利用统计学,我们可以更深入、更细致地观察数据是如何进行精确组织的,并且基于这种组织结构,如何能够以最佳的形式来应用其它相关的技术以获取更多的信息。今天,我们来看看数据分析师需要掌握的5个基本的统计学概念,以及如何有效地进行应用。

01

特征统计

特征统计可能是数据科学中最常用的统计学概念。它是你在研究数据集时经常使用的统计技术,包括偏差、方差、平均值、中位数、百分数等等。理解特征统计并且在代码中实现都是非常容易的。请看下图:

上图中,中间的直线表示数据的中位数。中位数用在平均值上,因为它对异常值更具有鲁棒性。第一个四分位数本质上是第二十五百分位数,即数据中的25%要低于该值。第三个四分位数是第七十五百分位数,即数据中的75%要低于该值。而最大值和最小值表示该数据范围的上下两端。

箱形图很好地说明了基本统计特征的作用:

  • 当箱形图很短时,就意味着很多数据点是相似的,因为很多值是在一个很小的范围内分布;

  • 当箱形图较高时,就意味着大部分的数据点之间的差异很大,因为这些值分布的很广;

  • 如果中位数接近了底部,那么大部分的数据具有较低的值。如果中位数比较接近顶部,那么大多数的数据具有更高的值。基本上,如果中位线不在框的中间,那么就表明了是偏斜数据;

  • 如果框上下两边的线很长表示数据具有很高的标准偏差和方差,意味着这些值被分散了,并且变化非常大。如果在框的一边有长线,另一边的不长,那么数据可能只在一个方向上变化很大

02

概率分布

我们可以将概率定义为一些事件将要发生的可能性大小,以百分数来表示。在数据科学领域中,这通常被量化到0到1的区间范围内,其中0表示事件确定不会发生,而1表示事件确定会发生。那么,概率分布就是表示所有可能值出现的几率的函数。请看下图:

常见的概率分布,均匀分布(上)、正态分布(中间)、泊松分布(下):

  • 均匀分布是其中最基本的概率分布方式。它有一个只出现在一定范围内的值,而在该范围之外的都是0。我们也可以把它考虑为是一个具有两个分类的变量:0或另一个值。分类变量可能具有除0之外的多个值,但我们仍然可以将其可视化为多个均匀分布的分段函数。

  • 正态分布,通常也称为高斯分布,具体是由它的平均值和标准偏差来定义的。平均值是在空间上来回变化位置进行分布的,而标准偏差控制着它的分布扩散范围。与其它的分布方式的主要区别在于,在所有方向上标准偏差是相同的。因此,通过高斯分布,我们知道数据集的平均值以及数据的扩散分布,即它在比较广的范围上扩展,还是主要围绕在少数几个值附近集中分布。

  • 泊松分布与正态分布相似,但存在偏斜率。象正态分布一样,在偏斜度值较低的情况下,泊松分布在各个方向上具有相对均匀的扩散。但是,当偏斜度值非常大的时候,我们的数据在不同方向上的扩散将会是不同的。在一个方向上,数据的扩散程度非常高,而在另一个方向上,扩散的程度则非常低。

如果遇到一个高斯分布,那么我们知道有很多算法,在默认情况下高思分布将会被执行地很好,因此首先应该找到那些算法。如果是泊松分布,我们必须要特别谨慎,选择一个在空间扩展上对变化要有很好鲁棒性的算法。

03

降维

降维这个术语可以很直观的理解,意思是降低一个数据集的维数。在数据科学中,这是特征变量的数量。请看下图:

上图中的立方体表示我们的数据集,它有3个维度,总共1000个点。以现在的计算能力,计算1000个点很容易,但如果更大的规模,就会遇到麻烦了。然而,仅仅从二维的角度来看我们的数据,比如从立方体一侧的角度,可以看到划分所有的颜色是很容易的。通过降维,我们将3D数据展现到2D平面上,这有效地把我们需要计算的点的数量减少到100个,大大节省了计算量。

另一种方式是我们可以通过特征剪枝来减少维数。利用这种方法,我们删除任何所看到的特征对分析都不重要。例如,在研究数据集之后,我们可能会发现,在10个特征中,有7个特征与输出具有很高的相关性,而其它3个则具有非常低的相关性。那么,这3个低相关性的特征可能不值得计算,我们可能只是能在不影响输出的情况下将它们从分析中去掉。

用于降维的最常见的统计技术是PCA,它本质上创建了特征的向量表示,表明了它们对输出的重要性,即相关性。PCA可以用来进行上述两种降维方式的操作。

04

 过采样和欠采样

过采样和欠采样是用于分类问题的技术。例如,我们有1种分类的2000个样本,但第2种分类只有200个样本。这将抛开我们尝试和使用的许多机器学习技术来给数据建模并进行预测。那么,过采样和欠采样可以应对这种情况。请看下图:

在上面图中的左右两侧,蓝色分类比橙色分类有更多的样本。在这种情况下,我们有2个预处理选择,可以帮助机器学习模型进行训练。

欠采样意味着我们将只从样本多的分类中选择一些数据,而尽量多的使用样本少的分类样本。这种选择应该是为了保持分类的概率分布。我们只是通过更少的抽样来让数据集更均衡。

过采样意味着我们将要创建少数分类的副本,以便具有与多数分类相同的样本数量。副本将被制作成保持少数分类的分布。我们只是在没有获得更多数据的情况下让数据集更加均衡。

05

贝叶斯统计

完全理解为什么在我们使用贝叶斯统计的时候,要求首先理解频率统计失败的地方。大多数人在听到“概率”这个词的时候,频率统计是首先想到的统计类型。它涉及应用一些数学理论来分析事件发生的概率,明确地说,我们唯一计算的数据是先验数据(prior data)。

假设我给了你一个骰子,问你掷出6点的几率是多少,大多数人都会说是六分之一。

但是,如果有人给你个特定的骰子总能掷出6个点呢?因为频率分析仅仅考虑之前的数据,而给你作弊的骰子的因素并没有被考虑进去。

贝叶斯统计确实考虑了这一点,我们可以通过贝叶斯法则来进行说明:

在方程中的概率P(H)基本上是我们的频率分析,给定之前的关于事件发生概率的数据。方程中的P(E|H)称为可能性,根据频率分析得到的信息,实质上是现象正确的概率。例如,如果你要掷骰子10000次,并且前1000次全部掷出了6个点,那么你会非常自信地认为是骰子作弊了。

如果频率分析做的非常好的话,那么我们会非常自信地确定,猜测6个点是正确的。同时,如果骰子作弊是真的,或者不是基于其自身的先验概率和频率分析的,我们也会考虑作弊的因素。正如你从方程式中看到的,贝叶斯统计把一切因素都考虑在内了。当你觉得之前的数据不能很好地代表未来的数据和结果的时候,就应该使用贝叶斯统计方法。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

5个基本概念,从统计学到机器学习相关推荐

  1. 统计学和机器学习到底有什么区别?

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文转自:深度学习这件小事 出品 | 大数据文摘 来源 | med ...

  2. 连接统计学、机器学习与自动推理的新兴交叉领域——因果科学读书会再起航...

    导语 哥伦比亚大学 CausalAI 实验室主任 Elias Bareinboim 在其 ACM 邀请文章中提到:"如果我们希望下一代人工智能系统是安全的,稳健的,与人类兼容的,提升人类社会 ...

  3. 【AI】统计学和机器学习到底有什么区别?

    转自:大数据文摘 来源:medium 编译:周家乐.狗小白.蒋宝尚 统计学和机器学习之间的界定一直很模糊. 无论是业界还是学界一直认为机器学习只是统计学批了一层光鲜的外衣. 而机器学习支撑的人工智能也 ...

  4. 蓬莱小课:数据分析理论知识——统计学和机器学习

    想入门数据分析应该怎么学?新手做数据分析有哪些好用的工具?会用 Excel 但是做分析总是没思路怎么办?做数据分析有哪些方法...... 以上这些问题,相信各位想入门数据分析的小伙伴们或多或少都会遇到 ...

  5. 前沿分享:连接统计学,机器学习与自动推理的新兴交叉领域

    导语 什么是因果科学?它是如何发展的?本文将从以下3个部分介绍:第一部分是因果科学的基本定义及其哲学基础,第二部分是统计领域中的因果推断,第三个部分是因果结合机器学习. 因果革命和以数据为中心的第一次 ...

  6. 独家 | 一文解析统计学在机器学习中的重要性(附学习资源)

    作者:Jason Brownlee 翻译:陈之炎 校对:万文青 本文共2400字,建议阅读10分钟. 本文介绍为什么统计对于通用应用和机器学习如此重要,并大致了解各种可用的方法. 统计是一组工具,您可 ...

  7. 统计学,机器学习,深度学习,数据挖掘的联系

    1.数据挖掘(Data Mining)顾名思义就是从海量数据中"挖掘"隐藏信息,按照教科书的说法,这里的数据是"大量的.不完全的.有噪声的.模糊的.随机的实际应用数据&q ...

  8. 统计学,机器学习,深度学习和数控编程简介

    统计学:统计学是通过搜索.整理.分析.描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学.统计学用到了大量的数学及其它学科的专业知识,其应用范围几乎覆盖了社会科学和自然科学的各 ...

  9. 先搞懂这八大基础概念,再谈机器学习入门!

    翻译 | AI科技大本营 参与 | 林椿眄 准备好开始AI了吗?可能你已经开始了在机器学习领域的实践学习,但是依然想要扩展你的知识并进一步了解那些你听过却没有时间了解的话题. 这些机器学习的专业术语能 ...

最新文章

  1. 自动生成低精度深度学习算子
  2. Don’t Use the Win32 API PostThreadMessage() to Post Messages to UI Threads(翻译)
  3. 第九集(第一部分)思科交换机配置文件及IOS备份还原
  4. 看了一个月c能学java_学过一点C语言的可以自学java吗?应该怎样开始?
  5. matlab图片拼接变成白的,利用matlab实现对图片的拼接
  6. seata执行闪退_Seata 1.2.0的配置以及踩坑记录
  7. python程序题求roc-auc是一种常用的模型评价指标_Keras 利用sklearn的ROC-AUC建立评价函数详解...
  8. linux动态可执行文件,Linux中ELF格式 可执行文件+动态链接器 的加载
  9. 如何屏蔽Canvas指纹跟踪
  10. 艺街开放平台开源计划
  11. Excel导入数据的实现
  12. 江苏省南京市谷歌高清卫星地图下载
  13. Unity 与EasyAR结合 新手入门教程
  14. 易绍坤网络赚钱:淘宝客获取佣金网赚之路,该如何进行?
  15. word打出计算机图形符号,word显示所有格式标记
  16. Excel查找、替换与定位
  17. 如何用excel筛选相似内容_如何excel中筛选两个表中相同的数据
  18. Adams隐式4阶方法解常微分方程,fortran实现
  19. chrome浏览器拦截广告_如何禁用Chrome的新广告拦截器(在某些网站或所有网站上)...
  20. git、GitHub、Gitee(码云)、GitBook、Copilot、GitLab概述

热门文章

  1. NLP机器翻译深度学习实战课程基础 | 深度应用
  2. 那个大战AlphaGo的柯洁,将免试入读清华大学工商管理专业
  3. 关于AI,腾讯又有大动作!开发者该如何应对?
  4. 分布式ID(唯一性)的生成方法汇总
  5. Thread.sleep(0):线程休眠0秒有什么意义!
  6. 服务运行一段时间,redis缓存就不可用,原来是这个锅!
  7. Datawahle文化衫来了!
  8. 一份完整的数据科学竞赛指南!
  9. 盘点深度学习中的各种数据增强技巧
  10. 深入浅出统计学(十一)总体和样本的估计