前言

首先借机回答一下读者小伙伴的问题,计算原理、组合和排列的现实意义是什么?学习数学对从事 IT 行业而言有什么帮助?

实话说,这些问题应该是普遍存在的,曾经是我的问题,也可能会成为你的问题。欢迎大家在评论区里说说自己的看法。

  • 计数原理:又称基本计数原理,它将实现一个目标的行为抽象成 分步分类 两种,正如计数原理中给出的例子。计数原理通过这两种计数规则为解决现实生活中大多数的计数问题提供了思路和工具。所谓计数,其目的是为了求解出一个「总数」,比如:完成一件事情所拥有的全部做法;达到一个目的所拥有的全部可能。

  • 组合与排列:求解的是 特定集合空间里所拥有的元素之间的组合和排列的可能性,是一个特定条件下的「总数」,所以在组合与排列文中推导公式时就引入了计算原理。组合与排列是概率论中重要的基础,因为其求解的总数,常被作为概率结果中的分母。

  • 至于学习数学对从事 IT 行业有什么实际上的作用?就当下而言,对大数据和人工智能方向的研究很有用,数理基础不扎实容易事倍功半,至于别的研究方向就要各凭兴趣爱好。对未来而言,笔者不相信计算机应用的未来,但相信计算机科学的未来,所以为了以后更好适应行业的发展,需要作出长远准备。

统计与分布

统计和分布的核心在于「描述」,用简明且可操作的方式直观展现大量样本的宏观样态,这是统计与分布所解决的主要问题之一。

使用单一数据定义来概括性描述一些抽象或复杂数据的方式,即为统计学指标。使用指标来描述问题能有效将复杂的问题因素单一化,比如 PM2.5 指标。常见的统计学指标有 加和值、平均值、标准差、中位数、众数 等。

  • 加和值:使用加和值来描述问题最大的好处是直奔主题,忽略个体样本细节。比如超市结账,我们只需要知道总共需要付多少钱,而无须关心每一件商品的价格。

  • 平均值:使用平均值能够对整体样本有一个概括性的描述,同时也能兼具对每个个体样本的描述。比如某个人的成绩是低于还是高于整体平均值。

  • 众数:使用众数能够描述整体样本的偏好特征。比如小明每周要看 5 场电影,其中喜剧看了 3 场,为众数,可以看出小明对喜剧电影的偏好。

  • 中位数:使用中位数能够描述样本的分布特征,在一定程度上可以消除个别极端的个体样本值对整体样本平均值的影响。将样本集中的极端值剔除,然后求得的平均值往往会更加接近中位数。

标准差

使用标准差能够描述个体样本与整体样本平均值之间的差异,差异值越大,表示个体与整体平均线的离散型(正、反差异)越大。

标准差公式

  • 其中 (x - μ)^2 表示个体样本 x 与整体均值的离差,因为离差只能是正数,所以求平方。

可见,标准差是一组数据平均值分散程度的度量。

加权均值

加权平均值是一种特殊的平均值,现实中很多问题的均值结果不仅取决于个体样本标准值的大小,而且还取决于个体样本标准值出现的次数(频数),这些频数同样对最终的结果有着权衡轻重的作用,所以也将频数叫做权重。

例如:一箱什锦糖里混有牛奶糖 1斤 单价 10元、水果糖 2斤 单价 20元、巧克力糖 3斤 单价 30元,那么求解什锦糖应该售卖多少钱一斤?

显然这是一个求均值的问题,但却不能使用普通平均值算法求解,而是应该使用加权平均值算法,因为 3 种糖果在样本集(箱)中的权重是不同的。

  • 平均值:(10+20+30)/6=10元/斤
  • 加权平均值:(10*1+20*2+30*3)/6 约为 23元/斤

加权平均值公式:累加各个体样本标准值与权重的乘积,再除以个体单位数量。
(其中 f1, f2, …, fk 表示权重)

数学期望

数学期望,又称均值,或简称期望,是指在一个随机变量试验中每次可能结果的概率乘以其结果的总和,即累加各个体样本标准值与个体样本概率的乘积。期望描述的是随机变量平均取值的大小。

数学期望公式


当 Xn(n=1, 2, …, k) 的概率均 1/k 时,数学期望即为平均数。实际上在很多场景中的平均值和期望往往是接近的,但两者又有着区别。

  • 平均值:针对的是小量样本集,能够轻易的进行全加和然后再除以单位数。所以得到的结果是准确的,不会有模糊概念。
  • 期望:则针对大量样本集,无法轻易实现全加和,只好应用抽样方法。首先得出抽样个体及其出现的概率,然后再加和计算。透过抽样均值,去预测全样本空间的均值,所以称为期望值。

高斯分布

高斯分布,又名正态分布,是一种 概率分布,属概率论学科,对统计学的许多方面都有着非常重要的影响。

概率密度函数

  • f(x) 中的 x 是一个样本特性自变量
  • f(x) 则表示拥有样本特性 x 的个体样本数量所占样本总数的比例
  • exp 指的是自然常数 e 的幂函数
  • σ 表示标准差,σ^2 则为方差
  • μ 表示平均值或数学期望

当 μ=0, σ=1 时,为标准正态分布,x 为 0 时得峰值:

正态分布曲线,又称钟型曲线:

正态分布特性
1. x=μ 时,得到曲线峰值
2. 以 x=μ 为中轴左右对称
3. 属于 [μ-σ, μ+σ] 区间的样本特性的样本数量比例为 68.2%
4. 属于 [μ-2σ, μ+2σ] 区间的样本特性的样本数量比例为 95.4%
5. 属于 [μ-3σ, μ+3σ] 区间的样本特性的样本数量比例为 99.6%
6. μ 越大曲线中轴就越向右移,反之向左
7. σ 越大曲线坡度就越扁平,反之陡峭

应用场景
假如得知某高校男学生 1000 人,并且以及通过统计计算得出 μ=175,σ=10,那么我们就可以轻易通过高斯密度曲线得出下述结果。

  • 身高 165~175 大约 341 人
  • 身高 155-165 大约 136 人
  • 身高 145-155 大约 21 人

总的来说高斯分布的适用场景有着一个共同特点 —— 一般般的很多,极端的很少。例如,智商很高或很低的人很少,智商一般般的人很多;非常有钱和非常贫穷的人很少,一般般有钱的人很多。可见高斯分布的适用面是极其广泛的,他能够非常简明的将各个区间的概率密度呈现出现。

统计与分布之高斯分布相关推荐

  1. 伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布、高斯分布

    文章目录 伯努利分布 二项分布 多项分布 贝塔分布 狄利克雷分布 高斯分布 伯努利分布 伯努利分布,又名两点分布或0-1分布,介绍伯努利分布前首先需要引入伯努利试验. 伯努利试验是只有两种可能结果的单 ...

  2. 统计年龄分布情况(5岁的间隔统计),绘制出年龄分布图。

    3.统计年龄分布情况(5岁的间隔统计),绘制出年龄分布图. 第一个 这个和第一个非常相似,难点在于需要将出生年月转化为年龄. data = data.copy() data['年龄'] = [dt.d ...

  3. T 分布与高斯分布的差异

    后尾的 t 分布,不要求所有的样本的均值比较近 (允许存在离异点),因而相较于高斯分布,相对于噪音更加的鲁棒.Note:这是与高斯分布的一个明显差异.假设方差未知,均值是已知的. 模型中参数估计:可以 ...

  4. mysql 怎么统计年龄段_mysql统计年龄段分布

    mysql 根据生日统计年龄分布.birthday字段为时间戳 select '(-∞,20)' value,sum(case when user_age<20 then 1 else 0 en ...

  5. python统计字数分布可视化展示_数据的概率分布并用python实现概率分布可视化图...

    一.基础概念 先来看下数据的类型,常见的数据分类方式有三种:第一种是按照数据的结构属性分类,根据数据的存储形式分为结构化数据和非结构化数据,例如数据库的存储对象基本上都是结构化数据,结构化数据是进行数 ...

  6. kl散度度量分布_概率图简要模型笔记(二)马尔可夫随机场与KL散度、最大熵、指数族分布、高斯分布、极大似然分布...

    这一篇文章主要是想捋一捋KL散度.最大熵.指数族分布这些东西之间的关系,这是一些非常基本的知识点,刚入门机器学习的时候,傻傻分不清楚,现在回过头来看,其实很多东西都可以串起来,不得不感叹数学真是一个很 ...

  7. 常用的概率分布:伯努利分布、二项分布、多项式分布、高斯分布、指数分布、拉普拉斯分布和Dirac-delta分布

    伯努利分布(Bernoulli distribution) **伯努利分布:**单个二值随机变量的分布.由单个参数φ∈[0,1]控制. 例:抛硬币,正面朝上的概率. 二项式分布(binomial di ...

  8. linux r语言内存查看,R语言统计与分布的相关知识

    变量 变量按变量值是否连续可分为连续变量与离散变量两种. 连续变量(continuous variable)与离散变量(discrete variable) 连续变量 在一定区间内可以任意取值的变量叫 ...

  9. 常见分布总结-高斯分布、伯努利分布、泊松分布、几何分布、beta分布

    概率分布 概率分布是指用于表述随机变量取值的概率规律,包括连续分布和离散分布. 下面作了这些概率分布的一个思维导图. 文章目录 概率分布 1.离散概率分布 1.1.两点分布 2.2. 二项分布 1.3 ...

最新文章

  1. 逻辑设计中复位的稳妥处理方法?
  2. 黑马lavarel教程---7、文件上传
  3. mybatis collection用法_Mybatis中强大的resultMap
  4. 嵌入式成长轨迹34 【嵌入式学习阶段】【ARM环境调试】【QT 移植环境及简单程序示例】---补充《ok6410 Qt移植百科全书》...
  5. asp.net mvc+httpclient+asp.net mvc api入门篇
  6. 信息学奥赛一本通(1024:保留3位小数的浮点数)
  7. 数组对象的reduce方法
  8. python int32 int8_python-使用numpy视图将int32转换为int8
  9. 类python中高级用法
  10. html英文特殊字体代码,字体_中英文字体等(示例代码)
  11. AUFN Carplay盒子固件级视频及图文教程!
  12. python 普通克里金(Kriging)法
  13. qq浏览器android flash,支持flash游戏 安卓QQ浏览器2.0预览版体验
  14. Ubuntu联网图标消失
  15. MPAndroidChart 3.0——BarChart(一)
  16. SD卡 SPI模式操作(1)初始化SD卡
  17. matlab2017b激活后打开报错License Manager Error -8
  18. html左侧抽屉,js抽屉drawer插件
  19. matlab组织的培训讲义,MATLAB与Simulink简介培训讲义.ppt
  20. 睦月、水无月、师走……日语12个月的称谓是怎么来的

热门文章

  1. C#游戏开发快速入门 2.1 构建游戏场景
  2. 域名后缀php做跳转首页,手机移动端网站和电脑PC端网站域名使用与跳转PHP代码...
  3. java 字符串拼接优化_JAVA字符串拼接效率
  4. 外卖行业现状分析_2019年中国外卖行业市场现状与发展趋势分析 用户市场渐趋下沉【组图】...
  5. python寻找相似用户_Python 寻找相近的用户
  6. php 怎么防注入,php 防止注入的几种办法
  7. JAVA实现输入一个整数,输出该数二进制表示中1的个数(《剑指offer》)
  8. 往年包场丘赛的北大,今年被清华逆袭了
  9. 我从GitHub上看到了编程语言八年变迁史 | Reddit 30.7k
  10. 第 3 章 镜像 - 014 - 镜像的缓存特性