part1 概念体系

描述性统计可以进行四个维度的分析:分布分析、对比分析、构成分析、相关性分析。

part2 概念定义和主要用途

2.1分布分析:

  1. 算数平均数:
    定义:数据简单加和除以数据个数
    优点:考虑了每一个数据的作用
    缺点:数据量小时,容易受极端值影响
    应用场景: 所有权重相等的,汇总结果为加和形式的,求平均水平的场景
  2. 加权平均数:
    定义:给每个数据项特定的权重,再求均值
    优点:可以结合先验的经验/相对的比重,人工设定数据项的影响力
    缺点:先验经验可能不准确
    应用场景: 各种指数的计算(价格指数、上证指数等)
  3. 几何平均数:
    定义:所有数据相乘之后再开方
    优点:相比算数平均,受极端值影响较小
    缺点:若变量有负值,则几何平均就会成为复数或者虚数;若数值中有0,则算数平均为0
    应用场景: 当汇总结果为乘积的形式时
  4. 中位数:
    定义:按照大小排序,位于中间的一个数/两个数的均值
    优点:不易受极端值的影响
    缺点:当数据比较离散时,则中位数意义不大;当数据分布偏态时,中位数代表性会受影响
    应用场景: 未知~~
  5. 众数:
    定义:出现次数最多的数
    优点:不易受数据中极端数值的影响
    缺点:当数据呈多峰分布时,没有代表性
    应用场景:
  6. 四分位数:
    定义:把数据集排序后分成四等分,位于分位线上的数
    优点:可以识别出数据大致分布情况(箱线图)
    缺点:无法了解到比25%更小的颗粒度数据分布情况
    应用场景: 箱线图(五数概括法)
  7. 极差:
    定义:全距,最大值减去最小值,总体标准差的有偏估计
    优点:计算简单;了解数据分大致分布
    缺点:颗粒度比四分数大;受极端值影响
    应用场景: 比赛成绩,去掉最高分和最低分
  8. 平均差:指各个变量值同平均数的离差绝对值的算术平均数。和标准差类似的作用,没有标准差那么敏感,标准差有平方操作,会放大偏离值的影响。
  9. 方差:
    定义:每个数与均值之差的平方和,反映总体离散程度,自由度为n-1
    优点:可以衡量样本离均值离散程度
    缺点:方差的度量和样本均值的度量不一致,无法直接比较
    应用场景:
  10. 标准差:
    定义:每个数与均值之差的平方和的开方,反映总体离散程度,自由度为n-1
    优点:可以直观的了解到偏差的程度,和均值是同一量纲
    缺点:不能对比不同项目/同一项目不同样本,因为量纲不一样(1单位的方差意义不同)
    应用场景:
  11. 异众比率:
    定义:非众数频数除以总数,聚焦在众数的代表程度
    优点:可算分类数据
    缺点:离散程度不可知
    应用场景:
  12. 四分位差:
    定义:四分位距,也叫内距,IRQ = Q3-Q1(Inter-quartile range)
    优点:不受两端各25%数值的影响;可衡量中间50%数值的差异程度;聚焦的是中位数代表性
    缺点:不能反映所有数值的离散程度
    应用场景: 异常值检测[Q1-1.5* IQR,Q3+1.5* IQR]
  13. 离散系数:
    定义:变异系数,标准差的归一化操作。C.V = σ/X (X代表均值)
    优点:无量纲,可以直接比较不同项目,系数越大的代表分布越离散
    缺点:均值接近0时,标准差的微小变动会造成系数较大波动,从而造成精确度不足;变异系数无法发展出类似均值的置信区间的工具。(还没弄懂)
    应用场景: 更新理论、排队理论、可靠性理论
  14. 偏态系数:
    定义:偏差系数,sk = (X-M)/σ X是均值,M是中位数,σ是方差;①左偏:均值小于中位数(因为数据存在极小值,将均值带小了。即极小值附近有长尾,峰在右侧),偏态系数小于0;②右偏:均值大于中位数(因为数据存在极大值,将均值带大了。即极大值附近有长尾,峰在左侧),偏态系数大于0;③对称:均值等于中位数,等于众数。绝对值越大,偏斜程度越大。
    优点:可以衡量数据的偏斜程度
    缺点:非单峰分布不能使用?(不十分确定)
    应用场景:
  15. 峰态系数:峰态(kurtosis)是对数据分布平峰或尖峰程度的测度,记作K,是对统计数据分布陡峭程度的度量。通常是与标准正态分布相比较而言。(k>0 尖峰、k<0平峰、K=0 正态)
  16. 切比雪夫定理:这一定理对任何形状的分布都成立。观测值落在均值加减k个标准差的区间之内的比例至少为1-1/k^2。

2.2对比分析:

  1. 同比:
    定义:同比上一个周期的同一时期
    优点:可有效比较有周期性规律的数据变化
    缺点:
    应用场景:
  2. 环比:
    定义:环比上一个时期
    优点:方便比较相邻两期数据的变化;多期环比可做长期分析
    缺点:
    应用场景:
  3. 定基比:
    定义:相比固定时期
    优点:可公平比较多期数据;把握现象发展的长期趋势和宏观状态
    缺点:
    应用场景:
  4. 硬刚比: 定义:横向比较,直接相除:A/B 优点:可方便观察相对关系 缺点:未考察时间维度和其它因素 应用场景:
  • * *

2.3相关性分析:

  1. 皮尔森系数:
    定义:ρx,y = cov(X,Y)/(σ1* σ2)
    优点:
    缺点:
    应用场景:R2 线性拟合程度
  2. 斯皮尔曼系数:
    定义:ρ = 1 - (6∑di2)/(n3* n) d为两列对等变量等级差;n为等级个数
    优点:可计算非数值型数据的相关性,无需总体正态假设
    缺点:
    应用场景:
  3. 最大信息系数:
    定义:待定,还不知道是啥,也不知道能不能用,百度百科未收录
    优点:
    缺点:
    应用场景:

统计学原理----描述性统计相关推荐

  1. 统计学原理之描述性统计——开篇

    缘由: 学习笔记的起始缘由:遇到了一个活跃的学习小组,学习内容又是一直想学而且想用好的领域. 学习内容大纲如下: 第一周学习内容--描述性统计 知识点如下: 数据集中趋势: 中位数.均值.众数.极差. ...

  2. 机器学习数学基础:数理统计与描述性统计

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 作者:吴忠强,Datawhale优秀学习者 所谓机器学习和深度学习, ...

  3. pandas使用groupby函数和describe函数计算不同分组的描述性统计(descriptive statistics of each group in dataframe)

    pandas使用groupby函数和describe函数计算不同分组的描述性统计(descriptive statistics of each group in dataframe) 目录

  4. R语言数据描述性统计(Descriptive statistics)实战:数据全局描述信息、数值数据的描述性统计(Numerical data)、离散型数据的描述性统计(Categorical)

    R语言数据描述性统计(Descriptive statistics)实战:数据全局描述信息.数值数据的描述性统计(Numerical data).离散型数据的描述性统计(Categorical) 目录

  5. 发掘数据中的信息 -- 数据探索之描述性统计

    在如今这个大数据时代,数据的价值得到普遍的认可.可是,数据为什么有价值呢?如果,数据只是静静地躺在服务器中,又或是默默地流淌在网络中,它们又能带来什么? 数据就如同海边的沙子,潮起潮落,岁月轮转,它们 ...

  6. python画直方图成绩分析-使用Python进行描述性统计

    2 使用NumPy和SciPy进行数值分析 2.1 基本概念 1 from numpy importarray2 from numpy.random importnormal, randint3 #使 ...

  7. Python描述性统计示例

    Python描述性统计示例 1 声明 本文的数据来自网络,部分代码也有所参照,这里做了注释和延伸,旨在技术交流,如有冒犯之处请联系博主及时处理. 2 描述性统计分析简介 描述性统计分析是指运用制表和分 ...

  8. 探索Julia(part14)--学生得分描述性统计案例

    学习笔记,仅供参考,有错必纠 参考自:Julia数据科学应用–Zacharias Voulgaris:官方文档:Julia数据处理常用包_DataFrames包测试 使用Julia-1.1.1 学生得 ...

  9. pandas基础(part3)--描述性统计

    学习笔记,这个笔记以例子为主. 开发工具:Spyder 文章目录 numpy描述性统计 Pandas描述性统计 numpy描述性统计 数值型数据的描述性统计,主要包括了计算数值型数据的完整情况.最小值 ...

最新文章

  1. 自动解析复杂类的属性 实现归档或者进行序列化 反序列话的时候为每一个属性添加序列化方法的繁琐...
  2. sv队列和动态数组的区别_Go 刷 LeetCode 系列:经典(7) 设计双端队列
  3. Elasticsearch 5.x 字段折叠的使用
  4. c语言程序改错输入5结果为15,《C语言程序设计教学课件》程序改错(自我总结).doc...
  5. mysql 错误代码:1293
  6. rhel5 安装Oracle Database 10g Release 2(II)
  7. 双厨狂喜!海盗船机械键盘联名石之海,一起欧拉欧拉!
  8. linux驱动开发 ST7789 LCD驱动移植(I.MX6ULL平台)
  9. 如何强制升级索尼sony tablet s android 4.0,【S丶Tablet】教你root Tablet S 4.0.3 R5
  10. android台式电脑系统安装,怎么在台式机上安装安卓系统
  11. Python基础——模块和正则表达式
  12. 面对5400万抑郁症患者,这600位志愿者“树洞”打算用AI拯救他们
  13. R 绘制带有数字标签的多分类柱状图
  14. python 修改PE文件头
  15. 一姐们知道她老公外面有小三后,不但没哭没闹,反而对她老公特别好
  16. Python的多线程和多进程教程:大大提高效率
  17. 搜集网络上比较好的中文语料库
  18. PASCAL VOC DATASET
  19. 2021-2027全球与中国3,5-二氯-4-甲基吡啶市场现状及未来发展趋势
  20. 布尔-施罗德逻辑代数中的公设对应-- 布尔逻辑之六

热门文章

  1. IROS2021 | F-LOAM : Fast LiDAR Odometry and Mapping 解析
  2. 视觉SLAM开源算法ORB-SLAM3 原理与代码解析
  3. CVPR2020文章汇总 | 点云处理、三维重建、姿态估计、SLAM、3D数据集等(12篇)
  4. 基于对应点的6D姿态识别
  5. 2021-7-21 Bisenet V2 网络对Cityscapes公开数据集改变原有分类(4到5分类)
  6. Nat.Commun.|使用基于注意力机制的多标签神经网络预测并解释12种RNA修饰
  7. k-median聚类算法【基本概念篇】
  8. spring 源码 找不到 taskprovider_一步一步构建Spring5源码
  9. MPB:中南大学刘学端、马丽媛组-基于16S测序和RT-qPCR的硫化矿物表面微生物群落组成分析...
  10. COM:养分平衡在塑造植物根-真菌互作中的作用:事实与猜想