一、统计分析

统计分析是对定量数据进行统计描述,常从集中趋势和离中趋势两个方面分析。

集中趋势:指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值-统计平均数(算数平均数和位置平均数)

  算术平均数:简单算术平均数和权重算术平均数

  位置平均数:中位数和众数

离中趋势:

  极差和分位差

  标准差和方差

二、集中趋势

随机生成整数和总和为1的百分占比

df = pd.DataFrame({'value':np.random.randint(1,100,100),'f':np.random.rand(100)})
df['f'] = df['f']/df['f'].sum()

算术平均数

mean = df['value'].mean()
mean_f = (df['value'] * df['f']).sum()/df['f'].sum()
print('简单算术平均数:%.2f'%mean)
print('权重算术平均数:%2.f'%mean_f)
# 简单算术平均数:48.34
# 权重算术平均数:51

位置平均数

m = df['value'].mode().tolist()   #Seris数据类型可通过tolist()或to_list()转化为列表
med = df['value'].median()
print('众数为:',m)
print('中位数为:',med)
# 众数为: [85]
# 中位数为: 48.0

集中趋势密度图

df['value'].plot(kind = 'kde')plt.axvline(mean,linestyle='--',color = 'r')
plt.text(mean+5,0.002,'简单算术平均数',color = 'r')plt.axvline(mean_f,linestyle='--',color = 'y')
plt.text(mean_f+5,0.004,'加权算术平均数',color = 'y')plt.axvline(med,linestyle='--',color = 'g')
plt.text(med - 30,0.006,'中位数',color = 'g')

三、离中趋势

随机生成DataFrame,表示对应日期的销量

df = pd.DataFrame({'A_sale':np.random.rand(30)*1000,'B_sale':np.random.rand(30)*1000},index = pd.date_range('2019/6/1','2019/6/30'))

极差和分位差

a_jc = df['A_sale'].max() - df['A_sale'].min()
b_jc = df['B_sale'].max() - df['B_sale'].min()
print('产品A销售额极差为%.2f,产品B销售额极差为%.2f'%(a_jc,b_jc))a_des = df['A_sale'].describe()
b_des = df['B_sale'].describe()
a_iqr = a_des['75%'] - a_des['25%']
b_iqr = b_des['75%'] - b_des['25%']
print('产品A销售额分位差为%.2f,产品B销售额分位差为%.2f'%(a_iqr,b_iqr))
# 产品A销售额极差为968.05,产品B销售额极差为946.94
# 产品A销售额分位差为550.63,产品B销售额分位差为479.76

箱型图展示离散关系

df.boxplot(vert = False)

假设有n个样本,x1、x2...xn,算术平均数为x
方差:( (x1-x)^2 + (x2-x)^2 + ...+ (xn-x)^2 )/n
标准差:方差的平方根

a_std = df['A_sale'].std()
a_var = df['A_sale'].var()
b_std = df['B_sale'].std()
b_var = df['B_sale'].var()
print('产品A销售额标准差为%.2f,方差为%.2f'%(a_std,a_var))
print('产品B销售额标准差为%.2f,方差为%.2f'%(b_std,b_var))
# 产品A销售额标准差为304.25,方差为92565.69
# 产品B销售额标准差为297.36,方差为88424.61

密度图展示中位数、方差

fig = plt.figure(figsize = (12,5))
ax1 = fig.add_subplot(1,2,1)
df['A_sale'].plot(kind = 'kde')
plt.axvline(a_des['50%'] - a_std,linestyle = '--',color = 'r')
plt.axvline(a_des['50%'],linestyle = '--')
plt.axvline(a_des['50%'] + a_std,linestyle = '--',color = 'y')ax2 = fig.add_subplot(1,2,2)
df['B_sale'].plot(kind = 'kde')
plt.axvline(b_des['50%'] - b_std,linestyle = '--',color = 'r')
plt.axvline(b_des['50%'],linestyle = '--')
plt.axvline(b_des['50%'] + b_std,linestyle = '--',color = 'y')

转载于:https://www.cnblogs.com/Forever77/p/11349224.html

数据特征分析-统计分析相关推荐

  1. 数据分析之数据质量分析和数据特征分析

    1.数据质量分析 数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁. 数据质量分析的主要任务 ...

  2. Python数据特征分析1-分布分析(极差,频率直方图等)

    数据特征分析分为以下部分: 1.分布分析 2.对比分析 3.统计分析 4.帕累托分析 5.正态性检验 6.相关性分析 数据: 分布分析 分布分析 --> 研究数据的分布特征和分布类型,分定量数据 ...

  3. Python数据特征分析-对比分析

    Python数据特征分析-对比分析 对比分析 1.绝对数比较 → 相减 生成数据 折线图比较 柱状图比较 柱状图堆叠图比较 差值折线图比较 2.相对数比较 → 相除 结构分析 生成数据 计算额度占比 ...

  4. 高维、相依和不完全数据的统计分析(二)

    转自:http://i.mtime.com/920665/blog/5653335/ 我国的统计学起步较晚.解放前只有以许宝禄先生为代表的少数几位统计学者,他们是四十年代从国外回来的.解放后,特别是在 ...

  5. 数据特征分析(学习笔记)

    数据特征分析包括以下几个方面的内容: 1.分布分析 a.定量数据分布分析:绘制频率直方分布图 b.定性数据分布分析:根据变量的分类类型分组,绘制饼图和条形图来描述分布 2.对比分析 a.绝对数对比 b ...

  6. 几何级数 函数 matlab,matlab 实验05数据的统计分析

    数据的统计分析 在日常生活中我们会在很多事件中收集到一些数据(比如:考试分数.窗口排队人数.月用电量.灯泡寿命.测量误差.产品质量.月降雨量等数据),这些数据的产生一般都是随机的.这些随机数据乍看起来 ...

  7. 《R语言数据分析与挖掘实战》——3.2 数据特征分析

    本节书摘来自华章计算机<R语言数据分析与挖掘实战>一书中的第3章,第3.2节,作者 张良均,云伟标,王路,刘晓勇,更多章节内容可以访问云栖社区"华章计算机"公众号查看. ...

  8. 如何使用DPABI 进行核磁共振数据结果统计分析?

    下面总结使用DPABI 的统计模块对MRI 图像进行统计分析的基本方法.DPABI 的统计模块包含了常用的统计模型和多重比较校正方法.在控制协变量上也非常方便. dpabi必看内容 1. DPABI( ...

  9. 什么是数据描述统计分析指标?

    数据描述统计分析 无序数据 均值 均值(mean)和平均值(average)的区别 中位数(中值) 众数 极差 方差(离均差平方) 标准差(标准偏差.实验标准差.均方差) 协方差 标准分 四分位数 实 ...

最新文章

  1. .net连接mysql数据_.net连接MYSQL数据库的方法及示例!
  2. 水平越权访问与垂直越权访问漏洞
  3. Linux中利用grep命令如何检索文件内容详解
  4. ONES 万事联合创始人 amp; CTO 冯斌:企业服务产品的探索实践
  5. Jsoup实现Iteye自动登录
  6. Codeforces 429B Working out:dp【枚举交点】
  7. bzoj千题计划277:bzoj4513: [Sdoi2016]储能表
  8. 【源码】H5+JS混合实现《Just Do 8》app游戏源码分享
  9. Q126:PBRT-V3,VolPathIntegrator(体渲染)流程概述
  10. PHP Ctype函数(转)
  11. 分享:架构师软技能之协商
  12. jieba分词的原理
  13. 接收诊断响应的相关CAPL函数,具有较高的可复用性
  14. 十天学会单片机Day4串行口通信
  15. python背包问题并行_背包问题九讲python3实现
  16. net share命令删除共享
  17. 通关6级之词汇(2021.05.29)
  18. 三三速记英语 需要者看
  19. win10笔记本识别不到蓝牙鼠标的解决办法
  20. transporter上传卡正在交付_Xcode11或Transporter上传app store 一直卡在Authenticating with the App Store 的解决...

热门文章

  1. HDU 2897 (博弈 找规律) 邂逅明下
  2. 亲历腾讯WEB前端开发三轮面试经历及面试题
  3. Delphi XE5教程4:程序和单元概述
  4. MVC 页面传参到另一个页面
  5. ActionScript 3.0 学习笔记三
  6. word模板生成word报表文档
  7. 赋值语句 变量的地址相关 : RUNOOB python练习题7
  8. C++ STL 学习笔记 3. 文本文件操作
  9. vue组件命名指南,不为取名而纠结
  10. python socket 多人聊天室