数据特征分析-统计分析
一、统计分析
统计分析是对定量数据进行统计描述,常从集中趋势和离中趋势两个方面分析。
集中趋势:指一组数据向某一中心靠拢的倾向,核心在于寻找数据的代表值或中心值-统计平均数(算数平均数和位置平均数)
算术平均数:简单算术平均数和权重算术平均数
位置平均数:中位数和众数
离中趋势:
极差和分位差
标准差和方差
二、集中趋势
随机生成整数和总和为1的百分占比
df = pd.DataFrame({'value':np.random.randint(1,100,100),'f':np.random.rand(100)}) df['f'] = df['f']/df['f'].sum()
算术平均数
mean = df['value'].mean() mean_f = (df['value'] * df['f']).sum()/df['f'].sum() print('简单算术平均数:%.2f'%mean) print('权重算术平均数:%2.f'%mean_f) # 简单算术平均数:48.34 # 权重算术平均数:51
位置平均数
m = df['value'].mode().tolist() #Seris数据类型可通过tolist()或to_list()转化为列表 med = df['value'].median() print('众数为:',m) print('中位数为:',med) # 众数为: [85] # 中位数为: 48.0
集中趋势密度图
df['value'].plot(kind = 'kde')plt.axvline(mean,linestyle='--',color = 'r') plt.text(mean+5,0.002,'简单算术平均数',color = 'r')plt.axvline(mean_f,linestyle='--',color = 'y') plt.text(mean_f+5,0.004,'加权算术平均数',color = 'y')plt.axvline(med,linestyle='--',color = 'g') plt.text(med - 30,0.006,'中位数',color = 'g')
三、离中趋势
随机生成DataFrame,表示对应日期的销量
df = pd.DataFrame({'A_sale':np.random.rand(30)*1000,'B_sale':np.random.rand(30)*1000},index = pd.date_range('2019/6/1','2019/6/30'))
极差和分位差
a_jc = df['A_sale'].max() - df['A_sale'].min() b_jc = df['B_sale'].max() - df['B_sale'].min() print('产品A销售额极差为%.2f,产品B销售额极差为%.2f'%(a_jc,b_jc))a_des = df['A_sale'].describe() b_des = df['B_sale'].describe() a_iqr = a_des['75%'] - a_des['25%'] b_iqr = b_des['75%'] - b_des['25%'] print('产品A销售额分位差为%.2f,产品B销售额分位差为%.2f'%(a_iqr,b_iqr)) # 产品A销售额极差为968.05,产品B销售额极差为946.94 # 产品A销售额分位差为550.63,产品B销售额分位差为479.76
箱型图展示离散关系
df.boxplot(vert = False)
假设有n个样本,x1、x2...xn,算术平均数为x
方差:( (x1-x)^2 + (x2-x)^2 + ...+ (xn-x)^2 )/n
标准差:方差的平方根
a_std = df['A_sale'].std() a_var = df['A_sale'].var() b_std = df['B_sale'].std() b_var = df['B_sale'].var() print('产品A销售额标准差为%.2f,方差为%.2f'%(a_std,a_var)) print('产品B销售额标准差为%.2f,方差为%.2f'%(b_std,b_var)) # 产品A销售额标准差为304.25,方差为92565.69 # 产品B销售额标准差为297.36,方差为88424.61
密度图展示中位数、方差
fig = plt.figure(figsize = (12,5)) ax1 = fig.add_subplot(1,2,1) df['A_sale'].plot(kind = 'kde') plt.axvline(a_des['50%'] - a_std,linestyle = '--',color = 'r') plt.axvline(a_des['50%'],linestyle = '--') plt.axvline(a_des['50%'] + a_std,linestyle = '--',color = 'y')ax2 = fig.add_subplot(1,2,2) df['B_sale'].plot(kind = 'kde') plt.axvline(b_des['50%'] - b_std,linestyle = '--',color = 'r') plt.axvline(b_des['50%'],linestyle = '--') plt.axvline(b_des['50%'] + b_std,linestyle = '--',color = 'y')
转载于:https://www.cnblogs.com/Forever77/p/11349224.html
数据特征分析-统计分析相关推荐
- 数据分析之数据质量分析和数据特征分析
1.数据质量分析 数据质量分析是数据挖掘中数据准备过程的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性的基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁. 数据质量分析的主要任务 ...
- Python数据特征分析1-分布分析(极差,频率直方图等)
数据特征分析分为以下部分: 1.分布分析 2.对比分析 3.统计分析 4.帕累托分析 5.正态性检验 6.相关性分析 数据: 分布分析 分布分析 --> 研究数据的分布特征和分布类型,分定量数据 ...
- Python数据特征分析-对比分析
Python数据特征分析-对比分析 对比分析 1.绝对数比较 → 相减 生成数据 折线图比较 柱状图比较 柱状图堆叠图比较 差值折线图比较 2.相对数比较 → 相除 结构分析 生成数据 计算额度占比 ...
- 高维、相依和不完全数据的统计分析(二)
转自:http://i.mtime.com/920665/blog/5653335/ 我国的统计学起步较晚.解放前只有以许宝禄先生为代表的少数几位统计学者,他们是四十年代从国外回来的.解放后,特别是在 ...
- 数据特征分析(学习笔记)
数据特征分析包括以下几个方面的内容: 1.分布分析 a.定量数据分布分析:绘制频率直方分布图 b.定性数据分布分析:根据变量的分类类型分组,绘制饼图和条形图来描述分布 2.对比分析 a.绝对数对比 b ...
- 几何级数 函数 matlab,matlab 实验05数据的统计分析
数据的统计分析 在日常生活中我们会在很多事件中收集到一些数据(比如:考试分数.窗口排队人数.月用电量.灯泡寿命.测量误差.产品质量.月降雨量等数据),这些数据的产生一般都是随机的.这些随机数据乍看起来 ...
- 《R语言数据分析与挖掘实战》——3.2 数据特征分析
本节书摘来自华章计算机<R语言数据分析与挖掘实战>一书中的第3章,第3.2节,作者 张良均,云伟标,王路,刘晓勇,更多章节内容可以访问云栖社区"华章计算机"公众号查看. ...
- 如何使用DPABI 进行核磁共振数据结果统计分析?
下面总结使用DPABI 的统计模块对MRI 图像进行统计分析的基本方法.DPABI 的统计模块包含了常用的统计模型和多重比较校正方法.在控制协变量上也非常方便. dpabi必看内容 1. DPABI( ...
- 什么是数据描述统计分析指标?
数据描述统计分析 无序数据 均值 均值(mean)和平均值(average)的区别 中位数(中值) 众数 极差 方差(离均差平方) 标准差(标准偏差.实验标准差.均方差) 协方差 标准分 四分位数 实 ...
最新文章
- .net连接mysql数据_.net连接MYSQL数据库的方法及示例!
- 水平越权访问与垂直越权访问漏洞
- Linux中利用grep命令如何检索文件内容详解
- ONES 万事联合创始人 amp; CTO 冯斌:企业服务产品的探索实践
- Jsoup实现Iteye自动登录
- Codeforces 429B Working out:dp【枚举交点】
- bzoj千题计划277:bzoj4513: [Sdoi2016]储能表
- 【源码】H5+JS混合实现《Just Do 8》app游戏源码分享
- Q126:PBRT-V3,VolPathIntegrator(体渲染)流程概述
- PHP Ctype函数(转)
- 分享:架构师软技能之协商
- jieba分词的原理
- 接收诊断响应的相关CAPL函数,具有较高的可复用性
- 十天学会单片机Day4串行口通信
- python背包问题并行_背包问题九讲python3实现
- net share命令删除共享
- 通关6级之词汇(2021.05.29)
- 三三速记英语 需要者看
- win10笔记本识别不到蓝牙鼠标的解决办法
- transporter上传卡正在交付_Xcode11或Transporter上传app store 一直卡在Authenticating with the App Store 的解决...