数据集:不同地区居民消费数据

包含内容:均值、方差、标准差、变异系数、偏度、峰度、中位数、上、下四分位数、四分位极差、三均值、直方图、茎叶图、箱线图、相关性分析、正态性分析与检验。

数据集

年份 全国居民 农村居民 城镇居民
1978 184 138 405
1979 207 158 434
1980 236 178 496
1981 262 199 562
1982 284 221 576
1983 311 246 603
1984 354 283 662
1985 437 347 802
1986 485 376 920
1987 550 417 1089
1988 693 508 1431
1989 762 553 1568
1990 803 571 1686
1991 896 621 1925
1992 1070 718 2356
1993 1331 855 3027
1994 1746 1118 3891
1995 2336 1434 4874
1996 2641 1768 5430
1997 2834 1876 5796
1998 2972 1895 6217
1999 3180 1973 6651

导包

import numpy as np
import pandas as pd
import scipy.stats as st
import matplotlib.pyplot as plt
from itertools import groupby

导入数据

costData = pd.read_excel('1.3.xlsx')  #读入Excel文件

预处理数据

cost = np.array(costData.iloc[:,1:4].astype('float')) # 除去年份数据

计算均值、方差、标准差、变异系数、偏度、峰度

print('均值',np.mean(cost,axis=0))
print('方差',np.var(cost,axis=0))
print('标准差',np.std(cost,axis=0))
print('变异系数',np.std(cost,axis=0)*100 / np.mean(cost,axis=0))
print('偏度',st.skew(cost,axis=0))
print('峰度',st.kurtosis(cost,axis=0))

结果

均值 [1117.          747.86363636 2336.40909091]
方差 [ 984785.72727273  381506.84504132 4329948.42355372]
标准差 [ 992.36370715  617.66240378 2080.8528116 ]
变异系数 [88.84187172 82.59024423 89.06200629]
偏度 [0.95360413 0.94217221 0.90300153]
峰度 [-0.62060385 -0.61604297 -0.71180455]

计算中位数、上、下四分位数、四分位极差、三均值

print('中位数',np.median(cost,axis=0))
print('上四分位数',np.quantile(cost,0.75,axis=0))
print('下四分位数',np.quantile(cost, 0.25,axis=0))
print('四分位极差',np.quantile(cost,0.75,axis=0)-np.quantile(cost, 0.25, axis=0))
print('三均值',np.median(cost,axis=0)/2+np.quantile(cost,0.75,axis=0)/4+np.quantile(cost, 0.25, axis=0)/4)

结果

中位数 [ 727.5  530.5 1499.5]
上四分位数 [1642.25 1052.25 3675.  ]
下四分位数 [321.75 255.25 617.75]
四分位极差 [1320.5   797.   3057.25]
三均值 [ 854.75    592.125  1822.9375]

作出直方图、茎叶图、箱线图

直方图

blt = plt.hist(cost[:,0]);
plt.xlabel('cost');
plt.ylabel('Numbers');
plt.title('nationwide');
plt.show();blt = plt.hist(cost[:,1]);
plt.xlabel('cost');
plt.ylabel('Numbers');
plt.title('village');
plt.show();blt = plt.hist(cost[:,2]);
plt.xlabel('cost');
plt.ylabel('Numbers');
plt.title('towns');
plt.show();

图示
全国居民

农村居民

城镇居民

茎叶图

for i in range(3):for k, g in groupby(sorted(cost[:,i].astype(int)), key=lambda x: int(x) // 10):lst = map(str, [int(y) % 10 for y in list(g)])print (k, '|', ' '.join(lst))print('\t')

全国居民

18 | 4
20 | 7
23 | 6
26 | 2
28 | 4
31 | 1
35 | 4
43 | 7
48 | 5
55 | 0
69 | 3
76 | 2
80 | 3
89 | 6
107 | 0
133 | 1
174 | 6
233 | 6
264 | 1
283 | 4
297 | 2
318 | 0

农村居民

13 | 8
15 | 8
17 | 8
19 | 9
22 | 1
24 | 6
28 | 3
34 | 7
37 | 6
41 | 7
50 | 8
55 | 3
57 | 1
62 | 1
71 | 8
85 | 5
111 | 8
143 | 4
176 | 8
187 | 6
189 | 5
197 | 3

城镇居民

40 | 5
43 | 4
49 | 6
56 | 2
57 | 6
60 | 3
66 | 2
80 | 2
92 | 0
108 | 9
143 | 1
156 | 8
168 | 6
192 | 5
235 | 6
302 | 7
389 | 1
487 | 4
543 | 0
579 | 6
621 | 7
665 | 1

箱线图

blt = plt.boxplot(cost, notch=False, sym='o',vert=True, patch_artist=True);
plt.xticks((1,2,3),('nationwide','village','towns'))
plt.title('CitzenCostData')
plt.show()

图示

作出相关性分析

print(costData[['全国居民','农村居民','城镇居民']].corr())

结果

         全国居民      农村居民      城镇居民
全国居民  1.000000  0.998566  0.998979
农村居民  0.998566  1.000000  0.996380
城镇居民  0.998979  0.996380  1.000000

进行正态性分析和检验

for i in range(3):print('正态性检验',st.kstest(cost[:,i], 'norm',(np.mean(cost[:,i]), np.std(cost[:,i])),alternative='less'))

结果

正态性检验 KstestResult(statistic=0.17356275124497994, pvalue=0.2376239957646608)
正态性检验 KstestResult(statistic=0.16172972700034527, pvalue=0.2853389966713887)
正态性检验 KstestResult(statistic=0.17665671370514657, pvalue=0.22605042482043552)

结论
ppp值大于0.05,故接受假设:三种数据均服从正态分布。

数据集:不同地区居民消费数据相关推荐

  1. 省级面板数据(2000-2019)七:价格指数(居民消费、零售、生产、投资)(stata版)

    省级面板数据(2000-2019)七:价格指数(居民消费.零售.生产.投资)(stata版) 数据来源:中国统计年鉴 下载链接:省级面板七:价值指数 一.居民消费价格指数和商品零售价格指数(上年=10 ...

  2. 大数据早报:时装设计也用上了人工智能,亚马逊研究出新算法;上海地铁趣味消费数据发布(9.12)

    数据早知道,上乐投网看早报! 『MongoDB』MongoDB再遭大规模勒索!这可能最全面的数据库防勒索方案 又一起数据库被劫持勒索事件.MongoDB 数据库又双叒叕被攻击了,三个黑客团伙劫持了 2 ...

  3. 基于ARIMA对我国居民消费价格指数的分析

    1.数据收集 根据分析所需内容,搜集以下数据: 2015年到2018年cpi指数月度数据 (数据来源:中经网统计数据库) 2.数据整理 将以上数据整理成表: 3.时间序列对象 本数据分析将使用R st ...

  4. 北京市历年最低工资+居民消费价格指数

    工作需要,整理一下最近5年的北京市最低工资.城乡低保标准和北京市居民消费价格指数等信息,数据来源:北京市统计局,人社部,中央人民政府网站.   2014 2015 2016 2017 2018 201 ...

  5. [R语言] 10行代码展示我国35个主要城市近一年来居民消费价格指数的变化

    前言 近年来,随着我国GDP呈现逐年增长的趋势,居民消费价格指数CPI也开始受到更多人的讨论,国家经济的发展,究竟是提高了居民的生活水平呢,还是增加了居民的生活压力呢? 接下来就让我们通过10行代码, ...

  6. CnOpenData各地区最低工资数据

    CnOpenData各地区最低工资数据 目录 一.数据简介 二.时间区间 三.字段展示 四.样本数据 五.数据更新频率 一.数据简介 最低工资保障制度是我国一项劳动和社会保障制度.我国<劳动法& ...

  7. 海峡消费报携手HQTS汉斯曼集团,发布中小企业消费数据报告

    来源:金融界百家 守护安全·畅通消费 HQTS汉斯曼集团 护航中国质造 2020年疫情给全球的经济和消费市场带来了巨大的冲击,消费行为和消费结构也随之变化,许多新兴消费业态快速发展.与此同时,线上购物 ...

  8. 居民消费价格指数变化新鲜出炉,这类商品同比涨幅最大

    对比分析2022年10月份全国居民消费价格数据发现,今年10 月份CPI 同比增2.5%,维持近8个月新高: PPI 同比增3.3%,同比涨幅较上个月回落 2.2 个百分点. ​ | CPI同比增2. ...

  9. 基于校园卡消费数据的数据分析与处理

    完整代码:https://download.csdn.net/download/pythonyanyan/87392574 任务 1 数据导入与预处理 任务 1.1 探查数据质量并进行缺失值和异常值处 ...

  10. 技术图文:如何爬取一个地区的气象数据(下)?

    背景 架空线路常见的故障有:风偏闪络故障.雷击跳闸故障.雷击断股故障.线路覆冰故障.线路污闪故障.线路外力破坏故障.线路鸟害故障等等.从这些故障中,我们可以看出天气对线路的安全运行起到非常重要的作用. ...

最新文章

  1. 《转载》Java异常处理的10个最佳实践
  2. 【安富莱原创开源应用第3期】花式玩转网络摄像头之VNC远程桌面版本,稳定运行2年不死机...
  3. Java中的synchronized与volatile关键字
  4. 《伟大的小细节:互联网产品设计中的微创新思维》——
  5. 遍历矩阵每一行穷举_LeetCode:二维数组—旋转矩阵
  6. linux 修改默认路径吗,linux中vsftp修改默认路径
  7. 细胞分裂java移植_胚胎移植前,先调理好你的子宫内膜!
  8. linux java性能监控工具_Linux实时监控工具Nmon使用
  9. 【WXS全局对象】Date
  10. 看了新闻,思科研发中心 没有成都的。。。
  11. 实现光晕效果_马自达6车灯升级激光四透镜实现四近四远光
  12. 王者荣耀总决赛因天气原因延期 玩家获得皮肤碎片等补偿
  13. 今天第72个儿童节,程序猿“童”样精彩~
  14. C语言 完数问题求解
  15. 企业销售统计管理页面ui模板
  16. .bat脚本初体验——使用批处理bat清洗文件名
  17. python未知长度数组,python – 从具有未知维数的numpy数组中提取超立方体块
  18. 一个 24 通道 100Msps 逻辑分析仪
  19. Elasticsearch教程---高亮搜索(十二)
  20. 怎么查忘仙服务器信息,忘仙怎么跨服战斗 跨服玩法介绍[多图]

热门文章

  1. mysql的server_id怎么设置_MySQL Server-id踩到的坑
  2. 过滤内网IP—IPv4
  3. 新年跨出第一步:人工智能实施这样做!
  4. Swift开发教程--怎样设置状态栏的文字颜色
  5. 磁盘空间未释放异常案例
  6. 通过Jquery异步获取股票实时数据
  7. 域名没备案使用七牛cdn加速
  8. ThinkPHP视图模型实例
  9. thinkphp出现此页面不能重定向
  10. opengl代码实例_一步步学OpenGL(22) -《OpenGL使用Assimp库导入3d模型》