数据集:不同地区居民消费数据
数据集:不同地区居民消费数据
包含内容
:均值、方差、标准差、变异系数、偏度、峰度、中位数、上、下四分位数、四分位极差、三均值、直方图、茎叶图、箱线图、相关性分析、正态性分析与检验。
数据集
年份 | 全国居民 | 农村居民 | 城镇居民 |
---|---|---|---|
1978 | 184 | 138 | 405 |
1979 | 207 | 158 | 434 |
1980 | 236 | 178 | 496 |
1981 | 262 | 199 | 562 |
1982 | 284 | 221 | 576 |
1983 | 311 | 246 | 603 |
1984 | 354 | 283 | 662 |
1985 | 437 | 347 | 802 |
1986 | 485 | 376 | 920 |
1987 | 550 | 417 | 1089 |
1988 | 693 | 508 | 1431 |
1989 | 762 | 553 | 1568 |
1990 | 803 | 571 | 1686 |
1991 | 896 | 621 | 1925 |
1992 | 1070 | 718 | 2356 |
1993 | 1331 | 855 | 3027 |
1994 | 1746 | 1118 | 3891 |
1995 | 2336 | 1434 | 4874 |
1996 | 2641 | 1768 | 5430 |
1997 | 2834 | 1876 | 5796 |
1998 | 2972 | 1895 | 6217 |
1999 | 3180 | 1973 | 6651 |
导包
import numpy as np
import pandas as pd
import scipy.stats as st
import matplotlib.pyplot as plt
from itertools import groupby
导入数据
costData = pd.read_excel('1.3.xlsx') #读入Excel文件
预处理数据
cost = np.array(costData.iloc[:,1:4].astype('float')) # 除去年份数据
计算均值、方差、标准差、变异系数、偏度、峰度
print('均值',np.mean(cost,axis=0))
print('方差',np.var(cost,axis=0))
print('标准差',np.std(cost,axis=0))
print('变异系数',np.std(cost,axis=0)*100 / np.mean(cost,axis=0))
print('偏度',st.skew(cost,axis=0))
print('峰度',st.kurtosis(cost,axis=0))
结果
:
均值 [1117. 747.86363636 2336.40909091]
方差 [ 984785.72727273 381506.84504132 4329948.42355372]
标准差 [ 992.36370715 617.66240378 2080.8528116 ]
变异系数 [88.84187172 82.59024423 89.06200629]
偏度 [0.95360413 0.94217221 0.90300153]
峰度 [-0.62060385 -0.61604297 -0.71180455]
计算中位数、上、下四分位数、四分位极差、三均值
print('中位数',np.median(cost,axis=0))
print('上四分位数',np.quantile(cost,0.75,axis=0))
print('下四分位数',np.quantile(cost, 0.25,axis=0))
print('四分位极差',np.quantile(cost,0.75,axis=0)-np.quantile(cost, 0.25, axis=0))
print('三均值',np.median(cost,axis=0)/2+np.quantile(cost,0.75,axis=0)/4+np.quantile(cost, 0.25, axis=0)/4)
结果
:
中位数 [ 727.5 530.5 1499.5]
上四分位数 [1642.25 1052.25 3675. ]
下四分位数 [321.75 255.25 617.75]
四分位极差 [1320.5 797. 3057.25]
三均值 [ 854.75 592.125 1822.9375]
作出直方图、茎叶图、箱线图
直方图
blt = plt.hist(cost[:,0]);
plt.xlabel('cost');
plt.ylabel('Numbers');
plt.title('nationwide');
plt.show();blt = plt.hist(cost[:,1]);
plt.xlabel('cost');
plt.ylabel('Numbers');
plt.title('village');
plt.show();blt = plt.hist(cost[:,2]);
plt.xlabel('cost');
plt.ylabel('Numbers');
plt.title('towns');
plt.show();
图示
:
全国居民
:
农村居民
:
城镇居民
:
茎叶图
for i in range(3):for k, g in groupby(sorted(cost[:,i].astype(int)), key=lambda x: int(x) // 10):lst = map(str, [int(y) % 10 for y in list(g)])print (k, '|', ' '.join(lst))print('\t')
全国居民
:
18 | 4
20 | 7
23 | 6
26 | 2
28 | 4
31 | 1
35 | 4
43 | 7
48 | 5
55 | 0
69 | 3
76 | 2
80 | 3
89 | 6
107 | 0
133 | 1
174 | 6
233 | 6
264 | 1
283 | 4
297 | 2
318 | 0
农村居民
:
13 | 8
15 | 8
17 | 8
19 | 9
22 | 1
24 | 6
28 | 3
34 | 7
37 | 6
41 | 7
50 | 8
55 | 3
57 | 1
62 | 1
71 | 8
85 | 5
111 | 8
143 | 4
176 | 8
187 | 6
189 | 5
197 | 3
城镇居民
:
40 | 5
43 | 4
49 | 6
56 | 2
57 | 6
60 | 3
66 | 2
80 | 2
92 | 0
108 | 9
143 | 1
156 | 8
168 | 6
192 | 5
235 | 6
302 | 7
389 | 1
487 | 4
543 | 0
579 | 6
621 | 7
665 | 1
箱线图
blt = plt.boxplot(cost, notch=False, sym='o',vert=True, patch_artist=True);
plt.xticks((1,2,3),('nationwide','village','towns'))
plt.title('CitzenCostData')
plt.show()
图示
:
作出相关性分析
print(costData[['全国居民','农村居民','城镇居民']].corr())
结果
:
全国居民 农村居民 城镇居民
全国居民 1.000000 0.998566 0.998979
农村居民 0.998566 1.000000 0.996380
城镇居民 0.998979 0.996380 1.000000
进行正态性分析和检验
for i in range(3):print('正态性检验',st.kstest(cost[:,i], 'norm',(np.mean(cost[:,i]), np.std(cost[:,i])),alternative='less'))
结果
:
正态性检验 KstestResult(statistic=0.17356275124497994, pvalue=0.2376239957646608)
正态性检验 KstestResult(statistic=0.16172972700034527, pvalue=0.2853389966713887)
正态性检验 KstestResult(statistic=0.17665671370514657, pvalue=0.22605042482043552)
结论
:
ppp值大于0.05,故接受假设:三种数据均服从正态分布。
数据集:不同地区居民消费数据相关推荐
- 省级面板数据(2000-2019)七:价格指数(居民消费、零售、生产、投资)(stata版)
省级面板数据(2000-2019)七:价格指数(居民消费.零售.生产.投资)(stata版) 数据来源:中国统计年鉴 下载链接:省级面板七:价值指数 一.居民消费价格指数和商品零售价格指数(上年=10 ...
- 大数据早报:时装设计也用上了人工智能,亚马逊研究出新算法;上海地铁趣味消费数据发布(9.12)
数据早知道,上乐投网看早报! 『MongoDB』MongoDB再遭大规模勒索!这可能最全面的数据库防勒索方案 又一起数据库被劫持勒索事件.MongoDB 数据库又双叒叕被攻击了,三个黑客团伙劫持了 2 ...
- 基于ARIMA对我国居民消费价格指数的分析
1.数据收集 根据分析所需内容,搜集以下数据: 2015年到2018年cpi指数月度数据 (数据来源:中经网统计数据库) 2.数据整理 将以上数据整理成表: 3.时间序列对象 本数据分析将使用R st ...
- 北京市历年最低工资+居民消费价格指数
工作需要,整理一下最近5年的北京市最低工资.城乡低保标准和北京市居民消费价格指数等信息,数据来源:北京市统计局,人社部,中央人民政府网站. 2014 2015 2016 2017 2018 201 ...
- [R语言] 10行代码展示我国35个主要城市近一年来居民消费价格指数的变化
前言 近年来,随着我国GDP呈现逐年增长的趋势,居民消费价格指数CPI也开始受到更多人的讨论,国家经济的发展,究竟是提高了居民的生活水平呢,还是增加了居民的生活压力呢? 接下来就让我们通过10行代码, ...
- CnOpenData各地区最低工资数据
CnOpenData各地区最低工资数据 目录 一.数据简介 二.时间区间 三.字段展示 四.样本数据 五.数据更新频率 一.数据简介 最低工资保障制度是我国一项劳动和社会保障制度.我国<劳动法& ...
- 海峡消费报携手HQTS汉斯曼集团,发布中小企业消费数据报告
来源:金融界百家 守护安全·畅通消费 HQTS汉斯曼集团 护航中国质造 2020年疫情给全球的经济和消费市场带来了巨大的冲击,消费行为和消费结构也随之变化,许多新兴消费业态快速发展.与此同时,线上购物 ...
- 居民消费价格指数变化新鲜出炉,这类商品同比涨幅最大
对比分析2022年10月份全国居民消费价格数据发现,今年10 月份CPI 同比增2.5%,维持近8个月新高: PPI 同比增3.3%,同比涨幅较上个月回落 2.2 个百分点. | CPI同比增2. ...
- 基于校园卡消费数据的数据分析与处理
完整代码:https://download.csdn.net/download/pythonyanyan/87392574 任务 1 数据导入与预处理 任务 1.1 探查数据质量并进行缺失值和异常值处 ...
- 技术图文:如何爬取一个地区的气象数据(下)?
背景 架空线路常见的故障有:风偏闪络故障.雷击跳闸故障.雷击断股故障.线路覆冰故障.线路污闪故障.线路外力破坏故障.线路鸟害故障等等.从这些故障中,我们可以看出天气对线路的安全运行起到非常重要的作用. ...
最新文章
- 《转载》Java异常处理的10个最佳实践
- 【安富莱原创开源应用第3期】花式玩转网络摄像头之VNC远程桌面版本,稳定运行2年不死机...
- Java中的synchronized与volatile关键字
- 《伟大的小细节:互联网产品设计中的微创新思维》——
- 遍历矩阵每一行穷举_LeetCode:二维数组—旋转矩阵
- linux 修改默认路径吗,linux中vsftp修改默认路径
- 细胞分裂java移植_胚胎移植前,先调理好你的子宫内膜!
- linux java性能监控工具_Linux实时监控工具Nmon使用
- 【WXS全局对象】Date
- 看了新闻,思科研发中心 没有成都的。。。
- 实现光晕效果_马自达6车灯升级激光四透镜实现四近四远光
- 王者荣耀总决赛因天气原因延期 玩家获得皮肤碎片等补偿
- 今天第72个儿童节,程序猿“童”样精彩~
- C语言 完数问题求解
- 企业销售统计管理页面ui模板
- .bat脚本初体验——使用批处理bat清洗文件名
- python未知长度数组,python – 从具有未知维数的numpy数组中提取超立方体块
- 一个 24 通道 100Msps 逻辑分析仪
- Elasticsearch教程---高亮搜索(十二)
- 怎么查忘仙服务器信息,忘仙怎么跨服战斗 跨服玩法介绍[多图]