数据集:RD支出、GDP和能源消耗
数据集:R&D支出、GDP和能源消耗
1. 数据表
年份 | R&D支出(亿元) | GDP(亿元) | 能源消耗(万吨标准煤) |
---|---|---|---|
2013 | 11906 | 568845 | 379732 |
2012 | 10298.4 | 519470.1 | 361732 |
2011 | 8687 | 473104.1 | 348001.66 |
2010 | 7062.6 | 401512.8 | 324939.15 |
2009 | 5802.1 | 340902.8 | 306647.15 |
2008 | 4616 | 314045.4 | 291448.29 |
2007 | 3710.2 | 265810.3 | 280507.94 |
2006 | 3003.1 | 216314.4 | 258676.3 |
2005 | 2450 | 184937.4 | 235996.65 |
2004 | 1966.3 | 159878.3 | 213455.99 |
2003 | 1539.6 | 135822.8 | 183791.82 |
2002 | 1287.6 | 120332.7 | 159430.99 |
2001 | 1042.5 | 109655.2 | 150405.8 |
2000 | 895.7 | 99214.55 | 145530.86 |
1999 | 678.9 | 89677.05 | 140569 |
1998 | 551.1 | 84402.28 | 136184 |
1997 | 509.2 | 78973.03 | 135909 |
1996 | 404.5 | 71176.59 | 135192 |
1995 | 348.7 | 60793.73 | 131176 |
1994 | 265.09 | 48197.86 | 122737 |
1993 | 240.27 | 35333.92 | 115993 |
1992 | 297.92 | 26923.48 | 109170 |
1991 | 163.36 | 21781.5 | 103783 |
1990 | 125 | 18667.82 | 98703 |
先将数据保存为
2.2.xlsx
2. 数据预处理
2.1 导包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.formula.api import ols
2.2 读取并规范字段名称
data = pd.read_excel('2.2.xlsx')
data=data.rename(columns={'年份':'Year','R&D支出(亿元)':'RD','GDP(亿元) ':'GDP','能源消耗(万吨标准煤)':'energyConsume'})
print(data)
处理后的数据
:
Year RD GDP energyConsume
0 2013 11906.00 568845.00 379732.00
1 2012 10298.40 519470.10 361732.00
2 2011 8687.00 473104.05 348001.66
3 2010 7062.60 401512.80 324939.15
4 2009 5802.10 340902.81 306647.15
5 2008 4616.00 314045.43 291448.29
6 2007 3710.20 265810.31 280507.94
7 2006 3003.10 216314.43 258676.30
8 2005 2450.00 184937.37 235996.65
9 2004 1966.30 159878.34 213455.99
10 2003 1539.60 135822.76 183791.82
11 2002 1287.60 120332.69 159430.99
12 2001 1042.50 109655.17 150405.80
13 2000 895.70 99214.55 145530.86
14 1999 678.90 89677.05 140569.00
15 1998 551.10 84402.28 136184.00
16 1997 509.20 78973.03 135909.00
17 1996 404.50 71176.59 135192.00
18 1995 348.70 60793.73 131176.00
19 1994 265.09 48197.86 122737.00
20 1993 240.27 35333.92 115993.00
21 1992 297.92 26923.48 109170.00
22 1991 163.36 21781.50 103783.00
23 1990 125.00 18667.82 98703.00
3. 数据描述性分析
describe = data.describe()
print(describe)
结果
:
Year RD GDP energyConsume
count 24.000000 24.000000 24.000000 24.000000
mean 2001.500000 2827.130833 185240.544583 202904.691667
std 7.071068 3466.864991 166428.586244 92240.219636
min 1990.000000 125.000000 18667.820000 98703.000000
25% 1995.750000 390.550000 68580.875000 134188.000000
50% 2001.500000 1165.050000 114993.930000 154918.395000
75% 2007.250000 3936.650000 277869.090000 283243.027500
max 2013.000000 11906.000000 568845.000000 379732.000000
4. 自变量与因变量关系判断
plt.figure(1);
plt.scatter(data['RD'],data['GDP']);
plt.xlabel('$RD$');
plt.ylabel('$GDP$');
plt.title('RD-GDP')
plt.figure(2);
plt.scatter(data['GDP'],data['energyConsume']);
plt.xlabel('$GDP$');
plt.ylabel('$energyConsume$');
plt.title('GDP-energyConsume')
plt.figure(3);
plt.scatter(data['energyConsume'],data['RD']);
plt.ylabel('$RD$');
plt.xlabel('$energyConsume$');
plt.title('energyConsume-RD')
plt.ioff();
plt.show();
可以看出,自1990年起的一段时间,数据变化缓慢,在图像中显示为数据点较为密集,说明这段时间内国力不够强大,居民消费水平、支出与能源消耗增长缓慢。
5. 计算相关系数
print(data[['RD','GDP','energyConsume']].corr())
结果
:
RD GDP energyConsume
RD 1.000000 0.989405 0.948299
GDP 0.989405 1.000000 0.979595
energyConsume 0.948299 0.979595 1.000000
可以看出,各变量间的正相关性都很强。
6. 二元线性回归分析
# 也可以调用sklearn中的LinearRegression
lm = ols('GDP ~ RD + energyConsume', data=data).fit()
print(lm.summary())
结果
:
OLS Regression Results
==============================================================================
Dep. Variable: GDP R-squared: 0.996
Model: OLS Adj. R-squared: 0.995
Method: Least Squares F-statistic: 2545.
Date: Sun, 03 Oct 2021 Prob (F-statistic): 8.80e-26
Time: 15:21:09 Log-Likelihood: -256.14
No. Observations: 24 AIC: 518.3
Df Residuals: 21 BIC: 521.8
Df Model: 2
Covariance Type: nonrobust
=================================================================================coef std err t P>|t| [0.025 0.975]
---------------------------------------------------------------------------------
Intercept -4.648e+04 1.09e+04 -4.274 0.000 -6.91e+04 -2.39e+04
RD 28.8123 2.116 13.618 0.000 24.412 33.212
energyConsume 0.7405 0.080 9.312 0.000 0.575 0.906
==============================================================================
Omnibus: 10.013 Durbin-Watson: 0.580
Prob(Omnibus): 0.007 Jarque-Bera (JB): 2.182
Skew: -0.057 Prob(JB): 0.336
Kurtosis: 1.527 Cond. No. 1.06e+06
==============================================================================
参照表
根据测试,以GDP为因变量,RD、energyConsume为自变量,能更好地描述数据间的关系。
模型检验
:
首先,根据R-squared=0.996,可以得出该模型对y的解释能力很强,拟合效果很好。
再次,根据Prob (F-statistic)=8.80e-26,取α=0.05\alpha=0.05α=0.05,因为8.80e−26<0.058.80e-26<0.058.80e−26<0.05,表示拒绝原假设,即认为模型是显著的。
系数检验
:
由于截距Intercept
,RD,energyConsume的系数检验的p值均为0.000,均小于0.05,故该系数在统计上具有显著性。
正态概率图
:
from scipy import stats
res = stats.probplot(data['GDP'],plot=plt)
数据集:RD支出、GDP和能源消耗相关推荐
- GDP平减指数整理 (1978-2017年)
数据集名称:GDP平减指数数据集 时间范围:1978-2017年 数据来源:国家统计局 相关说明:GDP平减指数=名义GDP/实际GDP ,实际GDP又称不变价GDP,名义GDP就是新闻中公布的数字, ...
- Tableau CA考试lod详细级别专题解析
Tableau CA考试lod专题解析(2021.06.28考试真题) 1.创建一个视图,以区域为行,AVG(GDP)为列,不使用表计算函数,要创建可现实整个数据集平均GDP的计算字段,下面那个语句是 ...
- 余淼杰老师 经济学原理复习笔记(宏观1) 2020-12-14
经济学原理复习笔记(宏观1) 第八章 宏观经济学的数据 chapter 23 一国收入的衡量 23.1 经济的收入与支出--GDP 23.2 国内生产总值(Gross Domestic Product ...
- 数据科学、管理科学系课程教学课件——FineReport实验指导书节选====银行财务报表
数据科学.管理科学系课程教学,0基础也能掌握,本节讲述的是金融经管类专业的数据科学.管理科学系课程案例:银行财务报表 使用数据 数据链接选择fredu数据库文件. 资产负债使用到:偿债能力 ...
- 一、DMSP/OLS、NPP/VIIRS夜间灯光数据之城市建成区提取之理论介绍
图1 环渤海城市群城市建成区扩张图 一.前言 对于上述图1,很多小伙伴可能见过类似的,那么这种图怎么来通过GIS或者通过其他软件实现.早期由于遥感影像种类有限,大部分城市建成区范围通过Landsat等 ...
- 全球各国研发支出占GDP比例(1996-2018年)
数据集名称:全球各国研发支出占GDP比例 时间范围:1996-2018年 数据来源:世界银行 相关说明: R&D (research and development),指在科学技术领域,为增加 ...
- pandas:世界各国GDP数据集数据清洗案例
数据集:世界各国1960年至2020年国内生产总值 数据格式:CSV 数据来源:World Bank 实验环境:Jupyter Notebook 网盘链接: 百度网盘-GDP数据集 文章目录 1.1 ...
- GDP、人口普查、结婚离婚等40+个社会科学数据集
美国总统竞选Tweet数据集 2020年各省市GDP和各省人均GDP 1997-2019分省人力资本及就业人员受教育程度构成 全球恐怖主义研究数据集 快速约会实验数据集 我国主要城市年度数据 第七次全 ...
- 农村城镇面板数据集:地级市人均消费与支出2012-2019各省农村数据2013-2019
1.2002-2019年地级市人均消费与支出数据 1.数据来源:wind 2.时间跨度:2012-2019 3.区域范围:287个地级市 4.指标说明: 包含以下四个指标:人均可支配收入(农村).人 ...
- 也谈GDP核算:支出法与收入法中的弯弯绕绕
写在前面 国内经济学本科学习的<宏观经济学>课程,无论是马工程的教材还是高鸿业的教材都把国民经济核算以及一些基本的宏观经济指标放到课本首章,以此给学生进行宏观经济学的入门.用意是很好的.但 ...
最新文章
- 什么是DCI? 它有什么用?
- 计算机组装安全常识,计算机组装与维护宝典
- 现代NLP中的零样本学习
- 命令提示符(cmd)中的tracert命令使用
- vim中设置python代码缩进为4个空格
- Alpha 冲刺 (10/10)
- 三级数据库还是linux好,08年计算机三级数据库辅导:如何修改Linux下MySQL5.0的默认连接数...
- 数据挖掘之关联分析一(基本概念)
- P4139-上帝与集合的正确用法【欧拉定理】
- windows系统下的云服务器部署tomcat
- “家乡好物直播”走进“水果第一县”,人大教授变身“好物推荐官”
- 对象内存布局 (15)
- 跟我一起学Vim补全神级插件--YouCompleteMe
- 十一、网络编程。TCP\UDP\socket
- windows环境下安装selenium
- WinForm控件之【MonthCalendar】
- 软件验收测试之α测试和β测试分别是什么?
- 关于逆序的一些基本操作
- 原生js写网页下拉菜单
- C语言程序设计——猜数字游戏