数据集：R&D支出、GDP和能源消耗

1. 数据表

年份	R&D支出（亿元）	GDP（亿元）	能源消耗（万吨标准煤）
2013	11906	568845	379732
2012	10298.4	519470.1	361732
2011	8687	473104.1	348001.66
2010	7062.6	401512.8	324939.15
2009	5802.1	340902.8	306647.15
2008	4616	314045.4	291448.29
2007	3710.2	265810.3	280507.94
2006	3003.1	216314.4	258676.3
2005	2450	184937.4	235996.65
2004	1966.3	159878.3	213455.99
2003	1539.6	135822.8	183791.82
2002	1287.6	120332.7	159430.99
2001	1042.5	109655.2	150405.8
2000	895.7	99214.55	145530.86
1999	678.9	89677.05	140569
1998	551.1	84402.28	136184
1997	509.2	78973.03	135909
1996	404.5	71176.59	135192
1995	348.7	60793.73	131176
1994	265.09	48197.86	122737
1993	240.27	35333.92	115993
1992	297.92	26923.48	109170
1991	163.36	21781.5	103783
1990	125	18667.82	98703

先将数据保存为2.2.xlsx

2. 数据预处理

2.1 导包

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.formula.api import ols

2.2 读取并规范字段名称

data = pd.read_excel('2.2.xlsx')
data=data.rename(columns={'年份':'Year','R&D支出（亿元）':'RD','GDP（亿元）  ':'GDP','能源消耗（万吨标准煤）':'energyConsume'})
print(data)

处理后的数据：

    Year        RD        GDP  energyConsume
0   2013  11906.00  568845.00      379732.00
1   2012  10298.40  519470.10      361732.00
2   2011   8687.00  473104.05      348001.66
3   2010   7062.60  401512.80      324939.15
4   2009   5802.10  340902.81      306647.15
5   2008   4616.00  314045.43      291448.29
6   2007   3710.20  265810.31      280507.94
7   2006   3003.10  216314.43      258676.30
8   2005   2450.00  184937.37      235996.65
9   2004   1966.30  159878.34      213455.99
10  2003   1539.60  135822.76      183791.82
11  2002   1287.60  120332.69      159430.99
12  2001   1042.50  109655.17      150405.80
13  2000    895.70   99214.55      145530.86
14  1999    678.90   89677.05      140569.00
15  1998    551.10   84402.28      136184.00
16  1997    509.20   78973.03      135909.00
17  1996    404.50   71176.59      135192.00
18  1995    348.70   60793.73      131176.00
19  1994    265.09   48197.86      122737.00
20  1993    240.27   35333.92      115993.00
21  1992    297.92   26923.48      109170.00
22  1991    163.36   21781.50      103783.00
23  1990    125.00   18667.82       98703.00

3. 数据描述性分析

describe = data.describe()
print(describe)

结果：

              Year            RD            GDP  energyConsume
count    24.000000     24.000000      24.000000      24.000000
mean   2001.500000   2827.130833  185240.544583  202904.691667
std       7.071068   3466.864991  166428.586244   92240.219636
min    1990.000000    125.000000   18667.820000   98703.000000
25%    1995.750000    390.550000   68580.875000  134188.000000
50%    2001.500000   1165.050000  114993.930000  154918.395000
75%    2007.250000   3936.650000  277869.090000  283243.027500
max    2013.000000  11906.000000  568845.000000  379732.000000

4. 自变量与因变量关系判断

plt.figure(1);
plt.scatter(data['RD'],data['GDP']);
plt.xlabel('$RD$');
plt.ylabel('$GDP$');
plt.title('RD-GDP')
plt.figure(2);
plt.scatter(data['GDP'],data['energyConsume']);
plt.xlabel('$GDP$');
plt.ylabel('$energyConsume$');
plt.title('GDP-energyConsume')
plt.figure(3);
plt.scatter(data['energyConsume'],data['RD']);
plt.ylabel('$RD$');
plt.xlabel('$energyConsume$');
plt.title('energyConsume-RD')
plt.ioff();
plt.show();

可以看出，自1990年起的一段时间，数据变化缓慢，在图像中显示为数据点较为密集，说明这段时间内国力不够强大，居民消费水平、支出与能源消耗增长缓慢。

5. 计算相关系数

print(data[['RD','GDP','energyConsume']].corr())

结果：

                      RD       GDP  energyConsume
RD             1.000000  0.989405       0.948299
GDP            0.989405  1.000000       0.979595
energyConsume  0.948299  0.979595       1.000000

可以看出，各变量间的正相关性都很强。

6. 二元线性回归分析

# 也可以调用sklearn中的LinearRegression
lm = ols('GDP ~ RD + energyConsume', data=data).fit()
print(lm.summary())

结果：

                            OLS Regression Results
==============================================================================
Dep. Variable:                    GDP   R-squared:                       0.996
Model:                            OLS   Adj. R-squared:                  0.995
Method:                 Least Squares   F-statistic:                     2545.
Date:                Sun, 03 Oct 2021   Prob (F-statistic):           8.80e-26
Time:                        15:21:09   Log-Likelihood:                -256.14
No. Observations:                  24   AIC:                             518.3
Df Residuals:                      21   BIC:                             521.8
Df Model:                           2
Covariance Type:            nonrobust
=================================================================================coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
Intercept     -4.648e+04   1.09e+04     -4.274      0.000   -6.91e+04   -2.39e+04
RD               28.8123      2.116     13.618      0.000      24.412      33.212
energyConsume     0.7405      0.080      9.312      0.000       0.575       0.906
==============================================================================
Omnibus:                       10.013   Durbin-Watson:                   0.580
Prob(Omnibus):                  0.007   Jarque-Bera (JB):                2.182
Skew:                          -0.057   Prob(JB):                        0.336
Kurtosis:                       1.527   Cond. No.                     1.06e+06
==============================================================================

参照表

根据测试，以GDP为因变量，RD、energyConsume为自变量，能更好地描述数据间的关系。
模型检验：
首先，根据R-squared=0.996，可以得出该模型对y的解释能力很强，拟合效果很好。
再次，根据Prob (F-statistic)=8.80e-26，取α=0.05\alpha=0.05α=0.05，因为8.80e−26<0.058.80e-26<0.058.80e−26<0.05，表示拒绝原假设，即认为模型是显著的。
系数检验：
由于截距Intercept，RD，energyConsume的系数检验的p值均为0.000，均小于0.05，故该系数在统计上具有显著性。
正态概率图：

from scipy import stats
res = stats.probplot(data['GDP'],plot=plt)

数据集：RD支出、GDP和能源消耗相关推荐

GDP平减指数整理（1978-2017年）
数据集名称:GDP平减指数数据集时间范围:1978-2017年数据来源:国家统计局相关说明:GDP平减指数=名义GDP/实际GDP ,实际GDP又称不变价GDP,名义GDP就是新闻中公布的数字, ...
Tableau CA考试lod详细级别专题解析
Tableau CA考试lod专题解析(2021.06.28考试真题) 1.创建一个视图,以区域为行,AVG(GDP)为列,不使用表计算函数,要创建可现实整个数据集平均GDP的计算字段,下面那个语句是 ...
余淼杰老师经济学原理复习笔记（宏观1） 2020-12-14
经济学原理复习笔记(宏观1) 第八章宏观经济学的数据 chapter 23 一国收入的衡量 23.1 经济的收入与支出--GDP 23.2 国内生产总值(Gross Domestic Product ...
数据科学、管理科学系课程教学课件——FineReport实验指导书节选====银行财务报表
数据科学.管理科学系课程教学,0基础也能掌握,本节讲述的是金融经管类专业的数据科学.管理科学系课程案例:银行财务报表使用数据数据链接选择fredu数据库文件. 资产负债使用到:偿债能力 ...
一、DMSP/OLS、NPP/VIIRS夜间灯光数据之城市建成区提取之理论介绍
图1 环渤海城市群城市建成区扩张图一.前言对于上述图1,很多小伙伴可能见过类似的,那么这种图怎么来通过GIS或者通过其他软件实现.早期由于遥感影像种类有限,大部分城市建成区范围通过Landsat等 ...
全球各国研发支出占GDP比例（1996-2018年）
数据集名称:全球各国研发支出占GDP比例时间范围:1996-2018年数据来源:世界银行相关说明: R&D (research and development),指在科学技术领域,为增加 ...
pandas：世界各国GDP数据集数据清洗案例
数据集:世界各国1960年至2020年国内生产总值数据格式:CSV 数据来源:World Bank 实验环境:Jupyter Notebook 网盘链接: 百度网盘-GDP数据集文章目录 1.1 ...
GDP、人口普查、结婚离婚等40+个社会科学数据集
美国总统竞选Tweet数据集 2020年各省市GDP和各省人均GDP 1997-2019分省人力资本及就业人员受教育程度构成全球恐怖主义研究数据集快速约会实验数据集我国主要城市年度数据第七次全 ...
农村城镇面板数据集：地级市人均消费与支出2012-2019各省农村数据2013-2019
1.2002-2019年地级市人均消费与支出数据 1.数据来源:wind 2.时间跨度:2012-2019 3.区域范围:287个地级市 4.指标说明: 包含以下四个指标:人均可支配收入(农村).人 ...
也谈GDP核算：支出法与收入法中的弯弯绕绕
写在前面国内经济学本科学习的<宏观经济学>课程,无论是马工程的教材还是高鸿业的教材都把国民经济核算以及一些基本的宏观经济指标放到课本首章,以此给学生进行宏观经济学的入门.用意是很好的.但 ...

数据集：RD支出、GDP和能源消耗

数据集：R&D支出、GDP和能源消耗

1. 数据表

2. 数据预处理

2.1 导包

2.2 读取并规范字段名称

3. 数据描述性分析

4. 自变量与因变量关系判断

5. 计算相关系数

6. 二元线性回归分析

数据集：RD支出、GDP和能源消耗相关推荐

最新文章

热门文章