数据集:R&D支出、GDP和能源消耗

1. 数据表

年份 R&D支出(亿元) GDP(亿元) 能源消耗(万吨标准煤)
2013 11906 568845 379732
2012 10298.4 519470.1 361732
2011 8687 473104.1 348001.66
2010 7062.6 401512.8 324939.15
2009 5802.1 340902.8 306647.15
2008 4616 314045.4 291448.29
2007 3710.2 265810.3 280507.94
2006 3003.1 216314.4 258676.3
2005 2450 184937.4 235996.65
2004 1966.3 159878.3 213455.99
2003 1539.6 135822.8 183791.82
2002 1287.6 120332.7 159430.99
2001 1042.5 109655.2 150405.8
2000 895.7 99214.55 145530.86
1999 678.9 89677.05 140569
1998 551.1 84402.28 136184
1997 509.2 78973.03 135909
1996 404.5 71176.59 135192
1995 348.7 60793.73 131176
1994 265.09 48197.86 122737
1993 240.27 35333.92 115993
1992 297.92 26923.48 109170
1991 163.36 21781.5 103783
1990 125 18667.82 98703

先将数据保存为2.2.xlsx

2. 数据预处理

2.1 导包

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.formula.api import ols

2.2 读取并规范字段名称

data = pd.read_excel('2.2.xlsx')
data=data.rename(columns={'年份':'Year','R&D支出(亿元)':'RD','GDP(亿元)  ':'GDP','能源消耗(万吨标准煤)':'energyConsume'})
print(data)

处理后的数据

    Year        RD        GDP  energyConsume
0   2013  11906.00  568845.00      379732.00
1   2012  10298.40  519470.10      361732.00
2   2011   8687.00  473104.05      348001.66
3   2010   7062.60  401512.80      324939.15
4   2009   5802.10  340902.81      306647.15
5   2008   4616.00  314045.43      291448.29
6   2007   3710.20  265810.31      280507.94
7   2006   3003.10  216314.43      258676.30
8   2005   2450.00  184937.37      235996.65
9   2004   1966.30  159878.34      213455.99
10  2003   1539.60  135822.76      183791.82
11  2002   1287.60  120332.69      159430.99
12  2001   1042.50  109655.17      150405.80
13  2000    895.70   99214.55      145530.86
14  1999    678.90   89677.05      140569.00
15  1998    551.10   84402.28      136184.00
16  1997    509.20   78973.03      135909.00
17  1996    404.50   71176.59      135192.00
18  1995    348.70   60793.73      131176.00
19  1994    265.09   48197.86      122737.00
20  1993    240.27   35333.92      115993.00
21  1992    297.92   26923.48      109170.00
22  1991    163.36   21781.50      103783.00
23  1990    125.00   18667.82       98703.00

3. 数据描述性分析

describe = data.describe()
print(describe)

结果

              Year            RD            GDP  energyConsume
count    24.000000     24.000000      24.000000      24.000000
mean   2001.500000   2827.130833  185240.544583  202904.691667
std       7.071068   3466.864991  166428.586244   92240.219636
min    1990.000000    125.000000   18667.820000   98703.000000
25%    1995.750000    390.550000   68580.875000  134188.000000
50%    2001.500000   1165.050000  114993.930000  154918.395000
75%    2007.250000   3936.650000  277869.090000  283243.027500
max    2013.000000  11906.000000  568845.000000  379732.000000

4. 自变量与因变量关系判断

plt.figure(1);
plt.scatter(data['RD'],data['GDP']);
plt.xlabel('$RD$');
plt.ylabel('$GDP$');
plt.title('RD-GDP')
plt.figure(2);
plt.scatter(data['GDP'],data['energyConsume']);
plt.xlabel('$GDP$');
plt.ylabel('$energyConsume$');
plt.title('GDP-energyConsume')
plt.figure(3);
plt.scatter(data['energyConsume'],data['RD']);
plt.ylabel('$RD$');
plt.xlabel('$energyConsume$');
plt.title('energyConsume-RD')
plt.ioff();
plt.show();




可以看出,自1990年起的一段时间,数据变化缓慢,在图像中显示为数据点较为密集,说明这段时间内国力不够强大,居民消费水平、支出与能源消耗增长缓慢。

5. 计算相关系数

print(data[['RD','GDP','energyConsume']].corr())

结果

                      RD       GDP  energyConsume
RD             1.000000  0.989405       0.948299
GDP            0.989405  1.000000       0.979595
energyConsume  0.948299  0.979595       1.000000

可以看出,各变量间的正相关性都很强。

6. 二元线性回归分析

# 也可以调用sklearn中的LinearRegression
lm = ols('GDP ~ RD + energyConsume', data=data).fit()
print(lm.summary())

结果

                            OLS Regression Results
==============================================================================
Dep. Variable:                    GDP   R-squared:                       0.996
Model:                            OLS   Adj. R-squared:                  0.995
Method:                 Least Squares   F-statistic:                     2545.
Date:                Sun, 03 Oct 2021   Prob (F-statistic):           8.80e-26
Time:                        15:21:09   Log-Likelihood:                -256.14
No. Observations:                  24   AIC:                             518.3
Df Residuals:                      21   BIC:                             521.8
Df Model:                           2
Covariance Type:            nonrobust
=================================================================================coef    std err          t      P>|t|      [0.025      0.975]
---------------------------------------------------------------------------------
Intercept     -4.648e+04   1.09e+04     -4.274      0.000   -6.91e+04   -2.39e+04
RD               28.8123      2.116     13.618      0.000      24.412      33.212
energyConsume     0.7405      0.080      9.312      0.000       0.575       0.906
==============================================================================
Omnibus:                       10.013   Durbin-Watson:                   0.580
Prob(Omnibus):                  0.007   Jarque-Bera (JB):                2.182
Skew:                          -0.057   Prob(JB):                        0.336
Kurtosis:                       1.527   Cond. No.                     1.06e+06
==============================================================================

参照表

根据测试,以GDP为因变量,RD、energyConsume为自变量,能更好地描述数据间的关系。
模型检验
首先,根据R-squared=0.996,可以得出该模型对y的解释能力很强,拟合效果很好。
再次,根据Prob (F-statistic)=8.80e-26,取α=0.05\alpha=0.05α=0.05,因为8.80e−26<0.058.80e-26<0.058.80e−26<0.05,表示拒绝原假设,即认为模型是显著的。
系数检验
由于截距Intercept,RD,energyConsume的系数检验的p值均为0.000,均小于0.05,故该系数在统计上具有显著性。
正态概率图

from scipy import stats
res = stats.probplot(data['GDP'],plot=plt)

数据集:RD支出、GDP和能源消耗相关推荐

  1. GDP平减指数整理 (1978-2017年)

    数据集名称:GDP平减指数数据集 时间范围:1978-2017年 数据来源:国家统计局 相关说明:GDP平减指数=名义GDP/实际GDP ,实际GDP又称不变价GDP,名义GDP就是新闻中公布的数字, ...

  2. Tableau CA考试lod详细级别专题解析

    Tableau CA考试lod专题解析(2021.06.28考试真题) 1.创建一个视图,以区域为行,AVG(GDP)为列,不使用表计算函数,要创建可现实整个数据集平均GDP的计算字段,下面那个语句是 ...

  3. 余淼杰老师 经济学原理复习笔记(宏观1) 2020-12-14

    经济学原理复习笔记(宏观1) 第八章 宏观经济学的数据 chapter 23 一国收入的衡量 23.1 经济的收入与支出--GDP 23.2 国内生产总值(Gross Domestic Product ...

  4. 数据科学、管理科学系课程教学课件——FineReport实验指导书节选====银行财务报表

      数据科学.管理科学系课程教学,0基础也能掌握,本节讲述的是金融经管类专业的数据科学.管理科学系课程案例:银行财务报表 使用数据   数据链接选择fredu数据库文件.   资产负债使用到:偿债能力 ...

  5. 一、DMSP/OLS、NPP/VIIRS夜间灯光数据之城市建成区提取之理论介绍

    图1 环渤海城市群城市建成区扩张图 一.前言 对于上述图1,很多小伙伴可能见过类似的,那么这种图怎么来通过GIS或者通过其他软件实现.早期由于遥感影像种类有限,大部分城市建成区范围通过Landsat等 ...

  6. 全球各国研发支出占GDP比例(1996-2018年)

    数据集名称:全球各国研发支出占GDP比例 时间范围:1996-2018年 数据来源:世界银行 相关说明: R&D (research and development),指在科学技术领域,为增加 ...

  7. pandas:世界各国GDP数据集数据清洗案例

    数据集:世界各国1960年至2020年国内生产总值 数据格式:CSV 数据来源:World Bank 实验环境:Jupyter Notebook 网盘链接: 百度网盘-GDP数据集 文章目录 1.1 ...

  8. GDP、人口普查、结婚离婚等40+个社会科学数据集

    美国总统竞选Tweet数据集 2020年各省市GDP和各省人均GDP 1997-2019分省人力资本及就业人员受教育程度构成 全球恐怖主义研究数据集 快速约会实验数据集 我国主要城市年度数据 第七次全 ...

  9. 农村城镇面板数据集:地级市人均消费与支出2012-2019各省农村数据2013-2019

     1.2002-2019年地级市人均消费与支出数据 1.数据来源:wind 2.时间跨度:2012-2019 3.区域范围:287个地级市 4.指标说明: 包含以下四个指标:人均可支配收入(农村).人 ...

  10. 也谈GDP核算:支出法与收入法中的弯弯绕绕

    写在前面 国内经济学本科学习的<宏观经济学>课程,无论是马工程的教材还是高鸿业的教材都把国民经济核算以及一些基本的宏观经济指标放到课本首章,以此给学生进行宏观经济学的入门.用意是很好的.但 ...

最新文章

  1. 什么是DCI? 它有什么用?
  2. 计算机组装安全常识,计算机组装与维护宝典
  3. 现代NLP中的零样本学习
  4. 命令提示符(cmd)中的tracert命令使用
  5. vim中设置python代码缩进为4个空格
  6. Alpha 冲刺 (10/10)
  7. 三级数据库还是linux好,08年计算机三级数据库辅导:如何修改Linux下MySQL5.0的默认连接数...
  8. 数据挖掘之关联分析一(基本概念)
  9. P4139-上帝与集合的正确用法【欧拉定理】
  10. windows系统下的云服务器部署tomcat
  11. “家乡好物直播”走进“水果第一县”,人大教授变身“好物推荐官”
  12. 对象内存布局 (15)
  13. 跟我一起学Vim补全神级插件--YouCompleteMe
  14. 十一、网络编程。TCP\UDP\socket
  15. windows环境下安装selenium
  16. WinForm控件之【MonthCalendar】
  17. 软件验收测试之α测试和β测试分别是什么?
  18. 关于逆序的一些基本操作
  19. 原生js写网页下拉菜单
  20. C语言程序设计——猜数字游戏

热门文章

  1. vue组件之间互相传值:兄弟组件通信
  2. 【转】响应式布局和自适应布局详解
  3. IntelliJ IDEA 2019.1 EAP5 发布,Maven 构建输出统一查看
  4. 提升研发团队战斗力的方法
  5. jquery 操作表格实例
  6. Warning:mailcious javascript detected on this domain来由
  7. 虚拟机队列实战虚拟化存储设计之LUN Sizing
  8. SSH 登录太慢的解决方法
  9. 如何解决xp进系统的时候需要按enter键
  10. mybatis-generator逆向工程生成boolean字段解决办法