数据集:各地区化妆品销量、适用人数和人均收入

本文研究二元线性回归分析。

1. 数据表

地区i 销量(箱)yi 人口(千人) xi1 人均收入(元)xi2
1 162 274 2450
2 120 180 3254
3 223 375 3802
4 131 205 2838
5 67 86 2347
6 169 265 3782
7 81 98 3008
8 192 330 2450
9 116 195 2137
10 55 53 2560
11 252 430 4020
12 232 372 4427
13 144 236 2660
14 103 157 2088
15 212 370 2605

先将数据保存为2.1.xlsx.

2. 数据预处理

2.1 导包

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.formula.api import ols # 线性回归

2.2 读取数据

data = pd.read_excel('2.1.xlsx')

2.3 规范字段信息(便于绘图显示)

data=data.rename(columns={'   地区i':'i','销量(箱)yi':'Y','人口(千人) xi1':'X1','人均收入(元)xi2':'X2'})
print(data) # 预览字段信息修改后的数据

结果

     i    Y   X1    X2
0    1  162  274  2450
1    2  120  180  3254
2    3  223  375  3802
3    4  131  205  2838
4    5   67   86  2347
5    6  169  265  3782
6    7   81   98  3008
7    8  192  330  2450
8    9  116  195  2137
9   10   55   53  2560
10  11  252  430  4020
11  12  232  372  4427
12  13  144  236  2660
13  14  103  157  2088
14  15  212  370  2605

3. 数据描述性分析

describe = data.describe()
print(describe)

结果

               i           Y          X1           X2
count  15.000000   15.000000   15.000000    15.000000
mean    8.000000  150.600000  241.733333  2961.866667
std     4.472136   62.049289  116.829831   730.636500
min     1.000000   55.000000   53.000000  2088.000000
25%     4.500000  109.500000  168.500000  2450.000000
50%     8.000000  144.000000  236.000000  2660.000000
75%    11.500000  202.000000  350.000000  3518.000000
max    15.000000  252.000000  430.000000  4427.000000

4. 自变量与因变量线性关系预判断

plt.figure(1);
plt.scatter(data['X1'],data['Y']);
plt.xlabel('$X_1$');
plt.ylabel('$Y$');
plt.title('$X_1-Y$')
plt.figure(2);
plt.scatter(data['X2'],data['Y']);
plt.xlabel('$X_2$');
plt.ylabel('$Y$');
plt.title('$X_2-Y$')
plt.ioff();
plt.show();

图示
X1−YX_1-YX1​−Y:各地区化妆品销量与人口数量有明显的线性相关性,说明化妆品销量与人口数量成正相关性。

X2−YX_2-YX2​−Y:各地区化妆品销量与人均收入没有明显的线性相关性,说明各地区居民经济实力并不显著影响化妆品销量。

5. 计算相关系数

print(data[['Y','X1','X2']].corr())

结果

            Y        X1        X2
Y   1.000000  0.995492  0.639301
X1  0.995492  1.000000  0.568560
X2  0.639301  0.568560  1.000000

结论
各地区化妆品销量与人口数量有很强的正相关性,各地区化妆品销量与人均收入没有很强的正相关性。

6. 二元线性回归分析

# 可以调用sklearn中的LinearRegression
lm = ols('Y ~ X1 + X2', data=data).fit()
print(lm.summary())

结果

 OLS Regression Results
==============================================================================
Dep. Variable:                      Y   R-squared:                       0.999
Model:                            OLS   Adj. R-squared:                  0.999
Method:                 Least Squares   F-statistic:                     5679.
Date:                Thu, 30 Sep 2021   Prob (F-statistic):           1.38e-18
Time:                        17:36:11   Log-Likelihood:                -31.281
No. Observations:                  15   AIC:                             68.56
Df Residuals:                      12   BIC:                             70.69
Df Model:                           2
Covariance Type:            nonrobust
==============================================================================coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
Intercept      3.4526      2.431      1.420      0.181      -1.843       8.749
X1             0.4960      0.006     81.924      0.000       0.483       0.509
X2             0.0092      0.001      9.502      0.000       0.007       0.011
==============================================================================
Omnibus:                        0.227   Durbin-Watson:                   2.701
Prob(Omnibus):                  0.893   Jarque-Bera (JB):                0.412
Skew:                          -0.115   Prob(JB):                        0.814
Kurtosis:                       2.221   Cond. No.                     1.32e+04
==============================================================================

参数含义参照表

6.1 回归分析,模型检验,系数检验

模型检验

  • 根据决定系数R2R^2R2的值,即:
R-squared:                       0.999

该模型的显著性较好。

  • 根据FFF检验的结果:
Prob (F-statistic):           1.38e-18

取α=0.05\alpha=0.05α=0.05,由于1.38e−18<α1.38e-18<\alpha1.38e−18<α,故拒绝原假设(H0H_0H0​:模型不是显著的),即认为模型是显著的。
系数检验

            coef
X1             0.4960
X2             0.0092

观察P>|t|的两个值,均为0.000,由于小于置信水平,通常为0.05,则表明系数在统计上具有显著的关系。

6.2 多重共线性检验, DW检验

  • 根据两个变量相关系数的结果:0.568560,可以大致看出,变量间没有很强的多重共线性。
  • 根据Durbin-Watson的结果:2.701,可以得出该值在2左右,残差符合正态分布。
from scipy import stats
res = stats.probplot(data['Y'],plot=plt)

图示

数据集:各地区化妆品销量、人口数量和人均收入相关推荐

  1. 【预测模型】基于GM(1,1)预测某地区未来6年的人口数量

    目录 预测某地区未来6年的人口数量 预测某地区未来6年的人口数量 灰色预测模型是一种基于灰色系统理论的建模与预测方法,它可以通过对已知数据的处理得到一个适当的预测模型,从而对未来数据进行预测.在MAT ...

  2. Vue3.0 + Echarts 实现地区人口数量分布展示

    需求: 按照人口数量密集度,颜色由浅到深展示 实现: 基于现有的Vue3.0+4.5.13Cli框架,安装Echarts npm install echarts@4.9.0 --save 安装成功后, ...

  3. 全球各国城镇人口数量(1960-2019年)

    数据集名称:全球各国城镇人口数量 时间范围:1960-2019年 数据来源:世界银行--世界发展指标 相关说明:城镇人口是指居住于城市.集镇的人口,主要依据人群的居住地和所从事的产业进行归类.&quo ...

  4. 爬取全国各地区汽车销量情况并用中国地图可视化展示

    爬取全国各地区汽车销量情况并用中国地图可视化展示 项目介绍 网页详情 代码 爬取数据代码 将爬取的数据保存到文档中 中国地图可视化 运行效果 项目介绍 爬取2017年全国各省份的汽车销量情况(由于数据 ...

  5. 重庆市人口信息平台服务器地址,重庆各区人口数量排名,2021年重庆各区人口数据统计分析...

    一个城市的人口数量简介的反映了这个城市活跃度,人口数量庞大说明这个城市的发展是有很大潜力的.人可以带动经济消费促进经济发展.那么重庆所有的地区人口数量是多少?各地区人口排名怎么样?本文小编带你一起了解 ...

  6. 全国各地区银行业金融机构营业网点数量和金融机构从业人数(2007-2018年)

    数据集名称:全国各地区银行业金融机构营业网点数量和金融机构从业人数 时间范围:2007-2018年 数据来源:各省人行公布的<金融运行报告> 相关说明:包含两张表格,分别是<2007 ...

  7. 神经网络预测未来人口数量

    以 1953 年.1964 年.1982 年.1990 年.2000 年.2010 年和 2020 年进行过的七次全国人口普查总人数为基础,再从国家统计局网站(国家统计局>>统计数据)获取 ...

  8. 2000-2021年我国乡镇级别的人口数量(Shp/Excel格式/无需转发)

    我们之前介绍给过两个数据源的省市县三个层级的人口数据,一个是第七次人口普查的数据,这个数据拥有众多指标,比如不同年龄段的人口.不同学历的人口等,但是只有2020年一个年份的数:第二个是从LandSca ...

  9. 山东十大计算机排名2015,山东省各市人口数量2015年排名

    2014-2015年,山东省人口达9789万人. 根据2014年末常住人口数据,将17市按人口规模划分为五档. 第一档(人口超过1000万):1个城市,为临沂市(1022.1万); 第二档 (人口80 ...

  10. 【R】【纽约人口数量分析】

    文章目录 1)实验说明 2)实验环境 3)实验目的 4)实验内容 5)实验步骤 ① 下载并导入数据 ② 对生成的时间序列对象可视化 a. 思考 b. 由上述三种变量查看各个波动趋势数据 c. 由上述结 ...

最新文章

  1. 解决移动端音频自动播放问题
  2. SSM 返回静态页面HTML Controller 被递归调用引起的StackOverflowError
  3. python代码物理_利用python求解物理学中的双弹簧质能系统详解
  4. .net 刷新页面防止表单二次提交
  5. php 控制304,php静态文件返回304技巧分享
  6. cxf返回的报文,命名空间无前缀
  7. 亚马逊s3的使用方法_使用jclouds库在Amazon S3上上传
  8. [coursera] [design] Hangman
  9. 通信 —— 串口与并口
  10. java ArrayList源码分析(转载)
  11. 40个Java多线程问题总结【转】
  12. 宏转录组方法_中山大学医学院施莽教授学术讲座:宏转录组方法在病原生物学领域的应用...
  13. 电力电子技术(15)——晶闸管直流电动机调速相控电路的驱动控制
  14. httpclient 下载文件
  15. Borg和Kubernetes有什么不同?未来的云需要什么?
  16. 聊天记录没了怎么办?苹果手机微信聊天记录怎么恢复
  17. NSLayoutConstraint:UITableViewCellContentView:.height == 44冲突的解决办法
  18. html 链接excel,如何把excel表格中的文本链接变成可点击打开的网址链接(超链接)?...
  19. springboot整合德鲁伊
  20. U-Boot 图形化配置

热门文章

  1. dev项目属性按钮是灰色_【网页特效】11 个文本输入和 6 个按钮操作 特效库
  2. 正点原子 潘多拉stlink驱动_「正点原子Linux连载」第五十六章Linux自带的LED灯驱动实验...
  3. linux的mysql不允许连接_linux下允许mysql远程连接
  4. SparkCore-CacheAndCheckpoint-6
  5. (转)Android开发书籍推荐:从入门到精通系列学习路线书籍介绍
  6. 24个可能你现在用不到,但应该了解的 PHP 库
  7. HDU1426(DFS)
  8. Nokia 920板砖自救(理论上通用,升级Win10成板砖也可以用这个恢复)
  9. android之自定义弹框
  10. LAMP(Linux+Apachd+Mysql+Php)搭建网站环境