数据集:各地区化妆品销量、人口数量和人均收入
数据集:各地区化妆品销量、适用人数和人均收入
本文研究二元线性回归分析。
1. 数据表
地区i | 销量(箱)yi | 人口(千人) xi1 | 人均收入(元)xi2 |
---|---|---|---|
1 | 162 | 274 | 2450 |
2 | 120 | 180 | 3254 |
3 | 223 | 375 | 3802 |
4 | 131 | 205 | 2838 |
5 | 67 | 86 | 2347 |
6 | 169 | 265 | 3782 |
7 | 81 | 98 | 3008 |
8 | 192 | 330 | 2450 |
9 | 116 | 195 | 2137 |
10 | 55 | 53 | 2560 |
11 | 252 | 430 | 4020 |
12 | 232 | 372 | 4427 |
13 | 144 | 236 | 2660 |
14 | 103 | 157 | 2088 |
15 | 212 | 370 | 2605 |
先将数据保存为
2.1.xlsx
.
2. 数据预处理
2.1 导包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.formula.api import ols # 线性回归
2.2 读取数据
data = pd.read_excel('2.1.xlsx')
2.3 规范字段信息(便于绘图显示)
data=data.rename(columns={' 地区i':'i','销量(箱)yi':'Y','人口(千人) xi1':'X1','人均收入(元)xi2':'X2'})
print(data) # 预览字段信息修改后的数据
结果
:
i Y X1 X2
0 1 162 274 2450
1 2 120 180 3254
2 3 223 375 3802
3 4 131 205 2838
4 5 67 86 2347
5 6 169 265 3782
6 7 81 98 3008
7 8 192 330 2450
8 9 116 195 2137
9 10 55 53 2560
10 11 252 430 4020
11 12 232 372 4427
12 13 144 236 2660
13 14 103 157 2088
14 15 212 370 2605
3. 数据描述性分析
describe = data.describe()
print(describe)
结果
:
i Y X1 X2
count 15.000000 15.000000 15.000000 15.000000
mean 8.000000 150.600000 241.733333 2961.866667
std 4.472136 62.049289 116.829831 730.636500
min 1.000000 55.000000 53.000000 2088.000000
25% 4.500000 109.500000 168.500000 2450.000000
50% 8.000000 144.000000 236.000000 2660.000000
75% 11.500000 202.000000 350.000000 3518.000000
max 15.000000 252.000000 430.000000 4427.000000
4. 自变量与因变量线性关系预判断
plt.figure(1);
plt.scatter(data['X1'],data['Y']);
plt.xlabel('$X_1$');
plt.ylabel('$Y$');
plt.title('$X_1-Y$')
plt.figure(2);
plt.scatter(data['X2'],data['Y']);
plt.xlabel('$X_2$');
plt.ylabel('$Y$');
plt.title('$X_2-Y$')
plt.ioff();
plt.show();
图示
:
X1−YX_1-YX1−Y:各地区化妆品销量与人口数量有明显的线性相关性,说明化妆品销量与人口数量成正相关性。
X2−YX_2-YX2−Y:各地区化妆品销量与人均收入没有明显的线性相关性,说明各地区居民经济实力并不显著影响化妆品销量。
5. 计算相关系数
print(data[['Y','X1','X2']].corr())
结果
:
Y X1 X2
Y 1.000000 0.995492 0.639301
X1 0.995492 1.000000 0.568560
X2 0.639301 0.568560 1.000000
结论
:
各地区化妆品销量与人口数量有很强的正相关性,各地区化妆品销量与人均收入没有很强的正相关性。
6. 二元线性回归分析
# 可以调用sklearn中的LinearRegression
lm = ols('Y ~ X1 + X2', data=data).fit()
print(lm.summary())
结果
:
OLS Regression Results
==============================================================================
Dep. Variable: Y R-squared: 0.999
Model: OLS Adj. R-squared: 0.999
Method: Least Squares F-statistic: 5679.
Date: Thu, 30 Sep 2021 Prob (F-statistic): 1.38e-18
Time: 17:36:11 Log-Likelihood: -31.281
No. Observations: 15 AIC: 68.56
Df Residuals: 12 BIC: 70.69
Df Model: 2
Covariance Type: nonrobust
==============================================================================coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
Intercept 3.4526 2.431 1.420 0.181 -1.843 8.749
X1 0.4960 0.006 81.924 0.000 0.483 0.509
X2 0.0092 0.001 9.502 0.000 0.007 0.011
==============================================================================
Omnibus: 0.227 Durbin-Watson: 2.701
Prob(Omnibus): 0.893 Jarque-Bera (JB): 0.412
Skew: -0.115 Prob(JB): 0.814
Kurtosis: 2.221 Cond. No. 1.32e+04
==============================================================================
参数含义参照表
6.1 回归分析,模型检验,系数检验
模型检验
:
- 根据决定系数R2R^2R2的值,即:
R-squared: 0.999
该模型的显著性较好。
- 根据FFF检验的结果:
Prob (F-statistic): 1.38e-18
取α=0.05\alpha=0.05α=0.05,由于1.38e−18<α1.38e-18<\alpha1.38e−18<α,故拒绝原假设(H0H_0H0:模型不是显著的),即认为模型是显著的。
系数检验
:
coef
X1 0.4960
X2 0.0092
观察P>|t|的两个值,均为0.000,由于小于置信水平,通常为0.05,则表明系数在统计上具有显著的关系。
6.2 多重共线性检验, DW检验
- 根据两个变量相关系数的结果:0.568560,可以大致看出,变量间没有很强的多重共线性。
- 根据Durbin-Watson的结果:2.701,可以得出该值在2左右,残差符合正态分布。
from scipy import stats
res = stats.probplot(data['Y'],plot=plt)
图示
:
数据集:各地区化妆品销量、人口数量和人均收入相关推荐
- 【预测模型】基于GM(1,1)预测某地区未来6年的人口数量
目录 预测某地区未来6年的人口数量 预测某地区未来6年的人口数量 灰色预测模型是一种基于灰色系统理论的建模与预测方法,它可以通过对已知数据的处理得到一个适当的预测模型,从而对未来数据进行预测.在MAT ...
- Vue3.0 + Echarts 实现地区人口数量分布展示
需求: 按照人口数量密集度,颜色由浅到深展示 实现: 基于现有的Vue3.0+4.5.13Cli框架,安装Echarts npm install echarts@4.9.0 --save 安装成功后, ...
- 全球各国城镇人口数量(1960-2019年)
数据集名称:全球各国城镇人口数量 时间范围:1960-2019年 数据来源:世界银行--世界发展指标 相关说明:城镇人口是指居住于城市.集镇的人口,主要依据人群的居住地和所从事的产业进行归类.&quo ...
- 爬取全国各地区汽车销量情况并用中国地图可视化展示
爬取全国各地区汽车销量情况并用中国地图可视化展示 项目介绍 网页详情 代码 爬取数据代码 将爬取的数据保存到文档中 中国地图可视化 运行效果 项目介绍 爬取2017年全国各省份的汽车销量情况(由于数据 ...
- 重庆市人口信息平台服务器地址,重庆各区人口数量排名,2021年重庆各区人口数据统计分析...
一个城市的人口数量简介的反映了这个城市活跃度,人口数量庞大说明这个城市的发展是有很大潜力的.人可以带动经济消费促进经济发展.那么重庆所有的地区人口数量是多少?各地区人口排名怎么样?本文小编带你一起了解 ...
- 全国各地区银行业金融机构营业网点数量和金融机构从业人数(2007-2018年)
数据集名称:全国各地区银行业金融机构营业网点数量和金融机构从业人数 时间范围:2007-2018年 数据来源:各省人行公布的<金融运行报告> 相关说明:包含两张表格,分别是<2007 ...
- 神经网络预测未来人口数量
以 1953 年.1964 年.1982 年.1990 年.2000 年.2010 年和 2020 年进行过的七次全国人口普查总人数为基础,再从国家统计局网站(国家统计局>>统计数据)获取 ...
- 2000-2021年我国乡镇级别的人口数量(Shp/Excel格式/无需转发)
我们之前介绍给过两个数据源的省市县三个层级的人口数据,一个是第七次人口普查的数据,这个数据拥有众多指标,比如不同年龄段的人口.不同学历的人口等,但是只有2020年一个年份的数:第二个是从LandSca ...
- 山东十大计算机排名2015,山东省各市人口数量2015年排名
2014-2015年,山东省人口达9789万人. 根据2014年末常住人口数据,将17市按人口规模划分为五档. 第一档(人口超过1000万):1个城市,为临沂市(1022.1万); 第二档 (人口80 ...
- 【R】【纽约人口数量分析】
文章目录 1)实验说明 2)实验环境 3)实验目的 4)实验内容 5)实验步骤 ① 下载并导入数据 ② 对生成的时间序列对象可视化 a. 思考 b. 由上述三种变量查看各个波动趋势数据 c. 由上述结 ...
最新文章
- 解决移动端音频自动播放问题
- SSM 返回静态页面HTML Controller 被递归调用引起的StackOverflowError
- python代码物理_利用python求解物理学中的双弹簧质能系统详解
- .net 刷新页面防止表单二次提交
- php 控制304,php静态文件返回304技巧分享
- cxf返回的报文,命名空间无前缀
- 亚马逊s3的使用方法_使用jclouds库在Amazon S3上上传
- [coursera] [design] Hangman
- 通信 —— 串口与并口
- java ArrayList源码分析(转载)
- 40个Java多线程问题总结【转】
- 宏转录组方法_中山大学医学院施莽教授学术讲座:宏转录组方法在病原生物学领域的应用...
- 电力电子技术(15)——晶闸管直流电动机调速相控电路的驱动控制
- httpclient 下载文件
- Borg和Kubernetes有什么不同?未来的云需要什么?
- 聊天记录没了怎么办?苹果手机微信聊天记录怎么恢复
- NSLayoutConstraint:UITableViewCellContentView:.height == 44冲突的解决办法
- html 链接excel,如何把excel表格中的文本链接变成可点击打开的网址链接(超链接)?...
- springboot整合德鲁伊
- U-Boot 图形化配置
热门文章
- dev项目属性按钮是灰色_【网页特效】11 个文本输入和 6 个按钮操作 特效库
- 正点原子 潘多拉stlink驱动_「正点原子Linux连载」第五十六章Linux自带的LED灯驱动实验...
- linux的mysql不允许连接_linux下允许mysql远程连接
- SparkCore-CacheAndCheckpoint-6
- (转)Android开发书籍推荐:从入门到精通系列学习路线书籍介绍
- 24个可能你现在用不到,但应该了解的 PHP 库
- HDU1426(DFS)
- Nokia 920板砖自救(理论上通用,升级Win10成板砖也可以用这个恢复)
- android之自定义弹框
- LAMP(Linux+Apachd+Mysql+Php)搭建网站环境