数据集的概况:
1. 性别:保险承包商性别,女性,男性
2. bmi:身体质量指数,提供对身体的理解,相对于身高相对较高或较低的重量,使用身高与体重之比的体重客观指数(kg /平方公尺),理想情况下为18.5至24.9
3. 儿童:健康保险覆盖的儿童人数/家属人数
4. 吸烟者:吸烟
5. 地区:受益人在美国,东北,东南,西南,西北的住宅区。
6. 费用:由健康保险计费的个人医疗费用

#导入需要的库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split
import statsmodels.formula.api as sm
#数据处理
dataset = pd.read_csv('insurance.csv')
# print(dataset.columns)
x = dataset.iloc[: , :-1].values
# print(x)
y = dataset.iloc[:,-1].values
labelencoder = LabelEncoder()
x[:,1] = labelencoder.fit_transform(x[:,1])
x[:,4] = labelencoder.fit_transform(x[:,4])
x[:,5] = labelencoder.fit_transform(x[:,5])     #使用虚拟编码对类别变量进行转化onehotencoder = OneHotEncoder(categorical_features=[5])
x = onehotencoder.fit_transform(x).toarray()[:,1:]      #同上,处理三类以上的类别变量。x = np.append(arr = np.ones((x.shape[0],1)) , values = x , axis = 1) #给常数项增加系数x_train,x_test,y_train,y_test = train_test_split(x,y,test_size = 0.3,random_state = 0) #分割数据集为训练集和测试集
#利用反向淘汰方法,剔除显著性较低的变量对数据进行训练
x_opt = x_train[:,[0,1,2,3,4,5,6,7,8]]
regressor = sm.OLS(endog=y_train,exog=x_opt).fit()
regressor.summary()  #except x_5x_opt = x_train[:,[0,1,2,3,4,6,7,8]]
regressor = sm.OLS(endog=y_train,exog=x_opt).fit()
regressor.summary()  #except x_1x_opt = x_train[:,[0,2,3,4,6,7,8]]
regressor = sm.OLS(endog=y_train,exog=x_opt).fit()
regressor.summary()  #except x_1x_opt = x_train[:,[0,2,4,6,7,8]]
regressor = sm.OLS(endog=y_train,exog=x_opt).fit()
regressor.summary()   #except x_3x_opt = x_train[:,[0,4,6,7,8]]
regressor = sm.OLS(endog=y_train,exog=x_opt).fit()
regressor.summary()

最终的回归器参数信息:

感觉效果不是很好。。几个重要指标不是很好如:R-squared,Adj.R-squared

对测试集进行预测并评估模型:

x_test_opt = x_test[:,[0,4,6,7,8]]
y_pre = regressor.predict(x_test_opt)from sklearn.metrics import r2_score
print('r2_score : ' + str(r2_score(y_test,y_pre)))

输出:

r2_score : 0.7894429387120752

多元线性回归案例(改)相关推荐

  1. 线性回归 - 多元线性回归案例 - 分析步骤、输出结果详解、与Python的结果对比 -(SPSS建模)

    现在用 Python 写线性回归的博客都快烂大街了,为什么还要用 SPSS 做线性回归呢?这就来说说 SPSS 存在的原因吧. SPSS 是一个很强大的软件,不用编程,不用调参,点巴两下就出结果了,而 ...

  2. 多元线性回归案例:《银行不良贷款分析》

    业务理解 不良贷款对银行利益的侵蚀效应不仅仅体现在利润和收入上,在市场营销.新设备投入.社会声誉等方面都会受到影响.因为创收能力的下滑,在经营管理各方面的费用投入不如之前了,想要在商务区开的新网点开不 ...

  3. python多元线性回归实例_利用Python进行数据分析之多元线性回归案例

    线性回归模型属于经典的统计学模型,该模型的应用场景是根据已知的变量(自变量)来预测某个连续的数值变量(因变量).例如,餐厅根据每天的营业数据(包括菜谱价格.就餐人数.预定人数.特价菜折扣等)预测就餐规 ...

  4. 机器学习—多元线性回归案例

    研究一个因变量.与两个或两个以上自变量的回归.亦称为多元线性回归,是反映一种现象或事物的数量依多种现象或事物的数量的变动而相应地变动的规律.建立多个变量之间线性或非线性数学模型数量关系式的统计方法. ...

  5. python多元非线性回归_利用Python进行数据分析之多元线性回归案例

    线性回归模型属于经典的统计学模型,该模型的应用场景是根据已知的变量(自变量)来预测某个连续的数值变量(因变量).例如,餐厅根据每天的营业数据(包括菜谱价格.就餐人数.预定人数.特价菜折扣等)预测就餐规 ...

  6. Python机器学习——多元线性回归案例(二)

    引入披萨问题 回顾一下自己的生活经验,匹萨的价格其实还会受到其他因素的影响. 比如,匹萨的价格还与辅料有关.让我们再为模型增加一个解释变量.用一 元线性回归己经无法解决了,我们可以用更具一般性的模型来 ...

  7. 数据分析方法--回归分析方法((SPSS建模:多元线性回归案例)

    文章目录 回归定义 最常用回归方法 一.线性回归(Linear Regression) 二.逻辑回归(Logistic Regression) 三.多项式回归(Polynomial Regressio ...

  8. R语言构建多元线性回归模型

    R语言构建多元线性回归模型 对比一元线性回归,多元线性回归是用来确定2个或2个以上变量间关系的统计分析方法.多元线性回归的基本的分析方法与一元线性回归方法是类似的,我们首先需要对选取多元数据集并定义数 ...

  9. python多元线性回归模型案例_Python 实战多元线性回归模型,附带原理+代码

    原标题:Python 实战多元线性回归模型,附带原理+代码 作者 | 萝卜 来源 | 早起Python( ID:zaoqi-python ) 「多元线性回归模型」非常常见,是大多数人入门机器学习的第一 ...

最新文章

  1. 解决0X000000该内存不能为read 的方法
  2. 云计算服务在小企业中的作用?
  3. 串结构练习——字符串匹配 解题报告
  4. 如何挂载initrd.img文件(简单三步)
  5. java web 截图_如何以Java实现网页截图技术
  6. OAuth 2.0初学者指南
  7. C# http://xamarin.com/
  8. css实现元素在div底部显示
  9. IntelliJ IDEA for Mac在MacOS模式下的搜索/查询/查找快捷键(Search Shortcut)
  10. 软件工程生命周期模型_软件生命周期模型比较| 软件工程
  11. UI设计素材|视频类APP图标
  12. Java:集合系列目录(Category)
  13. 程序员面试金典——3.4汉诺塔
  14. 如何使用phpMQTT连接阿里云微服务消息队列for IoT
  15. 阶段3 3.SpringMVC·_07.SSM整合案例_01.ssm整合说明
  16. C++跨平台串口通信类库CSerialPort 2022-11-07
  17. 稳定kms服务器,kms服务器
  18. Python爬虫之xlml解析库
  19. opencv 实现的静态手势识别 进而玩剪刀石头布
  20. jQuery扁平化风格手风琴菜单

热门文章

  1. 别人笑我太疯癫,我笑他人看不穿。
  2. 为人处世,请从学会闭嘴开始!
  3. 资源管理器整理计算机中的文件,如何整理电脑文件夹?
  4. Matlab如何进行利用离散傅里叶逆变换iDFT 从频谱恢复时域信号
  5. 蒙特卡罗(Monte Carlo)方法计算圆周率π
  6. 两个PDF比较标出差异_[连玉君专栏]如何检验分组回归后的组间系数差异?
  7. Java多线程 生产者-消费者问题示例
  8. 子之错父之过什么意思_子不教父之过?
  9. GDAL——命令使用专题——gdalinfo命令
  10. 直播设备之技术分享:全NDI 和NDI |HX