python相关性分析模型_Python多元线性回归模型,python

只是python代码方便以后调用，理论部分需要看其他人的

回归模型的预测

import matplotlib

import matplotlib.pyplot as plt

import pandas as pd

import numpy as np

import seaborn as sns

import statsmodels.api as sm

from sklearn import model_selection

from scipy.stats import f

from scipy.stats import norm

font = {

'family': 'FangSong',

'weight': 'bold',

'size': 12

}

matplotlib.rc("font", **font)

Profit = pd.read_excel("../data/Predict to Profit.xlsx", names=list("abcde"))

'''

RD_Spend 49 non-null float64

Administration 49 non-null float64

Marketing_Spend 49 non-null float64

State 49 non-null object

Profit 49 non-null float64

'''

print(Profit.shape)

# 将数据拆分成训练集和测试集

train, test = model_selection.train_test_split(Profit, test_size=0.2, random_state=1234)

# 根据train数据集建模

model = sm.formula.ols('e ~ a+b+c+C(d)', data=train).fit()

# 删除test集中的Profit变量，用剩下的自变量进行预测

test_X = test.drop(labels='e', axis=1)

pred = model.predict(exog=test_X)

# 对比预测值和实际值的差异

print(pd.DataFrame({

'pred': pred,

'real': test.e

}))

模型的显著性检验 F检验

# 计算建模数据中因变量的均值

ybar = train.e.mean()

# 统计变量个数和观测个数

p = model.df_model # 变量个数

n = train.shape[0] # 观测个数

# 计算回归离差平方和

RSS = np.sum((model.fittedvalues - ybar) ** 2)

# 计算误差平方和

ESS = np.sum((train.e - model.fittedvalues) ** 2)

# 计算F统计量的值

F = (RSS/p)/(ESS/(n - p - 1))

# 直接得到F统计量值

F1 = model.fvalue

print(F)

# 对比结果下结论

# 计算F分布的理论值

F_Theroy = f.ppf(q=0.95, dfn=p, dfd=n-p-1)

print(F_Theroy)

回归系数的显著性检验 t检验

print(model.summary())

P>|t|的值小于0.05才有用

回归模型的诊断

①误差项ε服从正态分布

误差项服从正太分布，就是要求因变量服从正态分布

绘制直方图

sns.distplot(a=Profit.e, bins=10, norm_hist=True, fit=norm,

hist_kws={'color': 'steelblue'},

kde_kws={'color': 'black', 'linestyle': '--', 'label': '核密度图'},

fit_kws={'color': 'red', 'linestyle': ':', 'label': '正态密度曲线'})

plt.legend()

# 显示图形

plt.show()

②无多重共线性

关于多重共线性的检验可以使用方差膨胀因子VIF来鉴定，如果VIF大于10，则说明变量间存在多重共线性；如果VIF大于100,则表名变量间存在严重的多重共线性如果发现变量之间存在多重共线性的话，则可以考虑删除变量或重新选择模型

# 导入statsmodel模块函数

from statsmodels.stats.outliers_influence import variance_inflation_factor

# 自变量X(包含RD_Speed、Marketing_Speed和常数列1)

X = sm.add_constant(Profit.ix[:, ['a', 'c']])

# 构造空的数据框，用于存储VIF值

vif = pd.DataFrame()

vif['features'] = X.columns

vif['VIF Factor'] = [variance_inflation_factor(X.values, i) for i in range(X.shape[1])]

print(vif)

③线性相关性

高度相关:|p| >= 0.8

中度相关:0.5 <= |p| <0.8

弱相关:0.3 <= |p| < 0.5

几乎不相关:|p| < 0.3

python相关性分析模型_Python多元线性回归模型,python相关推荐

python线性拟合模型_Python机器学习-线性回归模型篇
一.What机器学习是什么机器学习简单来说,是从数据中归纳出有用的规则,它是一种新的编程方式,它不需要人类来总结经验.输入逻辑,人类只需要把大量数据输入计算机,然后计算机就可以自动总结经验归纳逻辑, ...
python回归分析预测模型_Python与线性回归模型预测房价
目录提出问题理解数据数据清洗构建模型模型评估总结 1. 提出问题房价和什么因素相关?进而得知如何挑选房子? 2. 理解数据 2.1 导入数据从Kaggle 中下载 2.2 导入数据 im ...
python多元非线性回归模型_多元线性回归模型python实现
import numpy as np class LinearRegression: '''支持多元线性回归''' def __init__(self): '''初始化 Linear Regressi ...
python多元线性回归模型案例_Python 实战多元线性回归模型，附带原理+代码
原标题:Python 实战多元线性回归模型,附带原理+代码作者 | 萝卜来源 | 早起Python( ID:zaoqi-python ) 「多元线性回归模型」非常常见,是大多数人入门机器学习的第一 ...
python多元线性回归实例_Python机器学习多元线性回归模型 | kTWO-个人博客
前言在上一篇文章<机器学习简单线性回归模型>中我们讲解分析了Python机器学习中单输入的线性回归模型,但是在实际生活中,我们遇到的问题都是多个条件决定的问题,在机器学习中我们称之为多元 ...
python多元线性回归模型_python – 使用Tensorflow的多元线性回归模型
我想通过使用Tensorflow构建一个多元线性回归模型. 一个数据示例:2104,3,399900(前两个是功能,最后一个是房价;我们有47个示例) 代码如下: import numpy as np ...
Python 实战多元线性回归模型，附带原理+代码
作者 | 萝卜来源 | 早起Python( ID:zaoqi-python ) 「多元线性回归模型」非常常见,是大多数人入门机器学习的第一个案例,尽管如此,里面还是有许多值得学习和注意的地方.其中多 ...
原理 + 代码 | Python 实现多元线性回归模型 (建模 + 优化，附源数据)
前言多元线性回归模型非常常见,是大多数人入门机器学习的第一个案例,尽管如此,里面还是有许多值得学习和注意的地方.其中多元共线性这个问题将贯穿所有的机器学习模型,所以本文会将原理知识穿插于代码段中,争 ...
基于Python多元线性回归模型
提示:基于Python的多元线性回归模型文章目录前言一.读取数据二.建立模型三.预测新值四.去截距模型总结前言本文主要是基于多元回归线性模型,然后建立模型和分析,解决多元线性回归模型 ...
Python使用sklearn和statsmodels构建多元线性回归模型（Multiple Linear Regression）并解读
Python使用sklearn和statsmodels构建多元线性回归模型(Multiple Linear Regression)并解读 #仿真数据集(预测股票指数) 这里的目标是根据两个宏观经济变量 ...

python相关性分析模型_Python多元线性回归模型,python

python相关性分析模型_Python多元线性回归模型,python相关推荐

最新文章

热门文章