Python之 【模型建立和测试-模型测试模板】
目录
1.线性回归
1.1导入所需模块
1.2读取数据
1.3模型参数估计
2.以下一组统计检验用于模型有效性的定量验证。
2.1显著性/重要性
3.固定性
4.模型的线性度
5.独立变量的多重关联性
5.1Variance Inflation Factor (VIF)差异性通货膨胀系数(VIF)
5.2状态指数Condition Index
5.3残留物规范性
6.残留物的自相关性
6.1ACF and PACF plots
6.2残余自相关检验
7.残留物的异方差性
7.1残差与拟合值对比图
8.回归模型系数的稳定性
8.1前进稳定性
8.2后向稳定性
9.性能测试
10.输入数据检查
10.1视觉检测
10.2基本统计
10.3高影响点
11.影响程度
11.1DFFITS
11.2DFBETA
11.3 Cook's distance
1.线性回归
1.1导入所需模块
import warnings
warnings.filterwarnings("ignore")import matplotlib.pyplot as plt
%matplotlib inlineimport math# imports
import pandas as pd
import numpy as np# from sklearn.linear_model import LinearRegression # for ml
import statsmodels.api as sm# statistical tests
from statsmodels.tsa.stattools import adfuller, kpss # stationarity
from statsmodels.stats.api import linear_harvey_collier # linearity
from statsmodels.stats.diagnostic import linear_rainbow # linearity
from statsmodels.stats.outliers_influence import variance_inflation_factor as vif # multicollinearity
from scipy.stats import shapiro, anderson # normality
from statsmodels.stats.stattools import durbin_watson # autocorrelation
from statsmodels.stats.diagnostic import acorr_ljungbox, acorr_breusch_godfrey # autocorrelation
from statsmodels.stats.diagnostic import het_breuschpagan # heteroscedasticity
from statsmodels.stats.api import het_goldfeldquandt # heteroscedasticity# stat graphics
from statsmodels.graphics.regressionplots import plot_ccpr # partial residuals plot
from statsmodels.graphics.gofplots import qqplot # qq plot for normality of residuals
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf # autocorrelation plots
1.2读取数据
# 读取数据,并打印前5行
data = pd.read_csv('data/regdat1.csv', sep=';', header=0, index_col=0)
data.head()
1.3模型参数估计
#建立模型
X = data.iloc[:, 1:]
y = data.iloc[:, 0]
reg_model = sm.OLS(y, X)
reg_model = reg_model.fit()reg_summary = reg_model.summary()
reg_summary
2.以下一组统计检验用于模型有效性的定量验证。
回归模型和系数的显著性:t准则、F准则。
变量和残差的稳定性:增强Dickey-Fuller检验(ADF)、Phillips-Perron检验(PP)、Kwiatkowski-Phillips-Schmidt-Shin检验(KPSS)。
因变量和自变量之间的依赖线:部分残差图,Ramsey RESET检验。
无多线性:VIF和条件指数。
正常残差:Q-Q图、Shapiro-Wilk检验、Kolmogorov-Smirnov检验、Jarka-Ber检验和Anderson-Darling检验。
无自相关:ACF和PACF图、Darbin-Watson检验、Broisch-Godfrey检验和Young Box检验。
残余物的同质性:残余物与对应值的关系图,Broysch-Pagan试验和Goldfeldt-Quandt试验。
回归系数稳定性:前向和后向稳定性检验,滚动周检验。
下文将详细介绍所有这些测试及其结果。
# 阈值
p_value_threshold = 0.05
confidence_threshold = 0.01
removal_rate = 0.3 # 30%
number_of_out_of_sample_data = 9
2.1显著性/重要性
变量值--T-тест
reg_summary.tables[1]
回归系数在5%的水平上显著。
回归方程的显著性--F-тест
reg_summary.tables[0]
F统计值为71.83,P值=6.1e-16,因此,回归方程显著。
3.固定性
对于一个时间序列模型,所有的因变量、自变量和残差都必须使用ADF检验、PP检验和KPSS检验来检验其稳定性。每个变量必须至少通过2次固定测试。对于每个固定检验,必须对因变量、自变量和残差进行固定性评价。
零平均静止性(仅针对残留物);
单一平均静止性;以及
这是一种趋势性的静止。
确定的趋势静止性是指变量包含趋势(
Python之 【模型建立和测试-模型测试模板】相关推荐
- ArcGIS API for Silverlight 调用GP服务准备---GP模型建立、发布、测试
ArcGIS API for Silverlight 调用GP服务准备---GP模型建立.发布.测试 原文:ArcGIS API for Silverlight 调用GP服务准备---GP模型建立.发 ...
- gis城市模型建立之地形模型的建立
地形数据 数据类型:30m精度DEM 数据来源:地理空间数据云 下载地址:https://www.gscloud.cn/search#60266 数据获取步骤 1. 选取需要的数据范围 点进网站 选择 ...
- TensorFlow基础之模型建立与训练:线性回归、MLP多层感知机、卷积神经网络
TensorFlow基础之模型建立与训练 模型建立与训练:简单的线性回归 MLP多层感知机 数据获取.预处理 模型搭建 训练与评估 卷积神经网络 高效建模 Keras Sequential高效建模 F ...
- 【算法竞赛学习】数字中国创新大赛智慧海洋建设-Task4模型建立
智慧海洋建设-Task4模型建立 此部分为智慧海洋建设竞赛的模型建立模块.在该模块中主要介绍了如何进行模型建立并对模型调优. 学习目标 学习如何选择合适的模型以及如何通过模型来进行特征选择 掌握随机森 ...
- 安全测试-优秀测试工程师必备的4项安全测试方法!
用您5分钟时间阅读完,希望能对您有帮助! 一.安全性测试 1.安全性测试方法 测试手段可以进行安全性测试,目前主要安全测试方法有: 1)静态的代码安全测试 主要通过对源代码进行安全扫描,根据程序中数据 ...
- python使用matplotlib对比多个模型在测试集上的效果并可视化、设置模型性能可视化结果柱状图(bar plot)标签的小数点位数(例如,强制柱状图标签0.7显示为两位小数0.70)
python使用matplotlib对比多个模型在测试集上的效果并可视化.设置模型性能可视化结果柱状图(bar plot)标签的小数点位数(例如,强制柱状图标签0.7显示为两位小数0.70) 目录
- Python使用tpot获取最优模型、将最优模型应用于交叉验证数据集(5折)获取数据集下的最优表现,并将每一折(fold)的预测结果、概率、属于哪一折与测试集标签、结果、概率一并整合输出为结果文件
Python使用tpot获取最优模型.将最优模型应用于交叉验证数据集(5折)获取数据集下的最优表现,并将每一折(fold)的预测结果.概率.属于哪一折与测试集标签.结果.概率一并整合输出为结果文件 目 ...
- python训练模型测试模型_python 机器学习中模型评估和调参
在做数据处理时,需要用到不同的手法,如特征标准化,主成分分析,等等会重复用到某些参数,sklearn中提供了管道,可以一次性的解决该问题 先展示先通常的做法 import pandas as pd f ...
- 使用Python+Pandas+Statsmodels建立线性回归模型预测房价
[综述] 本文通过使用Python+Pandas+Statsmodels建立简单一元线性回归模型.多元线性回归模型来预测房价. 主要内容来源自网页:https://www.learndatasci.c ...
- 软件测试入门之测试模型
1."V型"测试模型 主要特点:一种古老的瀑布模型,反映了实际和测试之间的关系. 局限:仅仅把测试过程作为编码之后的一个阶段,忽视了测试对需求分析,系统设计的验证,如果前面设计错误 ...
最新文章
- 看一名 KDE 开发者如何使用 C++17 为项目提升巨大速度
- 1t硬盘怎么分区最好_网友问题解答:?最简单的方法教你电脑硬盘怎么分区?
- Scrum sprint plan中规模估算的常见方式
- 【Python】分享几个用Python给图片添加水印的方法,简单实用
- springcloud的config
- Hadoop官方文档翻译——MapReduce Tutorial
- 参数化测试 junit_参数化的JUnit测试
- Unity3D——SendMessage方法的使用
- SoapUI使用教程
- PostScript 打印描述语言 介绍
- 卷积神经网络中的“池化层”
- 关于地理坐标的精度设置,做测绘的工程师应该懂的基本常识(南方数码CASS11.0.0.6还增加批量转换的方式)
- 容器内存溢出排障思路
- 在线考试系统的倒计时
- URAL 1028 数星星 题解
- SpringMVC - 入门
- Axure绘制登录功能
- 腾讯汤道生:产业互联网开放生态已初步形成,2021加大SaaS生态建设|CEO说
- 软件测试工程师的一天
- python字符串提取数字并求和_python实现将字符串中的数字提取出来然后求和
热门文章
- iText生成PDF文件(解决了中文乱码)
- Mysql连接命令join
- UML系列——协作图(通信图)collaboration diagram
- 公有云弹性IP的实现原理及优势
- 关于el-upload上传图片的一些坑clearFiles()的使用
- 游戏里WASD移动控制人物的操作,用js写出的效果,简单易上手!
- 【一学就会的ROS基础入门教程 】03-1 ROS基础编程:ROS工作空间的创建、话题topic的发布与接收、以及话题消息的自定义使用
- Excel 表格中固定表头
- linux中解压.tgz, .tar.gz ,zip ,gz, .tar文件
- AD20画PCB的学习之路(一)