建模常用Python代码
一、包
## 基础工具
import numpy as np
import pandas as pd
import warnings
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display, clear_output
import timewarnings.filterwarnings('ignore')
%matplotlib inline## 模型预测
from sklearn import linear_model
from sklearn import preprocessing # 标准化
from sklearn.svm import SVR
from sklearn.ensemble import RandomForestRegressor,GradientBoostingRegressor## 数据降维处理
from sklearn.decomposition import PCA,FastICA,FactorAnalysis,SparsePCAimport lightgbm as lgb
import xgboost as xgb## 参数搜索和评价
from sklearn.model_selection import GridSearchCV,cross_val_score,StratifiedKFold,train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error
from sklearn.metrics import roc_curve,auc,accuracy_score
二、模型的保存和加载
from sklearn.externals import joblib
# 保存
joblib.dump(estimator, ‘test.pkl’)
# 加载
estimator = joblib.load(‘test.pkl’)
y_predict_test = estimator.predict(x_test)
三、变量
1.分类型变量
df.x.value_counts() #如果不均衡很严重,可能影响建模效果
四、标准化
(一)报错:
a.没有重置索引,尽量避免等式左右都是df,可以取df_temp
b.包含空值或者无穷值
np.isfinite(df2_cluster).all()
df_scale=df_scale.replace([np.inf, -np.inf], np.nan).dropna().reset_index(drop=True)
(二)适用数据:
只适用于连续型变量,类别型变量不能标准化。因为标准化的目的是消除量纲,而类别变量没有量纲这一说法。
(三)代码操作
from sklearn import preprocessing # 标准化
df_scale=pd.DataFrame(preprocessing.StandardScaler().fit_transform(df),columns=['x1','x2'])
五、去噪声
卡曼尔滤波的原理:
结合多个研究变量的相关变量,通过动态调整各个变量的比例,迭代估算出结果
# 时间序列查看波动性
sns.lineplot(x=df.t,y=df.x1) # 卡尔曼滤波函数
from pykalman import KalmanFilter
def Kalman1D(observations,damping=1): # 参数是list格式# To return the smoothed time series dataobservation_covariance = dampinginitial_value_guess = observations[0]transition_matrix = 1transition_covariance = 0.1initial_value_guesskf = KalmanFilter(initial_state_mean=initial_value_guess,initial_state_covariance=observation_covariance,observation_covariance=observation_covariance,transition_covariance=transition_covariance,transition_matrices=transition_matrix)pred_state, state_cov = kf.smooth(observations)return pred_state# 变量去噪声
df['x2']=Kalman1D(df.x1.tolist())
建模常用Python代码相关推荐
- 【Python数学建模常用算法代码(二)之BP神经网络】
Python数学建模常用算法代码(二) BP神经网络模型Python代码 import numpy as np import math import random import string impo ...
- 【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 建模及python代码详解 问题二
相关链接 [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预测 建模及python代码详解 问题一 [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预测 ...
- 2023年美赛C题Wordle预测问题一建模及Python代码详细讲解
相关链接 (1)2023年美赛C题Wordle预测问题一建模及Python代码详细讲解 (2)2023年美赛C题Wordle预测问题二建模及Python代码详细讲解 (3)2023年美赛C题Wordl ...
- 2023年美赛C题Wordle预测问题三、四建模及Python代码详细讲解
更新时间:2023-2-19 16:30 相关链接 (1)2023年美赛C题Wordle预测问题一建模及Python代码详细讲解 (2)2023年美赛C题Wordle预测问题二建模及Python代码详 ...
- 2023年美赛C题Wordle预测问题二建模及Python代码详细讲解
更新时间:2023-2-19 相关链接 (1)2023年美赛C题Wordle预测问题一建模及Python代码详细讲解 (2)2023年美赛C题Wordle预测问题二建模及Python代码详细讲解 (3 ...
- 【2023年第十一届泰迪杯数据挖掘挑战赛】B题:产品订单的数据分析与需求预测 建模及python代码详解 问题一
相关链接 [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预测 建模及python代码详解 问题一 [2023年第十一届泰迪杯数据挖掘挑战赛]B题:产品订单的数据分析与需求预测 ...
- 【2023年第十一届泰迪杯数据挖掘挑战赛】C题:泰迪内推平台招聘与求职双向推荐系统构建 建模及python代码详解 问题一
相关链接 [2023年第十一届泰迪杯数据挖掘挑战赛]C题泰迪内推平台招聘与求职双向推荐系统构建 建模及python代码详解 问题一 [2023年第十一届泰迪杯数据挖掘挑战赛]C题泰迪内推平台招聘与求职 ...
- 量化投资中常用python代码分析(一)
pandas的IO 量化投资逃不过数据处理,数据处理逃不过数据的读取和存储.一般,最常用的交易数据存储格式是csv,但是csv有一个很大的缺点,就是无论如何,存储起来都是一个文本的格式,例如日期'20 ...
- 常用Python代码
常见的for循环 去博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片. 1 Value = [(10,150),(100,200),(180,230)] for i,(minV ...
- python三大神器_常用Python代码及花式写法(函数调用自身+三大神器)
备注:第33课已经OK 一.urllib from urllib.request import urlopen as uReq from bs4 import BeautifulSoup as sou ...
最新文章
- 从TimeQuest角度看set_max_delay
- asp.net传递参数
- 【郭林专刊】过来人的总结
- 来自ChinaUnix的对Linux rc.sysinit, rc, functions脚本的分析和Linux启动分析
- MQTT client id重复导致连接失败
- BZOJ 3720: Gty的妹子树 [树上size分块]
- BZOJ 1602: [Usaco2008 Oct]牧场行走 倍增裸题
- HTTP协议通信原理
- 【OS学习笔记】十二 现代处理器的结构和特点
- The method getTextContent() is undefined for the type Node 错误解决办法
- BP神经网络(手写数字识别)
- python变量的理解_如何理解Python中的变量
- 屏幕录像软件使用教程?
- FastReport.Net 常用功能总汇
- Chrome浏览器打开微信页面
- android 输入法更换_安卓手机怎么更换输入法-安卓手机切换输入法的方法 - 河东软件园...
- gin endless 热重启
- (译)Xposed模块开发教程
- 【HighChart教程】编程语言详细程度的互动比较
- access设计视图打不开_15、ACCESS总计查询(分组查询)设计(ACCESS图解操作系列)...
热门文章
- 中小企业信息化建设管理方案规划设计1
- 民企信息化建设个人经历(二)
- python 离散点 等高线_飞时达软件离散点高程、等高线高程、特征线高程等检查与处理...
- iOs LightBlue与cc2540 BLE开发板之间的通信实验 [原创, 多图]
- 3D视觉点云数据处理十大方法
- QT之Tcp数据发送测试工具
- 如何免费下载付费音乐歌曲,6个网站+8个APP
- IAR Embedded Workbench安装
- 现有Unity项目修改渲染管线
- java 卡密_【java实现点卡生成】