【Python数据分析】数据挖掘建模——分类与预测——回归分析
根据挖掘目标和数据形式可以建立分类与预测、聚类分析、关联规则、时序模型、离群点检测等模型。首先介绍一下分类与预测模型。
一、分类预测模型实现过程
分类模型主要是预测分类编号,预测模型主要是建立连续值函数模型,预测给定自变量对应的因变量的值。
分类和预测的实现过程类似。以分类算法为例,分类算法主要有两步:第一步是学习步,通过归纳分析训练样本集来建立分类模型,得到分类规则;第二步是分类部,先用已知的测试样本集来评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测样本集进行预测。
二、常用的分类与预测算法
常用的分类与预测算法包括:回归分析;决策树;人工神经网络;贝叶斯网络;支持向量机
三、回归分析
常用的回归分析模型如下:
回归模型名称 | 适用条件 | 算法描述 |
线性回归 | 因变量与自变量是线性关系 | 对一个或多个自变量和因变量之间的线性关系进行建模,可用最小二乘法求解模型系数 |
非线性回归 | 因变量和自变量之间不都是线性关系 | 如果非线性关系可以通过简单的函数变换转化成线性关系,用线性回归的思想求解;不能的话用非线性最小二乘法求解 |
logistics回归 | 一般因变量有0,1两种取值 | 利用logistics函数将因变量的取值范围控制在0和1之间,表示取值为1的概率 |
岭回归 | 参与建模的自变量之间具有多重共线性 | 是一种改进最小二乘估计的方法 |
主成分回归 | 参与建模的自变量之间具有多重共线性 | 主成分回归分析是根据主成分分析的思想提出来的,是对最小二乘法的一种改进,它是参数估计的一种有偏估计 |
1.logistics回归
logistics回归模型中因变量只有1和0两种取值,主要用于解决二分类问题。它其实就是用logistics函数将线性回归输出的很大范围的数,压缩到0和1之间。一般来说:如果样本x属于正类的概率大于0.5,那么就判定它是正类,否则就是负类。
更详细的关于logistics回归介绍可以看:
机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)_zouxy09的专栏-CSDN博客_python 逻辑回归
这里我主要介绍logistics回归在Python中的实现
#导入数据
import pandas as pd
from sklearn.linear_model import LogisticRegression filename = './Python数据分析与挖掘实战(第2版)/chapter5/demo/data/bankloan.xls'
data = pd.read_excel(filename)
x = data.iloc[:,:8]
y = data.iloc[:,8]
print(x)
print(y)
分割训练集与测试集
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(x,y,train_size=.8)
print('原始数据特征:',x.shape ,',训练数据特征:', X_train.shape , ',测试数据特征:',X_test.shape )
print('原始数据标签',y.shape,'训练数据标签',y_train.shape,'测试数据标签',y_test.shape)
from sklearn.linear_model import LogisticRegression
# 创建模型:逻辑回归
model = LogisticRegression()
# 训练模型
model.fit(X_train,y_train)
#模型评估(使用测试数据)
model.score(X_test,y_test)#输出为:0.8428571428571429
#模型预测
model.predict_proba([[29,2,13,14,77,10.2,0.359998,2.12345]])#输出为:array([[0.99036365, 0.00963635]])
关于岭回归和主成分回归可以分别参考以下两篇文章:
机器学习十大经典算法之岭回归和LASSO回归(学习笔记整理)_Magic 杨的博客-CSDN博客_岭回归
主成分回归python实现_to be a good girl的博客-CSDN博客_主成分回归python
【Python数据分析】数据挖掘建模——分类与预测——回归分析相关推荐
- 【Python数据分析】数据挖掘建模——分类与预测——人工神经网络
人工神经网络(artificial neural networks,ANNs),是模拟生物神经网络进行信息处理的一种数学模型. 一.人工神经网络简介 更多关于神经网络的发展可以参考:人工神经网络简介_ ...
- 【Python数据分析】数据挖掘建模——分类与预测——决策树
决策树是一种树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集.构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分. ...
- 挖掘建模-分类与预测-回归分析-逻辑回归
利用Scikit-Learn对以下数据集进行逻辑回归分析.首先进行特征筛选,特征筛选的方法很多,主要包含在Scikit-Learn的feature-selection库中,比较简单的有通过F检验(f_ ...
- Python 数据分析 数据挖掘 学习路径图
话不多说,相信看到这篇文章的你一定是对数据分析,数据挖掘有兴趣,或者想从事和方面.本文不再累述python对数据分析的重要,数据分析这门的由来之类的. 在这里,我单刀直入,已我学习数据挖掘3年来的经历 ...
- 挖掘建模-分类与预测-决策树
代码来源:Python数据分析与挖掘实战 分析数据: #-*- coding: utf-8 -*- #使用ID3决策树算法预测销量高低import pandas as pd from sklearn. ...
- 彩民看过来,看老程序员如何用Python数据分析双色球基于线性回归算法预测下期中奖结果示例
@本文来源于公众号:csdn2299,喜欢可以关注公众号 程序员学府 本文实例讲述了Python数据分析之双色球基于线性回归算法预测下期中奖结果.分享给大家供大家参考,具体如下: 前面讲述了关于双色球 ...
- 学会Python数据分析(建模)--基础篇1
Python数据分析 Python基础 常用操作符 算术操作符: 赋值操作符 比较操作符 逻辑操作符 其他运算符 变量和赋值 数据类型和转换 print()函数 条件语句 if语句 assert 关键 ...
- Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)
20 理解业务和数据:我们需要做好什么计划?_哔哩哔哩_bilibili 目录 一.理解业务和数据:我们需要做好什么计划? 1.1两个思想问题 1.2为什么数据挖掘不是万能的 1.3业务背景与目标 1 ...
- 3.Python数据分析项目——工资分类预测
1.总结 流程 具体操作 基本查看 查看缺失值(可以用直接查看方式isnull.图像查看方式查看缺失值missingno).查看数值类型特征与非数值类型特征.一次性绘制所有特征的分布图像 预处理 缺失 ...
最新文章
- Slack推安全企业加密管理可轻易用密钥控制数据
- 以某一用户名和密码 登录请求脚本_linux expect自动交互脚本
- python封装一个函数并调用_python - 函数的封装与调用
- git 日常用法记录
- Flume-概述-安装
- 电磁场理论基础 01-17
- 史上最通俗易懂的并查集算法详解
- STEAM 正在检查可用更新 ,失败
- 【高等数学】微分方程
- mysql如何存入汉字_[MYSQL]如何导入汉字单字到数据库
- OpenKruise :SidecarSet 助力 Mesh 容器热升级,TCP的三次握手、四次挥手
- unity黑白滤镜_unity3D 把图片变黑白的Shader
- 如何解决 IDEA 一直卡在 Preparing workspace
- win10计算机出现位置不可用desktop不可用,桌面只有此电脑几个图标,其它桌面图标都没有了
- 安装IE,出现“无法安装ie,因为其他程序或更新正在等待重新启动计算机。”解决方法。
- 【R】【支持向量机分类方法】
- XCTF攻防世界 Normal_RSA
- python复现:PCA-based spatially adaptive denoising of CFA images for single-sensor digital cameras
- CVPR2021 BoxInst High-Performance Instance Segmentation with Box Annotations
- ensp综合性拓扑简单搭建(web网页)