--本文是《Python数据分析与挖掘实战》的学习笔记

经过数据探索与数据预处理,得到了可以直接建模的数据.根据挖掘目标与数据形式可以建立分类与预测、聚类分析、关联规则、时序模式和偏差检测等模型.

分类与预测问题是预测问题的两种主要的类型,分类主要是预测分类标号(基于离散属性的),而预测是建立连续值函数模型,预测给定自变量对应的因变量的值.

一.实现过程

(1)分类

    分类属于有监督学习的范畴,大致上的意思就是我们可以将样本数据分成几个类别,将我们的数据与我们的类别相互对应.


上图假设我们的数据来源是我们的销售量的数据,我们将其分成“高”,"中","低"三个部分的分布..

(2)预测

预测是指建立两种或者两种以上变量之间相互依赖的函数模型,然后进行预测或者控制.

(3)实现过程:


思想是很简单的,你比如说我们现在要进行预测的分析,首先第一步,我们先要基于一定数量的样本来训练出一个训练模型,这个模型训练的如何,我们还要对其进行检测一下,如何测试的样本数据与我们想象中的差别太大,那么我们就要重新进行训练这个预测模型,但是如果我们的预测模型符合我们的预先的期望,那么我们就可以用这个模型进行预测的操作.

(4)回归分析的研究范围


上面的回归分析中,线性回归是相对简单的回归模型,但是通常因为因变量与自变量之间呈现某一种曲线的关系,这时就需要建立非线性回归模型(比如我们最常用的Logistic回归分析用于二分类或者多分类).

二。Logistic回归模型建模实例

Logistic回归模型的建模步骤:

1.首先根据分析的目的设置指标变量(因变量与自变量),然后我们进行数据的收集,根据收集到的数据,对特征再次进行筛选.(在具体筛选时,利用了随机逻辑回归中的get_support()函数)

2. 列出回归方程,估计出模型中的回归系数.

3. 进行模型的检测,模型有效性的检验指标有很多,最基本的有正确率,其次有混淆矩阵,ROC曲线,KS值等.

4,模型应用.

附:我们使用python语言对其进行实现,因为在Python中内置了许多针对数据处理与分析的模块.

如:我们利用Scikit-Learn对数据进行逻辑回归分析,

筛选特征的方法,主要在Scikit_Learn的feature_selection库中,比较简单的是通过F检验来给出各个特征的F值与p值,从而筛选出变量(选择F值比较大或者p值比较小的).

其次是有递归特征消除和稳定性选择等比较新的方法,然后利用筛选的特征建立逻辑回归的模型,输出平均的正确率.

输出的代码如下所示:

# -*- coding: utf-8 -*-
"""
Created on Thu Apr  5 20:37:48 2018@author: Administrator
"""
#逻辑回归 自动建模
import pandas as pd#参数初始化
filename = 'E:/bankloan.xls'
data = pd.read_excel(filename)
x = data.iloc[:,:8].as_matrix()#对其切片,取前1-8列的属性质,转换为数组结构
y = data.iloc[:,8].as_matrix() #对第八列的值为标签,进行处理,这里做二值逻辑回归,因此这里的值为0或者1from sklearn.linear_model import LogisticRegression as LR
from sklearn.linear_model import RandomizedLogisticRegression as RLR
rlr = RLR() #建立随机逻辑回归模型,筛选变量
rlr.fit(x, y) #训练模型
rlr.get_support() #获取特征筛选结果,也可以通过.scores_方法获取各个特征的分数
print(u'通过随机逻辑回归模型筛选特征结束。')
print(u'有效特征为:%s' % ','.join(data.columns[rlr.get_support()]))
x = data[data.columns[rlr.get_support()]].as_matrix() #筛选好特征lr = LR() #建立逻辑回归模型
lr.fit(x, y) #用筛选后的特征数据来训练模型
print(u'逻辑回归模型训练结束。')
print(u'模型的平均正确率为:%s' % lr.score(x, y))

关于bankloan.xls中的数据展示如下:






数据挖掘中的分类与预测相关推荐

  1. 数据挖掘(4.1)--分类和预测

    目录 前言 一.分类和预测 分类 预测 二.关于分类和预测的问题 准备分类和预测的数据 评价分类和预测方法 混淆矩阵 评估准确率 参考资料 前言 分类:离散型.分类新数据 预测:连续型.预测未知值 描 ...

  2. python分类算法_python数据挖掘中的分类算法有哪些?

    一直以来,对于机器学习领域,Python都是人们津津乐道的话题,大家知道我们在用python学习机器技术时候,用到的方法内容和一般情况下的是一样的吗?想必,了解过的小伙伴一定是知道有哪些的,不知道的小 ...

  3. python的分类算法有哪些_python数据挖掘中的分类算法有哪些?

    一直以来,对于机器学习领域,Python都是人们津津乐道的话题,大家知道我们在用python学习机器技术时候,用到的方法内容和一般情况下的是一样的吗?想必,了解过的小伙伴一定是知道有哪些的,不知道的小 ...

  4. 数据挖掘中分类算法小结

    数据挖掘中分类算法小结   数据仓库,数据库或者其它信息库中隐藏着许多可以为商业.科研等活动的决策提供所需要的知识.分类与预测是两种数据分析形式,它们可以用来抽取能够描述重要数据集合或预测未来数据趋势 ...

  5. 机器学习分类和预测任务

    分类和预测是两种使用数据进行预测的方式,可用来确定未来的结果. 分类是用于预测数据对象的离散类别的,需要预测的属性值是离散的.无序的. 预测则是用于预测数据对象的连续取值的,需要预测的属性值是连续的. ...

  6. ML之分类预测:机器学习中多分类预测数据集可视化(不同类别赋予不同颜色)设计思路及代码实现

    ML之分类预测:机器学习中多分类预测数据集可视化(不同类别赋予不同颜色)设计思路及代码实现 目录 机器学习中多分类预测数据集可视化(不同类别赋予不同颜色)设计思路及代码实现 代码实现

  7. 逻辑回归(Logistic Regression, LR)又称为逻辑回归分析,是分类和预测算法中的一种。通过历史数据的表现对未来结果发生的概率进行预测。例如,我们可以将购买的概率设置为因变量,将用户的

    逻辑回归(Logistic Regression, LR)又称为逻辑回归分析,是分类和预测算法中的一种.通过历史数据的表现对未来结果发生的概率进行预测.例如,我们可以将购买的概率设置为因变量,将用户的 ...

  8. 【Python数据分析】数据挖掘建模——分类与预测——人工神经网络

    人工神经网络(artificial neural networks,ANNs),是模拟生物神经网络进行信息处理的一种数学模型. 一.人工神经网络简介 更多关于神经网络的发展可以参考:人工神经网络简介_ ...

  9. 【Python数据分析】数据挖掘建模——分类与预测——决策树

    决策树是一种树状结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集.构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分. ...

最新文章

  1. 解决在SQL Server 2000的存储过程不能调试
  2. 素数和_只愿与一人十指紧扣_新浪博客
  3. 6s如何无线连电脑连接服务器,iPhone 6s无线连接能力:WiFi与4G大提速
  4. 【Modelsim零基础入门】新建项目+运行第一个verilog仿真程序:一位加法器
  5. 看的一个pdf说的。。大型网站架构演变
  6. dede织梦5.7,后台采集数据导入,空文章过滤.
  7. 在Vrep中如何创建基于QT的GUI
  8. javascript学习笔记(十九) 节点的操作
  9. unbuffered low level IO 和 bufferd IO
  10. int、String、char、Array之间的转换,这一篇够了!!!
  11. cms完整视频教程+源码 孔浩老师 全131讲
  12. 2022年第十二届APMCM亚太地区数学建模竞赛1月加赛E题翻译以及思路
  13. macOS、Linux CentOS 、Docker安装部署canal-server(canal-deployer)服务
  14. 女生适合从事什么工作?程序员!
  15. 《牧畜王国的兴衰》序
  16. ARM开发板使用GDB调试程序
  17. 【数据库视频--概况
  18. 【Python】PEP8规范
  19. 2022“杭电杯”中国大学生算法设计超级联赛(4)
  20. unity3D实现地对空防御

热门文章

  1. 如何拦截烦人的视频广告
  2. 在培训机构花了好几万学Java,当了程序员还常被鄙视,这是招谁惹谁了?
  3. 概率(probability)---似然(likelihood)的前世今生
  4. PeckShield:图文拆解FCoin资产流向,其鼎盛时期便已显颓势?
  5. 基于java奥利给共享自习室系统计算机毕业设计源码+系统+lw文档+mysql数据库+调试部署
  6. PCM音频文件格式的头信息
  7. nginx 正向代理http和https
  8. Mybatis Log Plugin插件不正常解析无效解决大坑
  9. miniUI实现指定行可编辑,其他行仍然只读
  10. int i2c_probe()