ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤+分类模型设计)

目录

一、总体思路框架

二、特征工程详细步骤(特征分析与特征处理)

1、获取数据集,并确定新数据集的规模

2、确定数据集每个属性的类型

3、对数据集统计特征

4、利用python工具包输出

5、对整个数据集各个特征(属性)PCP(平行坐标图)可视化分析

6、属性之间关系的关系SP可视化

7、特殊属性和标签的关系SP可视化

8、利用皮尔逊相关系数计算任意两个特征(属性)之间相关程度

9、Heat Map热图:利用皮尔森相关系数矩阵,且使用HM可视化变量之间的相关性

三、测试该数据集上度量分类器性能

T1、OLS构建分类器

T2、RiR构建分类器+AUC度量分离器性能


一、总体思路框架

二、特征工程详细步骤(特征分析与特征处理)

1、获取数据集,并确定新数据集的规模

2、确定数据集每个属性的类型

3、对数据集统计特征

Mean =  0.053892307692307684        Standard Deviation =    0.04641598322260027Boundaries for 4 Equal Percentiles
[0.0058, 0.024375, 0.04405, 0.0645, 0.4264]Boundaries for 10 Equal Percentiles
[0.0058, 0.0141, 0.022740000000000003, 0.027869999999999995, 0.03622, 0.04405, 0.05071999999999999, 0.059959999999999986, 0.07794000000000001, 0.10836, 0.4264]Unique Label Values
{'M', 'R'}Counts for Each Value of Categorical Label
['M', 'R']
[111, 97]

4、利用python工具包输出

(1)、分位图查找异常点

(2)、输出头数据和尾数据

(3)、输出统计信息

5、对整个数据集各个特征(属性)PCP(平行坐标图)可视化分析

6、属性之间关系的关系SP可视化

7、特殊属性和标签的关系SP可视化

8、利用皮尔逊相关系数计算任意两个特征(属性)之间相关程度

(1)、如图分别计算的是2&3、2&21两个相关度数值

分别计算第2&3、2&21个属性参数相关度,发现2&3之间相关度比2&21高!

9、Heat Map热图:利用皮尔森相关系数矩阵,且使用HM可视化变量之间的相关性

三、测试该数据集上度量分类器性能

T1、OLS构建分类器

1、输出结果

2、ROC、AUC可视化分析

T2、RiR构建分类器+AUC度量分离器性能

ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤(特征分析与特征处理)+分类模型设计)相关推荐

  1. ML之多分类预测:以某个数据集为例从0到1深入理解科学预测之多分类问题的思路框架

    ML之多分类预测:以某个数据集为例从0到1深入理解科学预测之多分类问题的思路框架 目录 一.总体思路框架 二.各个步骤详细说明 一.总体思路框架 二.各个步骤详细说明

  2. ML之回归预测:以某个数据集为例从0到1深入理解科学预测之回归(实数值评分预测)问题的思路框架

    ML之回归预测:以某个数据集为例从0到1深入理解科学预测之回归(实数值评分预测)问题的思路框架 相关文章 ML之PLiR之LARS:利用LARS算法求解ElasticNet回归类型问题(实数值评分预测 ...

  3. ML之回归预测:以某个数据集为例从0到1深入理解科学预测之回归(实数值年龄预测)问题的思路框架

    ML之回归预测:以某个数据集为例从0到1深入理解科学预测之回归(实数值年龄预测)问题的思路框架 目录 1.总体思路架构图 2.各个步骤详细图 1.总体思路架构图 2.各个步骤详细图

  4. 【数据竞赛】Kaggle实战之特征工程篇-20大文本特征(上)

    作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--文本特征上半篇! 前 言 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们 ...

  5. 【数据竞赛】Kaggle实战之特征工程篇-20大文本特征(下)

    作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--文本特征下半篇! 前 言 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们 ...

  6. 【特征工程概要】解释什么是特征,特征工程的步骤

    特征工程简介 经常听人说,数据和特征决定了机器学习的上限,算法和模型只是不断逼近这个上限而已.由此可见,特征工程在机器学习中不可或缺的地位. 回过头看看网站Kaggle,KDD,国内外的比赛,每个竞赛 ...

  7. 《特征工程入门与实践》--- 特征学习

    <特征工程入门与实践>--- 特征学习 数据形状的无参数假设:特征学习方法 1. 受限玻尔兹曼机(RBM) 受限玻尔兹曼机(RBM)学习笔记 RBM的训练过程: 从MNIST中提取PCA成 ...

  8. EOF-DataScience:数据预处理/特征工程之线性变换—四种特征缩放Scaling算法简介、标准化standardization、归一化Normalization的概述与区别

    DataScience:数据预处理/特征工程之线性变换-四种特征缩放Scaling算法简介.标准化standardization.归一化Normalization的概述与区别 目录 数据处理中常见的四 ...

  9. 用户特征工程详细解读

    在网上找到了美团一位叫付晴川同学些的ppt,里面有一幅描述用户特征工程的图,感觉总结得还是比较到位的.现在把图片贴出来:  这张图将用户特征工程里的大面基本都囊括了.因为ppt本身做得比较简单,现在我 ...

最新文章

  1. Linux 安装Boost
  2. 用 Ganglia 监控基于 Biginsights 的 HBase 集群性能
  3. [原创].七段数码管驱动,Verilog版本
  4. openstack 网络简史
  5. debian mysql开机启动_自动启动debian和lighttpd+mysql
  6. java String长度与varchar长度匹配理解(字符和字节长度理解)
  7. 对象的基础用法和解构赋值
  8. Gallery 相册管理系统项目将不再维护
  9. shell 实现txt转换成html
  10. 105 基于socketserver实现并发的socket编程
  11. Android 屏蔽Power键 Home键
  12. 【CLP】Conic Linear Programming Duality
  13. oracle 删除 快照,创建和销毁 ZFS 快照
  14. 拿棱镜门黑客软件攻击“俄版百度”,不偷情报只想装大V,FBI们被抓包了
  15. HTML CSS JavaScript学习心得
  16. 标准H.460公私网穿越视频解决方案
  17. 【unity】转场动画
  18. 程序员遇到有远见的丈母娘
  19. echarts嵌套饼图自动动画_使用百度echarts制作可视化大屏——制作一个双层饼图...
  20. TeamViewer的LAN局域网内连接

热门文章

  1. centos6查看java命令_linux 常用命令(五)——(centos7-centos6.8)JDK安装
  2. python列表迭代器_关于Python中迭代器的作用
  3. java面试笔试大汇总(一)
  4. 系统网卡性能,丢包率与下载上传,ulimit设置
  5. 关于40位MD5加密的破解
  6. idea中配置个人注解代码模板
  7. linux查看进程号和进程
  8. 技术债务就像俄罗斯方块,你永远都赢不了!
  9. Elastic 的成功上市:偶然和必然
  10. Linux思维导图整理,你确定不收藏?