ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤(特征分析与特征处理)+分类模型设计)
ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤+分类模型设计)
目录
一、总体思路框架
二、特征工程详细步骤(特征分析与特征处理)
1、获取数据集,并确定新数据集的规模
2、确定数据集每个属性的类型
3、对数据集统计特征
4、利用python工具包输出
5、对整个数据集各个特征(属性)PCP(平行坐标图)可视化分析
6、属性之间关系的关系SP可视化
7、特殊属性和标签的关系SP可视化
8、利用皮尔逊相关系数计算任意两个特征(属性)之间相关程度
9、Heat Map热图:利用皮尔森相关系数矩阵,且使用HM可视化变量之间的相关性
三、测试该数据集上度量分类器性能
T1、OLS构建分类器
T2、RiR构建分类器+AUC度量分离器性能
一、总体思路框架
二、特征工程详细步骤(特征分析与特征处理)
1、获取数据集,并确定新数据集的规模
2、确定数据集每个属性的类型
3、对数据集统计特征
Mean = 0.053892307692307684 Standard Deviation = 0.04641598322260027Boundaries for 4 Equal Percentiles
[0.0058, 0.024375, 0.04405, 0.0645, 0.4264]Boundaries for 10 Equal Percentiles
[0.0058, 0.0141, 0.022740000000000003, 0.027869999999999995, 0.03622, 0.04405, 0.05071999999999999, 0.059959999999999986, 0.07794000000000001, 0.10836, 0.4264]Unique Label Values
{'M', 'R'}Counts for Each Value of Categorical Label
['M', 'R']
[111, 97]
4、利用python工具包输出
(1)、分位图查找异常点
(2)、输出头数据和尾数据
(3)、输出统计信息
5、对整个数据集各个特征(属性)PCP(平行坐标图)可视化分析
6、属性之间关系的关系SP可视化
7、特殊属性和标签的关系SP可视化
8、利用皮尔逊相关系数计算任意两个特征(属性)之间相关程度
(1)、如图分别计算的是2&3、2&21两个相关度数值
分别计算第2&3、2&21个属性参数相关度,发现2&3之间相关度比2&21高!
9、Heat Map热图:利用皮尔森相关系数矩阵,且使用HM可视化变量之间的相关性
三、测试该数据集上度量分类器性能
T1、OLS构建分类器
1、输出结果
2、ROC、AUC可视化分析
T2、RiR构建分类器+AUC度量分离器性能
ML之二分类预测:以岩石水雷数据集(RockMine)为例从0到1深入理解科学预测之分类问题的思路框架(特征工程详细步骤(特征分析与特征处理)+分类模型设计)相关推荐
- ML之多分类预测:以某个数据集为例从0到1深入理解科学预测之多分类问题的思路框架
ML之多分类预测:以某个数据集为例从0到1深入理解科学预测之多分类问题的思路框架 目录 一.总体思路框架 二.各个步骤详细说明 一.总体思路框架 二.各个步骤详细说明
- ML之回归预测:以某个数据集为例从0到1深入理解科学预测之回归(实数值评分预测)问题的思路框架
ML之回归预测:以某个数据集为例从0到1深入理解科学预测之回归(实数值评分预测)问题的思路框架 相关文章 ML之PLiR之LARS:利用LARS算法求解ElasticNet回归类型问题(实数值评分预测 ...
- ML之回归预测:以某个数据集为例从0到1深入理解科学预测之回归(实数值年龄预测)问题的思路框架
ML之回归预测:以某个数据集为例从0到1深入理解科学预测之回归(实数值年龄预测)问题的思路框架 目录 1.总体思路架构图 2.各个步骤详细图 1.总体思路架构图 2.各个步骤详细图
- 【数据竞赛】Kaggle实战之特征工程篇-20大文本特征(上)
作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--文本特征上半篇! 前 言 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们 ...
- 【数据竞赛】Kaggle实战之特征工程篇-20大文本特征(下)
作者:尘沙杰少.樱落.新峰.DOTA.谢嘉嘉 特征工程--文本特征下半篇! 前 言 这是一个系列篇,后续我们会按照我们第一章中的框架进行更新,因为大家平时都较忙,不会定期更新,如有兴趣欢迎长期关注我们 ...
- 【特征工程概要】解释什么是特征,特征工程的步骤
特征工程简介 经常听人说,数据和特征决定了机器学习的上限,算法和模型只是不断逼近这个上限而已.由此可见,特征工程在机器学习中不可或缺的地位. 回过头看看网站Kaggle,KDD,国内外的比赛,每个竞赛 ...
- 《特征工程入门与实践》--- 特征学习
<特征工程入门与实践>--- 特征学习 数据形状的无参数假设:特征学习方法 1. 受限玻尔兹曼机(RBM) 受限玻尔兹曼机(RBM)学习笔记 RBM的训练过程: 从MNIST中提取PCA成 ...
- EOF-DataScience:数据预处理/特征工程之线性变换—四种特征缩放Scaling算法简介、标准化standardization、归一化Normalization的概述与区别
DataScience:数据预处理/特征工程之线性变换-四种特征缩放Scaling算法简介.标准化standardization.归一化Normalization的概述与区别 目录 数据处理中常见的四 ...
- 用户特征工程详细解读
在网上找到了美团一位叫付晴川同学些的ppt,里面有一幅描述用户特征工程的图,感觉总结得还是比较到位的.现在把图片贴出来: 这张图将用户特征工程里的大面基本都囊括了.因为ppt本身做得比较简单,现在我 ...
最新文章
- Linux 安装Boost
- 用 Ganglia 监控基于 Biginsights 的 HBase 集群性能
- [原创].七段数码管驱动,Verilog版本
- openstack 网络简史
- debian mysql开机启动_自动启动debian和lighttpd+mysql
- java String长度与varchar长度匹配理解(字符和字节长度理解)
- 对象的基础用法和解构赋值
- Gallery 相册管理系统项目将不再维护
- shell 实现txt转换成html
- 105 基于socketserver实现并发的socket编程
- Android 屏蔽Power键 Home键
- 【CLP】Conic Linear Programming Duality
- oracle 删除 快照,创建和销毁 ZFS 快照
- 拿棱镜门黑客软件攻击“俄版百度”,不偷情报只想装大V,FBI们被抓包了
- HTML CSS JavaScript学习心得
- 标准H.460公私网穿越视频解决方案
- 【unity】转场动画
- 程序员遇到有远见的丈母娘
- echarts嵌套饼图自动动画_使用百度echarts制作可视化大屏——制作一个双层饼图...
- TeamViewer的LAN局域网内连接