ML之FE:基于波士顿房价数据集利用LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值/异常样本

目录

基于波士顿房价数据集利用LiR和LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值

# 1、定义数据集

# 2、数据预处理/特征工程

# 2.1、分离特征与标签

# 3、模型训练与预测

# 3.1、切分数据集

# 3.2、建立模型

# 3.3、模型预测

# 3.4、模型评估

# 4、利用3σ原则寻找测试集中的异常值

# 4.1、计算残差和3σ并可视化

# 4.2、输出异常值的索引及其对应数据

# 4.3、可视化异常样本数据

# 绘制验证集中的异常数值索引所在的样本数据


相关文章
ML之FE:基于波士顿房价数据集利用LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值/异常样本
ML之FE:基于波士顿房价数据集利用LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值/异常样本实现代码

基于波士顿房价数据集利用LiR和LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值

# 1、定义数据集

      CRIM    ZN  INDUS  CHAS    NOX  ...    TAX  PTRATIO       B  LSTAT  target
0  0.00632  18.0   2.31   0.0  0.538  ...  296.0     15.3  396.90   4.98    24.0
1  0.02731   0.0   7.07   0.0  0.469  ...  242.0     17.8  396.90   9.14    21.6
2  0.02729   0.0   7.07   0.0  0.469  ...  242.0     17.8  392.83   4.03    34.7
3  0.03237   0.0   2.18   0.0  0.458  ...  222.0     18.7  394.63   2.94    33.4
4  0.06905   0.0   2.18   0.0  0.458  ...  222.0     18.7  396.90   5.33    36.2[5 rows x 14 columns]
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 506 entries, 0 to 505
Data columns (total 14 columns):#   Column   Non-Null Count  Dtype
---  ------   --------------  -----  0   CRIM     506 non-null    float641   ZN       506 non-null    float642   INDUS    506 non-null    float643   CHAS     506 non-null    float644   NOX      506 non-null    float645   RM       506 non-null    float646   AGE      506 non-null    float647   DIS      506 non-null    float648   RAD      506 non-null    float649   TAX      506 non-null    float6410  PTRATIO  506 non-null    float6411  B        506 non-null    float6412  LSTAT    506 non-null    float6413  target   506 non-null    float64
dtypes: float64(14)
memory usage: 55.5 KB

# 2、数据预处理/特征工程

# 2.1、分离特征与标签

# 3、模型训练与预测

# 3.1、切分数据集

# 自定义构造异常样本,并新增到验证数据集的最后一行
[[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]CRIM    ZN  INDUS  CHAS     NOX  ...   RAD    TAX  PTRATIO       B  LSTAT
0    51.13580   0.0  18.10   0.0  0.5970  ...  24.0  666.0     20.2    2.60  10.11
1     0.05735   0.0   4.49   0.0  0.4490  ...   3.0  247.0     18.5  392.30   6.53
2     0.03578  20.0   3.33   0.0  0.4429  ...   5.0  216.0     14.9  387.31   3.76
3    12.04820   0.0  18.10   0.0  0.6140  ...  24.0  666.0     20.2  291.55  14.10
4     0.03150  95.0   1.47   0.0  0.4030  ...   3.0  402.0     17.0  396.90   4.56
..        ...   ...    ...   ...     ...  ...   ...    ...      ...     ...    ...
148   0.03932   0.0   3.41   0.0  0.4890  ...   2.0  270.0     17.8  393.55   8.20
149   1.49632   0.0  19.58   0.0  0.8710  ...   5.0  403.0     14.7  341.60  13.28
150  12.24720   0.0  18.10   0.0  0.5840  ...  24.0  666.0     20.2   24.65  15.69
151   3.56868   0.0  18.10   0.0  0.5800  ...  24.0  666.0     20.2  393.37  14.36
152   1.00000   1.0   1.00   1.0  1.0000  ...   1.0    1.0      1.0    1.00   1.00[153 rows x 13 columns]
[15.  26.6 45.4 20.8 34.9 21.9 28.7  7.2 20.  32.2 24.1 18.5 13.5 27.23.1 18.9 24.5 43.1 19.8 13.8 15.6 50.  37.2 46.  50.  21.2 14.9 19.619.4 18.6 26.5 32.  10.9 20.  21.4 31.  25.  15.4 13.1 37.6 37.  18.927.9 50.  14.4 22.  19.9 21.6 15.6 15.  32.4 29.6 20.4 12.3 19.1 14.917.8  8.8 35.4 11.5 19.6 20.6 15.6 19.9 23.3 22.3 24.8 16.1 22.8 30.520.4 24.4 16.6 26.2 16.4 20.1 13.9 19.4 22.8 13.8 31.6 10.5 23.8 22.419.3 22.2 12.6 19.4 22.2 29.8  9.6 34.9 21.4 25.3 32.9 26.6 14.6 31.523.3 33.3 17.5 19.1 48.5 17.1 23.1 28.4 18.9 13.  17.2 24.1 18.5 21.813.3 23.  14.1 23.9 24.  17.2 21.5 19.1 20.8 36.  20.1  8.7 13.6 22.22.2 21.1 13.4 17.4 20.1 10.2 23.1 10.2 13.1 14.3 14.5  7.2 19.6 20.622.7 26.4  7.5 20.3 50.   8.5 20.3 16.1 22.  19.6 10.2 23.2  1. ]

# 3.2、建立模型

# 3.3、模型预测

# 3.4、模型评估

R2: 0.7008826511832902
MAE: 2.7382901265894115
MSE: 24.875537390523984

# 4、利用3σ原则寻找测试集中的异常值

# 4.1、计算残差和3σ并可视化

# 4.2、输出异常值的索引及其对应数据

异常值在val数据集中的索引: [5, 21, 152]
异常值所对应的样本数据:CRIM   ZN  INDUS  CHAS    NOX  ...   RAD    TAX  PTRATIO       B  LSTAT
5    3.47428  0.0   18.1   1.0  0.718  ...  24.0  666.0     20.2  354.55   5.29
21   8.26725  0.0   18.1   1.0  0.668  ...  24.0  666.0     20.2  347.88   8.88
152  1.00000  1.0    1.0   1.0  1.000  ...   1.0    1.0      1.0    1.00   1.00[3 rows x 13 columns]
异常值的残差: [-21.89520378  23.73853433 -34.71056917]

# 4.3、可视化异常样本数据

# 绘制验证集中的异常数值索引所在的样本数据

ML之FE:基于波士顿房价数据集利用LightGBM算法进行模型预测然后通过3σ原则法(计算残差标准差)寻找测试集中的异常值/异常样本相关推荐

  1. 【python机器学习】线性回归--梯度下降实现(基于波士顿房价数据集)

    波士顿房价数据集字段说明 crim 房屋所在镇的犯罪率 zn 面积大于25000平凡英尺住宅所占比例 indus 房屋所在镇非零售区域所占比例 chas 房屋是否位于河边 如果在河边,值1 nox 一 ...

  2. Dataset之Boston:Boston波士顿房价数据集的简介、下载、使用方法之详细攻略

    Dataset之Boston:Boston波士顿房价数据集的简介.下载.使用方法之详细攻略 目录 Boston波士顿房价数据集的简介 Boston波士顿房价数据集的下载 Boston波士顿房价数据集的 ...

  3. ML之回归预测:利用13种机器学习算法对Boston(波士顿房价)数据集【13+1,506】进行回归预测(房价预测)+预测新数据得分

    ML之回归预测:利用13种机器学习算法对Boston(波士顿房价)数据集[13+1,506]进行回归预测(房价预测)+预测新数据得分 导读 本文章基于前边的一篇文章,对13种机器学习的回归模型性能比较 ...

  4. ML之xgboost:利用xgboost算法对Boston(波士顿房价)数据集【特征列分段→独热编码】进行回归预测(房价预测)+预测新数据得分

    ML之xgboost:利用xgboost算法对Boston(波士顿房价)数据集[特征列分段→独热编码]进行回归预测(房价预测)+预测新数据得分 导读 对Boston(波士顿房价)数据集进行特征工程,分 ...

  5. ML之回归预测:利用13种机器学习算法对Boston(波士顿房价)数据集【13+1,506】进行回归预测(房价预测)来比较各模型性能

    ML之回归预测:利用13种机器学习算法对Boston(波士顿房价)数据集[13+1,506]进行回归预测(房价预测)来比较各模型性能 导读 通过利用13种机器学习算法,分别是LiR.kNN.SVR.D ...

  6. ML之LiRDNNEL:基于skflow的LiR、DNN、sklearn的RF对Boston(波士顿房价)数据集进行回归预测(房价)

    ML之LiR&DNN&EL:基于skflow的LiR.DNN.sklearn的RF对Boston(波士顿房价)数据集进行回归预测(房价) 目录 输出结果 设计思路 核心代码 输出结果 ...

  7. ML之DTRFRExtraTRGBR:基于四种算法(DT、RFR、ExtraTR、GBR)对Boston(波士顿房价)数据集(506,13+1)进行价格回归预测并对比各自性能

    ML之DT&RFR&ExtraTR&GBR:基于四种算法(DT.RFR.ExtraTR.GBR)对Boston(波士顿房价)数据集(506,13+1)进行价格回归预测并对比各自 ...

  8. ML之kNN(两种):基于两种kNN(平均回归、加权回归)对Boston(波士顿房价)数据集(506,13+1)进行价格回归预测并对比各自性能

    ML之kNN(两种):基于两种kNN(平均回归.加权回归)对Boston(波士顿房价)数据集(506,13+1)进行价格回归预测并对比各自性能 目录 输出结果 设计思路 核心代码 输出结果 Bosto ...

  9. ML之SVM(三种):基于三种SVM(linearSVR、polySVR、RBFSVR)对Boston(波士顿房价)数据集(506,13+1)进行价格回归预测并对比各自性能

    ML之SVM(三种):基于三种SVM(linearSVR.polySVR.RBFSVR)对Boston(波士顿房价)数据集(506,13+1)进行价格回归预测并对比各自性能 目录 输出结果 设计思路 ...

最新文章

  1. 【青少年编程(第30周)】关于青少年编程能力等级测评的科普!
  2. linux基础篇-10,权限管理chown chgrp chmod umask
  3. php的优势和背景,CSS_CSS 多图片融合背景定位的应用于优缺点分析,1. 关键字, 例如: background-positio - phpStudy...
  4. 新浪微博API OAuth 2 Python客户端
  5. 原型、原型对象、构造函数、原型链理解
  6. [翻译] 比较 Node.js,Python,Java,C# 和 Go 的 AWS Lambda 性能
  7. 设计精美Power Bi报告的诀窍以及让人眼前一亮的精美Power Bi图表
  8. 2021年上半年软考网络工程师考试下午真题及答案解析
  9. MapReduce之OutputFormat理解
  10. 在thinkpad SL400上U盘安装双系统ubuntu14.10
  11. STM32触摸屏校准数据的存取
  12. Oracle安装之后电脑变慢
  13. Gartner发布:全球联络中心基础设施魔力象限
  14. BEC听力训练 方法2
  15. 官方教你如何为centos 7.x 安装Broadcom无线网卡驱动
  16. 真正了解gets() fgets() getc() fgetc()的区别
  17. 基于ESP32的蓝牙鼠标键盘(二)BleMouse.h函数解析
  18. 2014年电大计算机应用基础考,2014年中央电大计算机应用基础网考最新修改版小抄.doc...
  19. Oracle删除表空间导致报错无法登录解决
  20. 浏览器搜索引擎(SEO)优化

热门文章

  1. java 调用 swf 文件上传_java SpringMvc 实现文件在线预览(openoffice+swftools+flexpaper)
  2. Youtube api 3.0用法
  3. android设置字体为微软雅黑,css如何设置字体为微软雅黑
  4. 全光网调试(接入网设备调试)
  5. js 传入字符串,转换成日期类型,如果转换失败返回null
  6. 树莓派+ubuntu18.04+ROS-melodic+MAVROS+librealsense+vio+realsense_ros
  7. std::move的理解和使用
  8. 爸爸和妈妈结婚属于近亲结婚吗
  9. DNS BIND之DNS轮询负载
  10. 象棋python代码_象的解释|象的意思|汉典“象”字的基本解释