说明:这是一个机器学习实战项目(附带数据+代码+文档+代码讲解),如需数据+代码+文档+代码讲解可以直接到文章最后获取。

1.项目背景

孤立森林是基于Ensemble的快速异常检测方法,具有线性时间复杂度和高精准度,是符合大数据处理要求的state-of-the-art算法。孤立森林算法适用于连续数据的异常检测,将异常定义为“容易被孤立的离群点”,可以理解为分布稀疏且离密度高的群体较远的点。用统计学来解释,在数据空间里面,分布稀疏的区域表示数据发生在此区域的概率很低,因而可以认为落在这些区域里的数据是异常的。

孤立森林最早来源于2008年发表的一篇论文《Isolation Forest》,该论文由莫纳什大学的 Fei Tony Liu、Kai Ming Ting 和南京大学的周志华合作完成的。孤立森林算法的思想是通过不断地分割数据集,从而把异常点给孤立出来。分割数据集的依据是反复随机选取样本特征,不断地分割数据集直到每个样本点都是孤立的。在此情况下,异常点因为具有不同或者特殊的特征值,因此异常点的路径通常很短,也会比较早被分离出来。

2.数据获取

本次建模数据来源于网络(本项目撰写人整理而成),数据项统计如下:

数据组成:训练数据1460条、81个特征(38个数值特征和43个分类特征)

数据详情如下(部分展示):

3.数据预处理

3.1 用Pandas工具查看数据形状

使用Pandas工具的shape ()方法查看数据的形状:

关键代码:

3.2缺失值数据填充

使用Pandas工具的fillna ()方法用0填充缺失的数据,关键代码:

3.3生产数据集的特征列表

使用Pandas工具的columns属性来生成数据集的特征列表:

关键代码:

4.异常数据检测

使用sklearn工具中的IsolationForest(算法)来进行数据集中异常数据的检测。

4.1建模

模型参数如下:

4.2拟合与预测

应用fit()方法进行拟合,应用predict()进行预测,预测值分为1和-1,1为正常值,-1为异常值,那么在后续的深度神经网络模型应用中将会丢弃掉异常值的数据。检测结果如下:

关键代码如下:

4.3正常值结果展示

使用Pandas工具的head()方法来展示正常值数据的前10行:

关键代码如下:

5.特征工程

5.1数据归一化

使用sklearn工具MinMaxScaler()方法来进行数据的无量纲化,即数据的归一化,归一化后的数据如下图:

关键代码:

5.2 建立特征数据和标签数据

SalePrice为标签数据,除SalePrice之外的为特征数据。关键代码如下:

5.3数据集拆分

训练集拆分,分为训练集和验证集,70%训练集和30%验证集。关键代码如下:

6.构建深度神经网络模型

主要使用Keras工具的Sequential()方法构建序惯模型,然后添加Dense层,用于目标回归。

 6.1建模

 关键代码如下:

7.模型评估

7.1评估指标及结

评估指标主要包括均方误差等等。

从上表可以看出,损失值较小,深度神经网络模型效果较好。

关键代码如下:

7.3 真实值与预测值比对图

从上图可以看到,真实值和预测值波动基本一致,说明除去异常值之后的深度神经网络模型效果较好。

8.结论与展望

综上所述,使用了孤立森林算法对房价数据进行异常检测。实验结果表明,该算法可以有效检测出房价数据中存在的异常数据。然后把异常数据去除,来构建深度神经网络模型,模型效果较好。可用于日常生活中进行建模预测,以提高生产价值和效能。

测试集数据预测结果如下:

本次机器学习项目实战所需的资料,项目资源如下:

项目说明:
链接:https://pan.baidu.com/s/1dW3S1a6KGdUHK90W-lmA4w 
提取码:bcbp

网盘如果失效,可以添加博主微信:zy10178083

【项目实战】Python基于孤立森林算法(IsolationForest)实现数据异常值检测项目实战相关推荐

  1. 【项目实战】基于随机森林算法的房屋价格预测模型

    [博客地址]:https://blog.csdn.net/sunyaowu315 [博客大纲地址]:https://blog.csdn.net/sunyaowu315/article/details/ ...

  2. 异常检测-基于孤立森林算法Isolation-based Anomaly Detection-1-论文学习

    异常检测-基于孤立森林算法Isolation-based Anomaly Detection-1-论文学习 参考文章: (1)异常检测-基于孤立森林算法Isolation-based Anomaly ...

  3. 孤立森林算法的离群点检测

    孤立森林算法的离群点检测,包含设置隔一段时间运行检测函数.读取数据库.插入数据库.保存异常检测模型.可视化异常分数与异常值直方图关系.插入uuid.当前日期. import pandas as pd ...

  4. 孤立森林(IsolationForest)算法对数据进行异常检测

    1.摘要 本文主要讲解:使用孤立森林(IsolationForest)算法对数据进行异常检测 主要思路: 对数据进行处理,处理成算法能识别的二维数据 使用孤立森林(IsolationForest)算法 ...

  5. 在envi做随机森林_基于模糊孤立森林算法的多维数据异常检测方法

    引用:李倩, 韩斌, 汪旭祥. 基于模糊孤立森林算法的多维数据异常检测方法[J]. 计算机与数字工程, 2020, 48(4): 862-866. 摘要:针对孤立森林算法在进行异常检测时,忽略了每一条 ...

  6. 基于随机森林算法的贷款违约预测模型研究(Give me some credit)

    本文实验代码github:https://github.com/dengsiying/give-me-some-credit/tree/master 参考链接:从决策树到随机森林 http://www ...

  7. gbdt 算法比随机森林容易_用Python实现随机森林算法

    CDA数据分析师 出品 拥有高方差使得决策树(secision tress)在处理特定训练数据集时其结果显得相对脆弱.bagging(bootstrap aggregating 的缩写)算法从训练数据 ...

  8. 动手实操丨基于随机森林算法进行硬盘故障预测

    摘要:业界期望使用机器学习技术来构建硬盘故障预测的模型,更准确地提前感知硬盘故障,降低运维成本,提升业务体验.本案例将使用随机森林算法来训练一个硬盘故障预测模型. 本文分享自华为云社区<基于随机 ...

  9. 基于随机森林算法进行硬盘故障预测

    摘要:本案例将带大家使用一份开源的S.M.A.R.T.数据集和机器学习中的随机森林算法,来训练一个硬盘故障预测模型,并测试效果. 本文分享自华为云社区<基于随机森林算法进行硬盘故障预测>, ...

最新文章

  1. hdu 4350 Card(递推循环节,3级)
  2. github上传本地项目_提交本地项目到GitHub
  3. 面试整理(1):原生ajax
  4. 麟龙指标通达信指标公式源码_通达信指标公式源码波段极限副图源码
  5. wince 自带的web server
  6. 使用transforms.Compose套件做图像数据变换
  7. (65)-- 爬取兄弟连老师信息
  8. [RQNOJ]PID34 / 紧急援救
  9. swagger注解说明_齐全的swagger注解介绍
  10. 这样的员工一定会成为高管
  11. 【matlab】解方程组
  12. tcpdump man 手册页的详细中文翻译
  13. java6 官方API中文版
  14. 【FXCG】波段操作的四个步骤
  15. org.apache.ibatis.binding.BindingException:
  16. 【安全牛学习笔记】密码嗅探
  17. 用js实现动态添加删除表格数据
  18. java开发之SSM开发框架
  19. 计算机专业必备的英语词汇,计算机专业必备英语词汇
  20. pku,zju题目分类

热门文章

  1. 只要花3K 手把手教你制作炫酷的MR混合现实视频
  2. web前端(HTML的CSS样式和JavaScript)
  3. Python利用Matplotlib绘图无法显示中文字体的解决方案
  4. window.name属性详解(Javascript)
  5. vs修改项目属性无效的原因
  6. 打包php程序为安装文件,zblogphp主题和插件怎么打包成.zba格式文件
  7. jav中什么是组织java程序_Javs ^运算符在Java中做什么?
  8. 英语谚语精选(English Proverb Collection)
  9. Sphinx 自动化文档
  10. 计算机专业英语听说,计算机专业英语听说(二).doc