数据处理时如何解决噪声数据?
一、什么是噪声
在机器学习中我们在独立随机抽样的时候会出现一些搞错的信息,这些错误的数据我们称之为杂讯(或者噪音 noise),一般可以归结为一下两种(以二分为例):
输出错误:
1.同样的一笔数据会出现两种不同的评判
2.在同样的评判下会有不同的后续处理。
输入错误:
1.在收集数据的时由于数据源的随机性会出现错误(比如说,客户在填信息的时候出现的误填)
实际应用中的数据基本都是有干扰的,还是用信用卡发放问题举例子:
噪声产生原因:
- 标记错误:应该发卡的客户标记成不发卡,或者两个数据相同的客户一个发卡一个不发卡;
- 输入错误:用户的数据本身就有错误,例如年收入少写一个0、性别写反了什么的。
二、噪声数据的处理方法
常见的噪声数据的处理方法:分箱;聚类;计算机和人工检查结合;回归
1、分箱
分箱方法是一种简单常用的预处理方法,通过考察相邻数据来确定最终值。所谓“分箱”,实际上就是按照属性值划分的子区间,如果一个属性值处于某个子区间范围内,就称把该属性值放进这个子区间所代表的“箱子”内。把待处理的数据(某列属性值)按照一定的规则放进一些箱子中,考察每一个箱子中的数据,采用某种方法分别对各个箱子中的数据进行处理。在采用分箱技术时,需要确定的两个主要问题就是:如何分箱以及如何对每个箱子中的数据进行平滑处理。
- 分箱的方法:有4种:等深分箱法、等宽分箱法、最小熵法和用户自定义区间法。
(1)统一权重
也称等深分箱法,将数据集按记录行数分箱,每箱具有相同的记录数,每箱记录数称为箱子的深度。这是最简单的一种分箱方法。
(2)统一区间
也称等宽分箱法,使数据集在整个属性值的区间上平均分布,即每个箱的区间范围是一个常量,称为箱子宽度。
(3)用户自定义区间
用户可以根据需要自定义区间,当用户明确希望观察某些区间范围内的数据分布时,使用这种方法可以方便地帮助用户达到目的。
例:客户收入属性income排序后的值(人民币元):800 1000 1200 1500 1500 1800 2000 2300 2500 2800 3000 3500 4000 4500 4800 5000,分箱的结果如下。
统一权重:设定权重(箱子深度)为4,分箱后
箱1:800 1000 1200 1500
箱2:1500 1800 2000 2300
箱3:2500 2800 3000 3500
箱4:4000 4500 4800 5000
统一区间:设定区间范围(箱子宽度)为1000元人民币,分箱后
箱1:800 1000 1200 1500 1500 1800
箱2:2000 2300 2500 2800 3000
箱3:3500 4000 4500
箱4:4800 5000
用户自定义:如将客户收入划分为1000元以下、10002000、20003000、3000~4000和4000元以上几组,分箱后
箱1:800
箱2:1000 1200 1500 1500 1800 2000
箱3:2300 2500 2800 3000
箱4:3500 4000
箱5:4500 4800 5000
(4)数据平滑方法
数据平滑方法又可以细分为:平均值平滑、按边界值平滑和按中值平滑。
按平均值平滑
对同一箱值中的数据求平均值,用平均值替代该箱子中的所有数据。
按边界值平滑
用距离较小的边界值替代箱中每一数据。
按中值平滑
取箱子的中值,用来替代箱子中的所有数据。
2、聚类
将物理的或抽象对象的集合分组为由类似的对象组成的多个类。
找出并清除那些落在簇之外的值(孤立点),这些孤立点被视为噪声。
3、回归
试图发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据,即通过建立数学模型来预测下一个数值,包括线性回归和非线性回归。
三、参考文献
- 如何处理噪声数据
- 机器学习和数据挖掘(4):噪声与误差
- 机器学习中的噪音(机器学习基石)
数据处理时如何解决噪声数据?相关推荐
- 光滑噪声数据常用的方法_整理一份详细的数据预处理方法
重磅干货,第一时间送达 作者:lswbjtuhttps://zhuanlan.zhihu.com/p/51131210 为什么数据处理很重要? 熟悉数据挖掘和机器学习的小伙伴们都知道,数据处理相关的工 ...
- 基于Flink秒级计算时CPU监控图表数据中断问题
基于Flink进行秒级计算时,发现监控图表中CPU有数据中断现象,通过一段时间的跟踪定位,该问题目前已得到有效解决,以下是解决思路: 一.问题现象 以SQL02为例,发现本来10秒一个点的数据,有时会 ...
- 久其报表大厅_天下苦“数”久矣,大数据分析平台解决物流数据孤岛
文|帆软数据应用研究院 王清晨 引言 不知从何时起,数据挖掘.数据决策.云计算.大数据等一系列高大上的名词充斥着我们的生活,无论是传统行业还是互联网行业仿佛都被这些抽象化的标签所支配着,多少程序猿为数 ...
- 访问数据库时如何解决并发问题
解决并发主要是用到了锁和事务. 锁 :给记录或表加上锁是为了对当前操作对象加上一个状态表示位, 让其他用户在获取编辑权限时有了判断. 事务:是为了确保一组操作的完整性.(要么就全部 ...
- python数据处理系列之读写csv数据
python数据处理系列之读写csv数据 导入csv文件 pandas中导入csv数据用的方法是read_csv() import pandas as pd df = pd.read_csv(r'c: ...
- layui静态表格设置滚动条_解决layui数据表格table的横向滚动条显示问题
解决layui数据表格table的横向滚动条显示问题 加上这段样式代码就可以解决了: body{overflow-y: scroll;} /* 禁止刷新后出现横向滚动条 */ ps:这个问题fly社区 ...
- 如何解决分布式系统数据事务一致性问题
如何解决分布式系统数据事务一致性问题 (HBase加Solr) 摘要:对于所有的分布式系统,我想事务一致性问题是极其非常重要的问题,因为它直接影响到系统的可用性.本文以下所述所要解决的问题是:对于入H ...
- 深度学习中的噪声数据
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者:蒋路 来源:https://www.zhihu.com/pe ...
- 深度学习中的噪声数据该如何处理?
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自|深度学习这件小事 孔子云:"性能不够,数据来凑& ...
最新文章
- Matlab数据的可视化 -- 散点图
- 几个简单java基础的例子
- 基于redis的分布式任务管理
- Spring-boot logback日志处理
- mysql数据库访问编程,mysql 连接数据库
- 别扯了,这才是应对高并发的正确处理思路。
- 【明哥报错簿】之 mybatis异常invalid comparison: java.util.Date and java.lang.String
- 赛道对比测试高尔夫6/7 全面解析后悬架
- GridControl中进行多选数据,可以做多行删除
- 餐饮后厨计算机应用,美萍餐饮管理系统,餐饮管理软件,餐饮软件,酒店收银系统,饭店点菜系统 --- 管理软件 美萍是专家!...
- 下载网页中的html5视频之手动方法
- 求助动态贝叶斯网络参数学习函数的使用方法
- ERP天思T8后台SQL批量查询多阶BOM(九层)
- 冰点还原_8.60.020.5592_Standard版本手动卸载
- Dubbo支持自适应等待无损下线
- 均衡器--时域均衡,频域均衡,无限长迫零(Zero force\ZF)均衡器,有限长时域迫零(ZF)均衡器,无限长MSE均衡器
- 上线不到两个月,昇腾AI助推“中国算力网”再添新节点
- win10下mitmproxy安装
- 自己搭服务器 做购物网站成本,从零搭建一个购物网站,实操经验
- 知乎周源微信_每周源代码36-PDC,BabySmash和Silverlight图表
热门文章
- 剖析微信等即时通讯常用组件(一)
- 7-5 重要的话说三遍 (5 分)
- windows下配置安装 Mycat详细步骤
- sql 约束(sql server 环境)
- JAVA动态代理Porxy
- Android小红书发帖api接口,小红书Android客户端演进之路
- kubelet参数解释about kubelet gc image and evict pod.
- C++实现大数加减法
- 要怎么通过PHP发布微博动态:附代码详解
- 截图工具(win+shift+S)截图之后为什么粘贴不上?有了这个方法,不用单独下载多次复制粘贴的工具了