给你一步一步讲:

最最简单的,排个序,你定个剔除百分比,然后比如你要剔除10%那么你就选择一下,是剔除小的,还是剔除大的,就很快把异常值全找出来了。就是这个方法太糙,我从来不用。

在复杂一点的办法,拟合,拟合出这些数据的大趋势,然后按照比例来筛选,简单给你讲讲。

比如如你所说,我可以把这些数据给个编号

0,1

1,2

2,3

3,4

4,5

6,4

7,3

8,2

9,1

10,100

那么变成曲线就是这个样子

这时候你用最小二乘拟合一条曲线,可以是一次的,也可以是多次的,但是次数高了曲线就会弯曲程度很大,容易被你的异常值带跑太多

比如我用了个一次的,拟合出来的这个模样

红线部分,然后你就按照这根线,算一下差值,拟合之后的和原本点的距离,就得出来了一组新的数,比如是

2,3,8,6,4,8,5,6,9,89 (我瞎写的,没算)

这时候,你排个序,从小到大,然后你再定一个剔除率,比如,你觉得最多有10%是异常值,然后你按照次序,要前九个,不要最后一个,也就是把和拟合结果差的最多的10%不要,剔除了。

这个方法按照我的经验,虽然不是百分百稳定,不过已经效果不错了。

但是是你拟合的曲线的次数,是有讲究的,根据你的数据特征,而且我们用的时候还讲究局部拟合和全局拟合,反正拟合代表大趋势,和拟合完的结果差很多,就是异常值,这个思路是这个方法的出发点。

也简单给你讲一下,局部拟合我们干啥,但是有前提条件,第一异常值不在首尾而在中间,第二,来的数据是按照一定规律连续来的(这个规律就是数据不是瞎来的,不是毫无关系的数据),那么这就很简单了,我们用最小曲率进行局部拟合,这个最小曲率非常好用,基本上你视觉上看的不顺眼的点,肯定是规律和其他的点不成最小曲率的,这就是为啥数据不能是瞎来的,要是瞎来的规律性不强,可能最小曲率拟合完的曲线和原本点之间的差值大小就会很分散,不利于最后结果,最小曲率是所有拟合方法中,计算最麻烦的,可是效果很漂亮,就是得注意,如果在首尾点的话,插值过程中类似于样条插值,首尾的边界问题得单考虑,这个就很复杂了,不和你细说了。

在很多特定情况下,是可以一次一次拟合,判断差值,来建立迭代关系剔除野值的,简单来说剔除的结果再返回去用一次,重新检查剔除的是否合理,重复迭代直到稳定,这个得很针对数据特征来使用,但是这种迭代关系一旦建立,那么结果往往都非常令人满意,这个得看情况来对待,就不细说了。

滤波也是一种好方法,关于滤波的各种算法网上铺天盖地,针对数据特征用各种滤波方法,也是很好用的。

解决这种问题的方法太多了, 确实对于不同情况,都有针对性的解决方案,实在是没有一种就是万能的方法。

都是我工作中遇到的,可能讲的不详细,希望能对你有帮助

怎样用excel剔除异常数据_如何剔除异常数据?相关推荐

  1. 怎样用excel剔除异常数据_(如何剔除excel表格中重复的数据)excel表格怎么剔除异常数据...

    请问 Excel 如何剔除与平均数偏差较大的数字再求平均数?谢谢. 把问题作为内容(邮件主定要包含"excel",本人以此据辨别非垃圾邮件,以免误删).excel样件(请特别注意: ...

  2. spark读取hdfs路径下的数据_到底什么是数据湖

    随着移动互联网,物联网技术的发展,数据的应用逐渐从 BI 报表可视化往机器学习.预测分析等方向发展,即 BI 到 AI 的转变. 数据的使用者也从传统的业务分析人员转为数据科学家,算法工程师. 此外对 ...

  3. access对比数据_数据仓库系列之数据质量管理

    数据质量一直是数据仓库领域一个比较令人头疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质量.因此数据仓库的数据质量建设是一些公司的重点工作. 一 ...

  4. mysql查询两个表中的不同数据_如何实现大数据在多工作表中精准查询

    大家好,今日继续讲解VBA数据库解决方案,今日讲解第40讲:利用ADO实现同一文件的多个工作表精确查询.其实这讲的内容利用我之前讲解的知识点也可以自己完成.这里只是拿出来让大家再熟悉一下EXCEL的A ...

  5. 清掉数据_学习之大数据项目笔记第七篇【数仓模块-日志预处理篇】

    1 需求说明 1.1 清洗过滤 1)去除json数据体中的废弃字段(这是前端开发人员在埋点设计方案变更后遗留的无用字段): "email" "phoneNbr" ...

  6. cxgrid 保存数据_什么是大数据

    大数据是具有海量.高增长率和多样化的信息资产,它需要全新的处理模式来增强决策力.洞察发现力和流程优化能力. Big data is high volume, high velocity, and/or ...

  7. 哪里有现成的问卷调查数据_何去何从?被数据掩埋的「消费者旅程」

    消费者旅程(Customer Journey)在品牌营销中是一个非常重要的理论逻辑.无论它的表现形式是传统的5A(即Aware,Appeal,Ask,Act,Advocate)模型,还是阿里系惯用的A ...

  8. python-异常处理_异常类型_处理的异常的方法

    异常处理 1. 异常的定义 ​ 异常是程序运行时发生错误的信号 , 一旦程序出错就会产生一个异常 ​ 如果该异常没有被处理 , 该异常就会被抛出来 , 程序的运行随之终止 2. 异常的组成 ​ 1. ...

  9. java查询数据库大批量数据_数据库有百万数据量的情况下,分页查询的方法及其优化方式...

    当需要从数据库查询的表有上万条记录的时候,一次性查询所有结果会变得很慢,特别是随着数据量的增加特别明显,这时需要使用分页查询.对于数据库分页查询,也有很多种方法和优化的点. 下面简单说一下我知道的一些 ...

  10. 什么是云计算和大数据_什么是大数据和云计算

    什么是云计算和大数据 Big data and cloud computing are two sides of the coin. The whole world is on a way to ha ...

最新文章

  1. 集成 Kendo UI for Angular 2 控件
  2. Ubuntu下安装kate编辑器
  3. 【Android 内存优化】Android 工程中使用 libjpeg-turbo 压缩图片 ( JNI 传递 Bitmap | 获取位图信息 | 获取图像数据 | 图像数据过滤 | 释放资源 )
  4. gnuplot绘图,使用C语言输出
  5. Objective-C 反射机制
  6. Linux系统编程(三)进程间的通信
  7. Ambari实现HTTPS登陆
  8. Swift3.0 在其它类获取Appdelegate单例的属性或则对象的值
  9. Receive 163 mails
  10. PMP考试通关宝典,考生必看
  11. 微信 华为盒子 搜索不到服务器,【沙发管家教你一招】用手机微信控制华为荣耀盒子!...
  12. Python实现抽签(团日活动抽倒霉蛋
  13. 把老婆训练成女黑客的漏洞大神黄正|宅客故事
  14. PTA——21级数据结构与算法实验3——栈和队列(参考答案)
  15. mac更新后Git无法使用的问题
  16. redis.set方法详解
  17. Linux 学习--一篇就学懂Linux(万字长文)
  18. 用代码来玩三八二十四扑克牌游戏(C++)
  19. 开源 台账 预算 管理系统_3个坚持预算的开源工具
  20. 陈松松:新手学习视频制作先学什么软件比较合适

热门文章

  1. Android—传感器-方向传感器
  2. 弘辽科技:淘宝直通车点击量是什么意思?直通车点击量怎么提升?
  3. android+cortana+语音唤醒,为什么语音唤醒Cortana咒语是“你好,小娜”?
  4. EUI多图片轮播滑动效果
  5. 24产品经理需要具备的用户动机分析能力
  6. 数字体育进入黄金窗口期
  7. Softing pnGate系列网关:将PROFIBUS总线集成到PROFINET网络
  8. centos 中 Discuz 论坛模板配置问题
  9. 贝塞尔插值曲线绘制软件设计
  10. 网络硬件常识:光模块