12月

23

2019

大数据清洗的方法及流程

数据清洗简单概述就是对企业在运行经营过程中,产生的纷繁复杂的数据进行抽取、转换、加载三个部分。具体细化流程则分为分析数据、缺失值处理、异常值处理、去重处理、噪音数据处理几部分,以下我们将数据清洗分为两部分进行介绍,既数据清洗的方法、数据清洗基本流程。

数据清洗方法

1、缺失值处理

在数据清洗中对缺失值的处理有删除、均值填补、热卡填补、回归填补、多重填补、K-最近邻法、有序最近邻法、贝叶斯等,以下介绍三种使用频率较高的缺失值补全方法:

删除:缺失部分在整体数据样本中占比较低时,直接删除即可;

均值填补:依据数据值属性相关度,对影响最大的那一组数据拆分成几个部分,计算出每部分的均值,加入到缺失数据中即可;

热卡填补法:若缺失值包含变量,那么在数据库中寻找与它相似度最高的一组数据进行填补;

2、异常值处理

在数据清洗中对异常值的处理有3∂原则、箱型图分析、模型检测、距离、密度、聚类、统计分析等,以下照例介绍三种使用频率较高的异常值处理方法:

统计分析:拿到数据之后,对其进行简单的描述性统计。通过选取最大最小阈值来判断是否符合常识;

模型检测:根据正常状态,建立数据模型。将数据表现与模型不拟合的数据定义为异常值;

3∂原则:如果数据服从正态分布,在3∂原则下,异常值为一组测定值中与平均值的偏差超过3倍标准差的值。如果数据服从正态分布,距离平均值3∂之外的值出现的概率为P(|x-u| > 3∂) <= 0.003,属于极个别的小概率事件。如果数据不服从正态分布,也可以用远离平均值的多少倍标准差来描述;

3、噪音处理

在数据清洗中,对噪音处理的方法为分箱法和回归法;以下对去处理方法做简要介绍:

分箱法:通过考察对比数据周边值来光滑有序数据值,这些数值被分布到一些箱中,再由分箱考察对比周边近邻值。以箱为单位对素质进行平均值替换或者中位数替换,箱中最大值最小值被视为边界,箱中的每个值被最近的边界值替换。

回归法:线性回归将拟合两个属性的最佳直线,使得一个属性能够预测另一个。多线性回归是线性回归的扩展,涉及将多个属性数据拟合到一个多维面;

数据清洗基本流程

1、数据预处理

将数据导入到处理工具当中,通过工具自动“查看”采集到的元数据信息,然后人工查看数据,归纳总结工具处理可能存在的遗漏或偏差,为下一步数据处理做准备;

2、数据分析处理

缺失值清洗:通过去重除噪、缺失值处理、通过其他渠道重新获取丢失的重要数据进行数据填充及补全;

(2)格式内容清洗:对格式的清洗,小到日期/数值/半全角显示,大到数值内容中是否存在不该有的字符或是与内容不符的字符,都必须通过数据清洗处理掉;

(3)逻辑错误清洗:重复性数据、与常识不符的异常数据、属性依赖冲突的数据以及非需求数据进行清除;

3、校验

最后对数据清洗的结论进行效验,如格式效验和数据关联性效验;

数据清洗的应用场景

随着企业从传统的人力巡检到半自动的数据化转型,越来越多的商业领域将涉及数据清洗的业务。例如制造业、农业在将设备接入物联网云平台之后,每天都会产生大量数据,通过数据清洗提高生产效率,降低运维成本。

小结:大数据清洗的方法  数据清洗的基本流程介绍到此就暂告一段落。若要了解更多相关资讯,请点击“行业资讯”。如若有业务需求,点击左侧发起实时对话,咨询适合自身企业的能源管理解决方案。

相关阅读推荐:

| 中小型企业工厂管理软件推荐 | 物联网应用领域 | 通用组态软件的特点 |

大数据中数据清理怎么做的_大数据清洗的方法 数据清洗的基本流程 | 星云联动...相关推荐

  1. 大数据中数据清理怎么做的_针对不完整数据的大数据清洗方法与流程

    本发明属于大数据清洗技术领域,涉及一种针对不完整数据的大数据清洗方法. 背景技术: 随着信息化的进展,企业内部积累了大量的电子数据,这些数据对企业非常重要.但由于各种原因,导致企业现有系统数据库中存在 ...

  2. dataframe数组做元素_大数据技术之使用 DataFrame 读取复杂 JSON 中的嵌套数组

    本篇教程探讨了大数据技术之使用 DataFrame 读取复杂 JSON 中的嵌套数组,希望阅读本篇文章以后大家有所收获,帮助大家对大数据技术的理解更加深入. 众所周知,在早期Spark版本中就已经支持 ...

  3. python数据中元素可以改变的是_下列Python数据中其元素可以改变的是( )。 (2.0分)_学小易找答案...

    [单选题]利润最大化要求改变各投入要素的投入量直到: [填空题]狭义的托幼园所环境是指在托幼园所中 , 对学前儿童身心发展产生影响的 物质 与 _________ 的总和. [单选题]关于网络营销和电 ...

  4. 大数据技术与应用实训心得_大数据心得体会

    大数据心得体会 [篇一:大数据时代心得体会] <大数据时代>心得体会 信息时代的到来,我们感受到的是技术变化日新月异,随之而来的 是生活方式的转变,我们这样评论着的信息时代已经变为曾经.如 ...

  5. 大数据全样而非抽样原理_大数据思维原理,你了解多少?

    原标题:大数据思维原理,你了解多少? 随着大数据的深入人心,很多大数据技术的专家.战略专家.未来学学者等开始提出.解读并丰富大数据思维概念的内涵和外延.总体来说,大数据思维包括全样思维.容错思维和相关 ...

  6. python下列数据中不属于字符串的是_下列数据中,不属于字符串的是( )。 (6.0分)_学小易找答案...

    [单选题]黄酮苷和黄酮苷元一般均能溶解的溶剂是 [其它]跨境物流与海外仓操作 [单选题]在python中,下列流程控制语句没有的是 [单选题]采用碱溶解酸沉淀法提取芦丁,用石灰乳调PH时,应调至 [多 ...

  7. python下列数据中不属于字符串的是_在python中,下列流程控制语句没有的是_学小易找答案...

    [单选题]为保护黄酮母核中的邻二酚羟基,碱溶解酸沉淀法提取时可加入 [多选题]网上开店货源的选择主要有( ) [单选题]在python中,下列流程控制语句没有的是 [填空题] 写出下面程序的运行结果 ...

  8. python下列数据中不属于字符串的是_下列数据中,不属于字符串的是( )。_学小易找答案...

    [单选题]字符串的strip方法的作用是( ). [其它]请根据下述需求,编写一个程序: 用户输入一个字符串,将下标为偶数的字符串提出来合并成一个新的字符串A,再将下标为奇数的字符串提出来合并成一个新 ...

  9. 计算球堆积密度的c语言程序,用于形成包含堆积在任意形状的体积中的多分散球形颗粒的计算机化模型的方法和系统与流程...

    本发明通常涉及一种在用于产品的数值模型的计算机辅助的工程分析中的计算机化模型的形成,更具体地说,涉及一种用于形成代表堆积在任意形状的体积中的多分散球形颗粒的计算机化模型的方法和系统. 背景技术: 许多 ...

  10. java和大数据哪个就业前景好的专业_大数据Java学哪个好,哪个更有发展前景?...

    在IT职业技能培训当中,Java开发可以说是非常经典的一个方向,行业当中对于Java开发人才,早年可以是存在长期持续性的需求.而大数据,作为近年来的新兴技术热点,也同样备受关注.因此很多人在大数据培训 ...

最新文章

  1. CUD学习-查看电脑block数量与如何分配给程序
  2. nginx相关的一些记录
  3. 【斜率优化】Cats Transport(luogu-CF 311B)
  4. 操作系统02进程管理Process_Description_and_Control
  5. [学习笔记] [数据分析] 01.Python入门
  6. 用户使用双屏扩展桌面类软件时,所遇到的主要疑难问题汇编
  7. easyflash 教程
  8. ftp中转服务器,bat实现的ftp中转
  9. 澳门大学计算机qs排名,澳门大学世界QS排名
  10. strongswan与sangfor的ikev2配置
  11. Matlab龚珀兹曲线模型预测,皮尔曲线预测法
  12. 用批处理文件把.txt后缀的文件全部换成其他后缀文件
  13. 数据库之SQL的主键和外键的作用
  14. app第三方支付,微信小程序支付
  15. 2014年 IT 行业校招待遇
  16. 用nexus搭建maven私服(整合网上文章而成的)
  17. python24小时12小时转换_python将时间从12小时转换为24小时格式
  18. chatGPT的49种应用场景,双AI生成二次元仙女,及各开发语言对接chatGPT参考指南
  19. Ubuntu 和 Debian 的关系
  20. 白领做全身体操可有效防治鼠标手

热门文章

  1. 【control】模型预测控制(MPC)
  2. 【AD15绘制原理图编译的一些警告的处理】
  3. Euraka的搭建和使用
  4. python免费教程发布页
  5. c语言车牌识别原理,解析车牌识别技术,融合多种算法的原理和过程
  6. 二阶微分方程降阶求法一阶技巧求法
  7. pdf页面倒序如何调整?
  8. JPM Coin— 货币非国家化的开端 | TokenInsight
  9. 遥感原理与应用【Ⅱ】
  10. ajax中的get和post的区别