数据清洗

  • 1、处理重复数据
  • 2、处理缺失数据
  • 3、数据一致性(数据逻辑错误)

1、处理重复数据

1、函数法

B:countif(A:A,A2) 结果是A2在所有结果中出现的次数;A776477 一共在列中出现两次
C:countif(A$2:A3,A3)  结果是在A2-A3 中 A3 第几次出现

2、高级筛选法


3、条件格式法


4、透视表


5、删除重复值

2、处理缺失数据

表格里,缺失值最常见的表现形式就是控制或者错误标识符,可以接受的缺失值在10%以下;

1、定位

处理缺失值的四种方法:

  • 用样本统计量的值代替缺失值。典型的是用样本平均值代替,如果是分类数据可以用众数代替;
  • 用统计模型计算出来的值去代替缺失值;常见的O型有回归模型、判别模型等;
  • 将有缺失值的记录删除
  • 将缺失值作为另一个类别;
  • 保留记录

缺失值填充快捷键:ctrl+G 定位空白单元格后使输入数据,然后ctrl+Enter 就可以将所有空白纸填充

2、 查找替换

3、数据一致性(数据逻辑错误)

  • 利用IF函数检查错误

  • 利用条件格式标记错误

参考:《谁说菜鸟不会数据分析》

数据处理(一)数据清洗相关推荐

  1. 2021年大数据基础(四):​​​​​​​​​​​​​​​​​​​​​大数据业务分析基本步骤

    2021大数据领域优质创作博客,带你从入门到精通,该博客每天更新,逐渐完善大数据各个知识体系的文章,帮助大家更高效学习. 有对大数据感兴趣的可以关注微信公众号:三帮大数据 目录 大数据业务分析基本步骤 ...

  2. qstring 属于元数据类型吗_数据仓库的“元数据管理”

    作者 | 李谦恒 数据工程师.逻辑重于代码,高效胜过勤奋.崇尚life work balance. 引言 元数据管理是企业数据治理的基础,是数据仓库的提升:作为一名数据人,首要任务就是理解元数据管理. ...

  3. AI零基础入门之人工智能开启新时代—下篇

    人工智能概述 人工智能的定义 · 人工智能是通过机器来模拟人类认识能力的一种科技能力 · 人工智能最核心的能力就是根据给定的输入做出判断或预测 · 思考:通过什么途径才能让机器具备这样的能力? · 举 ...

  4. 【一周入门MySQL—5】

    数据库实例应用 [电商数据处理案例] 目标需求:将某电商脱敏后数据导入数据库进行加工处理,使用加工好的数据分析业务问题数据获取 客户相关:UserInfo.csv:用户主表.RegionInfo.cs ...

  5. 爸,这下你还敢抽烟么?

    AIStudio地址 Github地址 不抽烟,也没有烟,所以只能以这种形式代替了 爸,这下你还敢抽烟吗?/邪笑 我爸:这锅我不背!! 项目背景   2014年11月24日,卫生计生委起草了<公 ...

  6. 基于K-Means的银行客户数据集分析与处理

    关于银行数据的分析与处理,数据集来自www.kaggle.com 数据分析 选择K-means聚类算法来处理数据,得出相关结论. K-means算法简述: K-Means的算法如下: 1. 随机在图中 ...

  7. 什么是大数据?2022大数据时代

    大数据概述 大数据是指无法在一定时间范围内用常规软件工具进行捕捉.管理和处理的数据集合. 数据与数据分析 数据分析离不开数据.百科对数据(data)的定义:是事实或观察的结果,是对客观事物的逻辑归纳, ...

  8. 数据分析2021年最实用工具排名前6位出炉

    对于数据分析工具,我们通过会有一个疑问,在众多的数据分析工具中,到底有什么区别,哪一个更好,我又应该学习哪一个呢? 虽然这是一个老生常谈的问题了,但它却是非常重要,我也一直在努力寻找最终的答案.如果你 ...

  9. Power BI介绍

    Power BI介绍 Power BI是由微软研发的一款商业智能分析软件,是一款可视化自助式BI工具. 核心理念:让业务人员无须编程就能快速上手商业大数据分析与可视化,具有丰富的可视化图表组件,跨设备 ...

  10. 《谁说菜鸟不会数据分析 入门篇》学习笔记

    前言: 最近疫情原因,在家准备把从图书馆借的书都看看,好好为将来做准备.这本书主要是EXCEL的操作,对于使用要求不高的我,感觉够用了.毕竟是入门篇,我感觉是跟数据分析的关系不太紧密,更多的是应该这么 ...

最新文章

  1. DHCP配置与DHCP中继代理2
  2. Hadoop HDFS文件操作的Java代码
  3. Merkle Tree(梅克尔树)算法解析
  4. html5 Canvas画图教程(5)—canvas里画曲线之arc方法
  5. 50个python库
  6. httpd2.4源码编译
  7. h5 右下角浮动按钮_意派Epub360丨国庆黄金周将至,分享9个H5互动营销思路
  8. 新年春节海报素材精品,再也不怕老板催稿!
  9. druid 多数据源_SpringBoot+Mybatis+Druid+PageHelper 实现多数据源并分页
  10. linux怎么更改rpcbind端口号,rpcbind_rpcbind服务是什么_rpcbind 端口
  11. Vue基础案例-----Todos(1)
  12. python 绘图及可视化
  13. sumifs 汇总_空标准单元格的SUMIFS公式
  14. usb2.0 to sata 芯片_达摩院发布业界首款语音合成算法专用AI FPGA芯片设计Ouroboros,效率提高百倍...
  15. android开发底部虚拟键,android手机底部的虚拟按键怎么弄,像android平板那样。
  16. CentOS自动同步互联网服务器时间
  17. 微信小程序校园活动管理系统+后台管理系统
  18. 现代控制理论课件分享及课后思考题(初稿待完善)
  19. 硬件实施 关于基恩士SR2000电源线的接法
  20. Material Design的基础知识

热门文章

  1. MySQL备份和恢复:mysqldump工具用法详述
  2. 金蝶K/3产品性能稳定性优化指导手册
  3. 最受欢迎的五大bug管理平台
  4. 我的创业你也可以复制:股权结构中常见的问题
  5. The Copernicus Global Land Service (CGLS)账号注册与数据下载
  6. React Native热更新方案
  7. 0xc000007b错误、DirectX、C++组件、缺少msvcr120.dll文件等
  8. 记录Access deined: authorize failure的坑
  9. java程序员实习刚进入公司一般会安排做什么?
  10. 谷歌chrome安卓版_Chrome+Android能摩擦出怎样的火花?Fyde OS深入体验笔记