Excel表格可以用来学习初级的数据分析。有一些数据清理阶段遇到的小技巧,在此记录一下。
数据清理主要的工作步骤是:调整样式→删除重复值→处理缺失值→一致化处理→数据排序→异常值处理

调整样式

  1. 打开Excel表之后乱码:
    造成乱码的原因和编程中时常遇到的字符编码出错是同一个道理,一般是因为导进来的时候本来表格是用csv或者是文本的形式,这样编码方式是阿斯卡码,而不是utf-8,总之目标是将utf-8的格式赋给表格里的数据。
    :选择“数据”→“从文本/css”,按照指引步骤完成导出转换
  2. 进入表格后发现原来的表格里面有很多冗余的空白行,删又删不掉
    :选中空白栏第一行,然后按ctrl+shift+↓ 可以一路选完下面的所有行,右键选择删除,保存文件退出重进。
  3. 调整表格的宽度让表格变得容易看,在开始→自动换行
  4. 隐藏掉不需要的列,在列名上右键点隐藏。

处理缺失值

  1. 处理缺失值有几种可选的做法:
  • 删掉整行,丢弃数据
  • 利用前后的平均值估算并且补齐数据
  • 利用已知的信息尝试填写数据
  • 标注缺失
  1. 到缺失的值,选出一整列或一整行然后在开始→查找与选择→定位条件→空值,可以锁定选中的行或者列中的空值,填补空值,按ctrl + Enter可以将一次填补的内容赋到所有空格里。
  2. 删除重复值:找到主键,因为主键应当唯一,然后选择数据→删除重复值

一致化处理

  1. 进行分列,要注意分列这个操作会覆盖掉后面的一列,所以要先把要分列的列复制到表格最后列,然后把原来的列隐藏,对新的列全选,数据→分列,然后选其他,输入与分隔数一直的符号。
  2. 使用公式,注意将要处理的列的格式改成数字格式,然后公式→函数,注意调整小数点位数,最后把鼠标放到框子的右下角,当出现一个十字的时候双击,这样平均值公式就会扩散到每一行。
  3. 用一个函数来截取字符串作为数据,比如受到的薪水是10k-15k这样一个字符串,我需要把10和15作为两个数据拿出来用。这样的话需要使用到LEFT和FIND这两个函数。LEFT是先找到一个字符串,然后在其中用FIND定位到k,然后减去1这样拿到k前面的数字。举例说明:=LEFT([@薪水],FIND(“k”,[@薪水])-1)这个公式里面,用left函数来定位薪水这个字段里面,先查找到k这个字符,然后截取长度为从k开始的字符长度减一。再如:=MID([@薪水],FIND("-",[@薪水])+1,1)里面,表示从薪水这个字段的中间开始查找“-”这个字符串,然后选取起始位置是在-之后的,所以是+1,mid这个函数就是说要从字符串中间开始起算,所以需要起始位置和求取长度两个参数,而left就是默认起始位置是从最左边开始的,所以只要查找字符串和截取长度。使用find函数的原因是为了让截取长度变得动态,可以根据字符串长度调整。
    记住公式,或者去查公式,LEFT(text,len),FIND(find text,within text,start num)
  4. 用数据→筛选然后在列名下面会出现下拉选单,这样可以对数值进行筛选,观察有没有错误的值,如果有错误的值,观察为什么会出错(公式不能完全涵盖数据行,大小写不敏感之类的),总之这个步骤需要反复进行,确保数据都处理干净。
  5. 在筛选完成之后,会发现数据此时是文本状态而且无法变成数据的格式,这样,只能将整列复制,在表格的尾部增加新的列处理它,全选此列,使用数据→分列,然后把分隔符全部去掉,这样会发现数据变成了数值的状态(文本状态一般字母在左边,而数值状态在右边)

找出异常值

  1. 这里要用到数据透视表,这个数据透视表的作用是将某些数据拿出来进行统计,作用有点类似于pandas里面的groupby这种,但是excel里面的运用没有那么灵活。在插入→数据透视表里面打开数据透视功能,点选要进行统计的项目,并且将它拖到下面两列中。
  2. 接下来进行排序,然后会发现有一些名称是明显不符合要求的,而且只有少数这样的名称,这些就是异常值。为了找出这些异常值,还需要继续用excel的公式。FIND公式升级版,要找的字段可以用{}括起来,然后用逗号分隔。

使用Excel表格进行数据清理相关推荐

  1. 点击展开 表格_CAD怎么将excel表格的数据导入并且实时更新?

    打造带着微信干工程的实用公众号!欢迎关注本公众号! 小编推荐好文 筑龙至尊套餐 | 全套施工技能培训视频 | 免费分享 全套工程视频合集 | 交底学习必备 | 部分可下载 全套质量通病及防治 | 联盟 ...

  2. 到处excel表格的数据和页面的数据不一致

    列表:Select t,m.frameworkName,ma.accountName from SaleEntity t left join MediaAccountEntity ma on t.me ...

  3. 如果去掉数学前后的空格_excel表格数据消除前后空格-EXCEL表格中数据后面的空格怎么去掉,一条条手工删......

    excel表格中,单元格的内容后面总是有一个空格,怎... 准备工具/材料:windows10电脑,excel软件. 单元格的内容后面去除空格的方法如下: 1.首先,打开需要设置的excel文件. 2 ...

  4. excel表格汇总数据

    今天跟大家分享一下excel表格汇总数据 1.如下图,有两个演示文件要求我们将两个表格数据汇总到一块. 2.首先我们点击下图选项 3.点击[汇总拆分]-[汇总多簿] 4.点击[添加文件].然后将文件添 ...

  5. 计算机Excel设置透视图,电脑Excel表格中数据透视图怎么制作

    电脑Excel表格中数据透视图怎么制作 腾讯视频/爱奇艺/优酷/外卖 充值4折起 我们在使用excel表格办公的时候,有时候会需要使用到数据透视表.今天小编就告诉大家电脑Excel表格中数据透视图怎么 ...

  6. 用 Python 对 Excel 表格内数据进行去重、分类,标记异常及分析

    Python与Excel表格综合实例四:对 Excel 表格内数据进行去重.分类,异常处理及分析 前言: 主要实现代码及思路: 1.主要思路: 2.读取数据函数: 3.数据去重函数: 4.数据分类函数 ...

  7. 计算机计算公式单组数据求乘法,(excel表格全部数据怎么乘以一个数啊)

    计算机一级用excel表格计算增长比例该怎么算? 1先在excel的单元格中输入需要计算增长比例的. 2.然后在C1单元输入计式:=(B1-A1)/A1. 3.点击回车,即可将计算公式生成结果,此时计 ...

  8. 如何从Excel表格导入数据批量生成二维码

    目前二维码应用渐趋广泛,二维码具有储存量大.保密性高.追踪性高.抗损性强.备援性大.成本便宜等特性,这些特性特别适用于表单.安全保密.追踪.证照.存货盘点.资料备援等方面.那么我们怎么用条码打印软件从 ...

  9. python 显示表格数据_python显示excel表格数据-怎么用python读取excel表格的数据

    怎么用python读取excel表格的数据 #导入包 import xlrd #设置路径 path='C:\\Users\\jyjh\\Desktop\\datap.xlsx' #打开 data=xl ...

最新文章

  1. python下载后是黑的_python下载文件记录黑名单的实现代码
  2. OpenShift helm的安装
  3. android搜索框功能实现_Android实现滑动解锁功能
  4. dojo 七 DOM dojo/dom
  5. 数据分析、关键词和地下产业
  6. 将两个数组河滨_【探索】苏州河两岸将新增12公顷公园绿地,四季皆有景
  7. 微软官方office教程和微软官方office模板
  8. cocosbuilder3.0 使用小记
  9. c语言system.h头文件下载,c语言头文件大全
  10. 8年Python程序员,去2线城市大厂面试崩了……网友:太真实!
  11. http://www.boobooke.com/bbs/thread-51022-1-1.html
  12. python桌面整理小助手
  13. java高效快速读取CSV文件
  14. python四级是什么水平_四级能过的水平大概什么水平?
  15. mysql mtq_mysql重点词汇 - osc_r3mtqivi的个人空间 - OSCHINA - 中文开源技术交流社区
  16. 开始讨厌现在这种生活
  17. 从字节中取出1bit数据
  18. 综合实践计算机的入门知识教学设计,3-6年级综合实践活动3.我是电脑小画家_教案、教学设计_市级优课(0001)【信息技术】.doc...
  19. 夜光 :AGV 导航策略总体方案设计
  20. 小米温湿度计接入homeassistant

热门文章

  1. ORA-00918:未明确定义列解决
  2. Oracle 11g 安装详细过程
  3. 内蒙古包钢钢管:用腾讯云微搭搭建企业门户网站,开启传统企业数字化转型之路
  4. 盘点Win前端开发下常用的软件
  5. java面试大全(八月助力 offer)
  6. 非极大值抑制(nonMaximumSuppression)
  7. android 最新漏洞 root,新漏洞可获取root权限 所有安卓机躺枪
  8. \usepackage{CJK}
  9. c语言编程兵书电子档,C++编程兵书 PDF扫描版[236.02MB]
  10. android项目实战-人脸识别接口应用