一、提出问题
你要么获取一批数据,然后根据它提问,或者先提问,然后根据问题收集数据。在这两种情况下,好的问题可以帮助你将精力集中在数据的相关部分,并帮助你得出有洞察力的分析。

二、理解数据

1、理解各字段的意思,如果有英文可修改成中文更易理解。

2、在数据清洗前复制一份保存,将CSV文件另存为xlsx类型保存。

3、Excel有四种数据了类型:

(1)文本型:中、英文、混合文本、符号和字符串形成存储的数值(123)
(2)数值型:数值、科学计数法、时间、日期和货币…
(3)逻辑性:TRUE和FALSE
(4)错误值:#NAME?、#N/A、#DIV/0、#REF!、#VALUE!、#NUM!、#NULL! 三、数据清洗 1.选择子集
不需要的列可以隐藏,不要删除。需要用到隐藏子集的操作:格式–隐藏和取消隐藏 或者选择取消隐藏的行/列,右键点取消隐藏。 2.列名重命名
双击列名字段进行修改。 3.删除重复数据项
操作:数据—删除重复项—取消全选—选择需要检查的列—确定。选择数据集中的唯一编号列。 4.缺失值处理
单击唯一编号列,右下角查看该数据集的总行数。依次点击其他列。缺失值数据 = 唯一编号列总数 - 其他列总数。 缺失值处理的4种方法
,根据情况灵活使用:
(1)通过人工手动补全:缺失值很少的情况下。
定位缺失值操作:开始—查找和选择—定位条件—空值—输入填充的值—同时按住Ctrl+Enter,填充到其他空白单元格。
(2)删除缺失的数据 :字段缺失数据超过50%,缺失过多就没有意义,考虑删除。
(3)用平均值代替缺失值:计算该列的平均值代替。
(4)用统计模型计算出的值去代替缺失值。 5.一致化处理
(1)分列一致化:列中有多个标签(企业服务,数据服务),需要分列处理,分列功能会覆盖掉右列单元格,所以我们先要复制这一列到最后一个空白列的地方,再进行分列操作。
分列操作:选中该列—数据—分列—分隔符号—下一步—取消Tab键,选择其他(本例中用逗号,)—下一步—确定。
(2)插入几个数据清洗常用函数:
①筛选列数据信息:IF(COUNT(FIND({关键字1,关键字2},单元格)),“是”,“否”) 筛选单元格中的关键字,有则显示是,没有则显示否。
②平均数AVERAGE(A1:A3),
③查找函数Find(要查找的字符串,字符串所在单元格位置),
④数据抽取Left/Right(字符串所在单元格位置,从左/右开始到XX位置进行截取,从第几个位置开始截取[默认为1]),Mid(字符串所在单元格位置,开始位置,截取长度),
⑤统计单元格长度函数Len(A1)。
(3)错误值处理
用复制粘贴为数值将以字符串形式存储的数字转化为纯数值。
使用函数查找字符串要注意字符串的大小写,不匹配会报错。
善于利用查找替换功能,去除多余的字或转换大小写。“以上”—>“”;k --> K 6.数据排序
排序操作:开始—排序和降序—降序/自定义排序—扩展选定区域。 7.异常值处理
过大或过小,在实际中不可能存在的数据。如年龄:120岁,-1岁,薪资:1000万… 四、构建模型
1.数据透视表:Ctrl+A选择整个数据表,插入—数据透视表。
(1)数据透视表有四个区域:筛选器,列,行,值。
(2)数据透视表的几个常用功能:
①将所需字段拖入透视表的区域,筛选器和值区域可同时拖入多个字段。
②值字段设置:值—右键—值字段设置—总和/计数/
③排序:单击行标签/列标签—右键—升序/降序。
④值汇总方式:单击值标签—值汇总依据—求和/计数/平均值/最大值/最小值…
⑤值显示方式:单击值标签—值显示方式—总计的百分比/列汇总的百分比/行汇总的百分比…
2.分析工具库:数据分析
安装数据分析功能:文件—选项—excel加载表>转到—分析工具库。
如何应用?数据—数据分析—描述统计,接着操作如下:

![900a1bdc5af572d05086c6beb26e2cbf.png](https://img-
blog.csdnimg.cn/img_convert/900a1bdc5af572d05086c6beb26e2cbf.png)

3.多表关联查询:vlookup函数
(1)精确查找和近似查找(模糊查找)的区别。
①精确查找是指从第一行开始往最后一行逐个查找。一找到匹配项就停止查询,所以返回找到的第一个值。
②当你要近似查找的时候,它就会苦逼地查遍所有的数据,返回的是最后一个匹配到的值。
(2)在使用vlookup函数时,在很多情况下使用的是精确匹配,而在进行分组时需要用模糊匹配,所以这里要输入“1”来进行模糊匹配。分组时要注意三要素:阈值,分组名称,区域范围。
(3)Excel设置了快捷键F4帮助用户迅速切换相对引用、绝对引用和混合引用。步骤如下:
①选定包含该公式的单元格;
②在编辑栏中选择要更改的公式内容,并按 F4 键;
③以引用单元格A1为例,每次按 F4 键时,Excel会依次在以下组合间切换: 按一次F4是绝对引用 按两次、三次F4是混合引用 按四次F4是相对引用。
(4)使用这个函数过程中,如果出现错误标识“#N/A”,一般是3个原因导致:
①第2个参数:查找范围里第一列的值必须是要查找的值。 比如这个案例里第2个参数选定的的范围里第一列是姓名,是要查找值的列。
②数据存在空格,此时可以嵌套使用TRIM函数将空格批量删除。
③数据类型或格式不一致,此时将数据类型或格式转为一致即可。 六、得出结论
根据数据透视表的数据分析得出结论。

excel部分字段相同模糊匹配相关推荐

  1. python 模糊匹配字符串 excel_如何使用Pandas在excel文件上进行模糊匹配?

    我认为你不需要在熊猫身上这样做.这是我草率的解决方案,但它通过字典获得您想要的输出.在from fuzzywuzzy import process df = pd.DataFrame([ ['0016 ...

  2. SQL多表联合查询时采用字段模糊匹配

    先说一下背景和要求: 背景:由于业务或是其他不描述的原因的问题导致原有存储的数据发生变动,与现有数据有差别,但还是能勉强看明白数据内容. 要求:实现A表的名称字段和B表的名称字段要模糊匹配. 上图: ...

  3. mysql 单表多字段查询_单表多字段MySQL模糊查询的实现

    MySQL模糊查询是我们经常会遇到的,下面就为您介绍MySQL模糊查询的实现方法,希望对您学习MySQL模糊查询方面能够有所帮助. 在最近的一个项目需要实现在单表中对多字段进行多个关键字的MySQL模 ...

  4. Python中实现模糊匹配的魔法库:FuzzyWuzzy

    参考链接:https://mp.weixin.qq.com/s/5qzPb7HOCfRRGJICYUsAOQ FuzzyWuzzy一个简单易用的模糊字符串匹配工具包.让你轻松解决烦恼的匹配问题! 前言 ...

  5. python两个excel字段模糊匹配_Python对两个Excel操作

    简介 现在有个需求,我们根据需要 data.xlsx 中某些单元格的内容来查找 find.xlsx 中的某些內容. 数据内容(为了数据安全,所有数据均已模糊处理) data.xlsx内容: find. ...

  6. excel 两列模糊匹配给出结果_北大硕士给大脑植入Excel病毒,工作效率提升了好几倍...

    在工作中,我们经常会碰到这样的同事,他们是这样完成工作的: 先用计算器算好结果,甚者动用手指头在电脑屏幕上数数,然后把数据填写到Excel表格中. 结果可以预见,原本可以在上班时间完成的工作,愣是加班 ...

  7. excel模糊匹配两列文字_如何使用Power Pivot进行模糊匹配

    之前在<使用Power Query进行模糊匹配>一文中我们讨论了如何在Power Query中进行模糊匹配,今天我们来讨论下在Power Pivot中的模糊匹配. 还是之前的案例,图1为产 ...

  8. Excel 2010 SQL应用032 字符范围的模糊匹配查询

    目录 源数据表 解决方案 模糊匹配中字符区间的表示 源数据表 学号 姓名 成绩 20070519 何艳 C 20091884 何冬梅 D 20090790 冯晨 E 20071880 彭勤 B 200 ...

  9. Excel 中使用SQL 语句查询数据(七)-----用LIKE 运算符进行模糊匹配查询

    这篇博文要和大家分享的是用LIKE 运算符进行模糊匹配查询下图数据源商品代号包含数字的数据. 我们用Microsoft query连接数据源,步骤请参考本系列第一篇博文.语句如下图 其中 LIKE ' ...

最新文章

  1. 在项目中使用react
  2. 洛谷模拟赛 部落冲突
  3. Python基础教程:list深拷贝和浅拷贝
  4. UITableViewCell高亮时其子视图的状态修改
  5. 深度学习(二十一)基于FCN的图像语义分割
  6. Data Guard跳归档恢复的案例
  7. 三维绘图之Mayavi.mlab
  8. 将excel数据导入到SQL server数据库
  9. 【开源】个人发卡程序源码 带会员+分站+三级分销+对接易+码+免签支付+完美运营
  10. 转载:C语言运算符优先级记忆口诀
  11. 电脑分区了如何恢复?电脑新手村教程
  12. 好用不贵的职场礼物——讯飞智能录音笔SR302
  13. 淘宝WAP版小BUG分析
  14. 企企通采购网“企销通2.0”重磅上线 助力中小企业打通数字化生态
  15. 18款js和jquery文字特效代码分享
  16. 人体红外测温仪PCBA方案
  17. 基于机器视觉技术的条形码在线识别系统设计
  18. NE555八音电子琴
  19. android系统之窗口横屏锁定以屏幕方向介绍
  20. 【CentOS】Not a valid JAR: /usr/local/src/hadoop

热门文章

  1. python计算最大公约数和最小公倍数_python求最大公约数和最小公倍数的方法介绍...
  2. 祖先后代选择器ancestor descendant(jQuery)
  3. 【SQL】SQL Case When用法
  4. 求子集PHP,汉诺塔问题与求子集
  5. 如何克服演讲紧张的问题
  6. Riverbed推出SteelFusion新型云及虚拟方案 为软件定义边缘部署提供更大灵活性
  7. Google Cloud Platform 免费送300美刀,赶紧体验一波
  8. Chatgpt【提示】充当、担任{人,物,工具}类提示——Chatgpt使用指南【Chatgpt训练师必看】
  9. Shell——函数参数传递
  10. CVE-2017-7921 海康威视(Hikvision) 摄像头漏洞复现