本文总结了数据分析的几个阶段中最常犯的10个错误,以及规避的方法,收藏起来,分析不翻车!

一、数据采集阶段

1、数据失真

数据是可能骗人的,比如店铺、电影的评分,可能被人为操控;比如某公司发布的行业分析报告,也具有很大的主观性。

基于错误的数据,做出的分析结论是无益甚至是有害的。所以在采集数据时,我们先要考证数据的来源及可信度,还要关注不符合常理的数据变化,对数据采集方法进行调整。

2、幸存者偏差

就算数据是真实的,也不能轻信。

举个有名的例子,二战时英军发现,从战场飞回来的战机,机身上的弹孔比引擎和油箱上的要多的多,根据这个数据,我们很容易得出要加强机身的防护的建议。但事实的真相却是,那些引擎和油箱上中弹的飞机已经回不来了,我们更应加强引擎和油箱的防护,这就是常说的“幸存者偏差”。

造成幸存者偏差的原因,其实是取样出现了偏差,在数据采集时,我们要避免主观臆断,推演各类可能性,科学取样。

二、数据处理阶段

1、原始数据没有备份

很多新手在拿到原始数据后,喜欢在原始数据基础上把异常值剔除,再备份再做数据处理。但时常到后面发现删除的值其实并非异常值或者仍然有价值,这时候想找回值就麻烦了。所以,当我们拿到原始数据后,第一件事就是要做好备份。

2、不重视数据清洗

拿到数据后,大量繁琐的数据清洗工作常常让数据分析师们感到烦恼,很多人会图省事略过一些步骤,但这常常会造成返工,拖延了项目进度。

干净的数据源是我们一切分析工作的基础,我们需要重视数据清洗。当然了,为了提高数据处理效率,我们可以采用专业的数据分析工具。就拿我在用的FineBI来说,极大简化了数据处理流程,仅需拖拽就能完成数据的清洗、转化、抽取、合并、计算等功能,我们不需要花大量时间在数据处理上,可以把精力聚焦在业务分析上。

三、数据分析阶段

1、过度追求技巧

熟练使用各种数据分析工具如Excel、SQL、FineBI、Python,以及各类经典的分析方法,是每个数据分析大神的基本功,但这并不意味着,好的数据分析,就一定要用到各种高级的工具和方法。

很多数据分析新人会去搜罗各种最新的分析方法和思路,套用在项目中,以证明自己的工作能力。但真正优秀的数据分析,依靠的是不断深入地探索,以及严谨的逻辑链条。再好的工具和方法,都是为人服务的,合适的就是最好的。

2、过度依赖套路

我们不能过度追求技巧,但必要的方法论储备是要有的。在数据分析行业,并不存在“一招鲜,吃遍天”。

我们在刚开始学习数据分析时,会学习各种解题套路,但真正实操时,其实并不存在通用的套路。不同的行业、不同的业务,不同的阶段,哪怕用的是同一种分析方法,结论都应有所区别。比如to C和to B行业的客户运营就是不一样的,比如互联网初创公司可能追求用户增长,步入成熟期后追求利润率提高。

这里并不是鼓励大家盲目追求技术,而是我们要在日常工作中多学习积累分析思路和方法,丰富自己的武器库,将来胜任更多的应用场景。

3、相关性≠因果性

在分析时,我们常常将不同指标的数据进行关联分析,找出问题的原因。但这样往往会犯一个错误,就是错把相关当成因果。

我们通过统计,发现常吃海参的人比不吃海参的人智商要高一些,但这背后其实是因为吃海参的人普遍比较富裕,因而受教育水平高,测出的智商高,我们不能说为了提高智商赶紧去吃海参。

为了避免这一错误,我们在对数据间的相关性进行逻辑推演时,应时刻带着批判性思维,考虑各种中介变量。

4、由结果推原因

错误的数据,披上科学的外衣,是很危险的事。如果我们在开始分析前,就已经在心里预设了一个结论,带着结论找原因,射箭画靶,那做出的分析可能毫无价值甚至可能带来极大的损失

数据分析的优势,在于尊重客观数据而并非人的主观臆断。所以,我们在进行数据分析前,应摒弃主观臆想和经验主义,相信常识和客观数据,分析时还要多次检查逻辑的严谨性。

四、分析报告阶段

1、误导性图表

业内都说字不如表、表不如图,但比不用图表更可怕的,是用误导性图表。比如下面这两张图,光看左边会明显感知到数据在飞速增长,而看到右边才能得知真正的增长速度。

我认为,报告还是应当追求真实,不逃避问题、不美化缺陷,也是分析师的职责所在。

2、结论脱离业务实际

很多人在汇报结论时,只是简单把数据分析结果说了一通,得出一些模拟两可或者大家都知道的废话,并没有联系到业务实际,也并不具备可行性,这样的报告参考价值很低。

业务决策不光是业务人员的事,数据分析人员往往能从客观的角度提出独特的见解。我建议大家多和业务人员交流,至少要熟悉各个业务环节,了解提出数据分析需求的原因,最终得出的结论要有针对性,给出具体可落地的实质建议。

分享一下这个分析工具,回个“数据分析”就能拿得!

避坑指南!数据分析最容易被忽略的10个错误相关推荐

  1. 避坑!使用 Kubernetes 最易犯的 10 个错误

    Kubernetes 作为大规模企业级应用容器编排的首推工具,其为容器化的应用提供部署运行.资源调度.服务发现和动态伸缩等一系列完整功能,本文作者 Marek Bartik 深入分享了 K8s 的避坑 ...

  2. 数据分析避坑指南-小白兔踩坑记

    从一开始的数据分析"小白兔",不断进坑.弹跳出坑,练就健壮有力的小腿,逐步变成一只拥有了防御能力.没有那么弱小的"小灰兔". 成长和职业发展的过程,就是进阶打怪 ...

  3. 17条避坑指南:一份来自谷歌的数据库经验贴

    点击上方蓝色"程序猿DD",选择"设为星标" 回复"资源"获取独家整理的学习资料! 来源 | https://medium.com/@rak ...

  4. 工业级光纤收发器使用“避坑”指南

    工业级光纤收发器在使用中有很多的注意事项,往往这些注意事项经常被忽略.下面飞畅科技就整理了一些工业级光纤收发器使用"避坑"指南,大家可以仔细看看,引起重视. 使用工业级光纤收发器连 ...

  5. @程序员,区块链开发平台避坑指南!

    来源 | Michiel Mulders 译者 | 火火酱 责编 | Carol 出品 | 区块链大本营(blockchain_camp) 市面上有很多不同的区块链网络,就可扩展性和功能而言,每个区块 ...

  6. Kubernetes HPA 的三个误区与避坑指南

    01 前言 Aliware 云计算带来的优势之一便是弹性能力,云原生场景下 Kubernetes 提供了水平弹性扩容能力(HPA),让应用可以随着实时指标进行扩/缩.然而 HPA 的实际工作情况可能和 ...

  7. Ununtu 18.04 安装Carla 0.9.13 以及Carla ros bridge 超级避坑指南(更新于2022.10.20)

    Carla0.9.13 以及Carla ros bridge 超级避坑指南 Carla0.9.13 以及Carla ros bridge 超级避坑指南 站在巨人肩膀前进 显卡驱动问题 首先就是虚幻4的 ...

  8. 新媒体运营教程:需求管理的避坑指南,主要需求分布在三个阶段!

    B端产品在需求搜集.分析.迭代上线的方法上与C端大同小异,但由于B端产品使用对象的角色多样性,跨部门协作的流程复杂性,B端产品的需求管理相比于C端"坑"更多. 作为一名B端产品运营 ...

  9. 装修避坑指南,看完起码帮你省出4万,少花冤枉钱

    装修房子是一件非常繁杂的事情,作为业主很难在方方面面把控到位,一不小心就会掉进坑里! 很多人钱没少花,装修效果却一言难尽~ 我装修第一套房子的时候,踩的坑很多.坑踩多了就有一些经验了,加上在网上查了很 ...

最新文章

  1. 为什么你写的代码糟透了?
  2. 新来的 不知道写什么呢
  3. 成功解决lib\subprocess.py, line 997, in _execute_child startupinfo) FileNotFoundError: [WinError 2]
  4. 阿里云ACE共创空间——大数据方案体验1 日志服务
  5. 运维人员打字耍不要快_法考经验与教训 —— 打字
  6. python数组替换_Python:替换数组中的值
  7. android系统(63)---Jobscheduler运行机制详解
  8. Java中GUI中菜单栏
  9. kali 安装KVM教程---》给自己的笔记
  10. RT thread 设备驱动组件之USART设备
  11. 官方权威地理数据库(2021)已更新,附下载教程
  12. 美国公布自动驾驶新政AV4.0;微软Access数据库出现漏洞,或致8.5万家企业面临风险;苹果谈论隐私问题……...
  13. 触摸屏计算机技术参数,触摸屏硬件安装—— 触摸屏参数设置
  14. 基带集成或独立?市售主流4G手机芯片浅析
  15. 家里网速慢,该如何提升网速?
  16. VirtualBox3.2.8迷你使用手册
  17. vnc 使用gnome桌面_使用GNOME桌面工具管理Linux
  18. java enum类默认常量是什么_Java枚举类型enum的详解及使用
  19. 微信小程序导航:免费视频+精品教程+DEMO集合(长期更新)
  20. Windows 中 Virtualbox 窗口无法调整大小怎么办?

热门文章

  1. 【云笔记搭建】Visual Code + Github仓库 + Git
  2. linux shell spool,Linux/Unix shell 脚本中调用SQL,RMAN脚本
  3. 使用PowerShell和T-SQL在多服务器环境中规划SQL Server备份和还原策略
  4. sql server 监视_监视SQL Server报告服务
  5. 如何使用PowerShell创建简单SQL Server数据库登录对话框
  6. integration_Integration Services性能最佳实践–写目标
  7. selenium (二)
  8. 6 9*9乘法口诀
  9. (一)在Lingo中使用集合
  10. ECS服务器下挂载数据盘