作者:王新俊
链接:https://www.zhihu.com/question/19578400/answer/60211159
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

分享一个工作中遇到的数据解读案例吧。

这个案例是使用公司内部的数据分析系统给一个珠宝类品牌广告主(宝格丽)做品牌用户群分布分析。
预期用户群分布:有一定购买力的中年高端人士。
按照正常的分析流程获得以下年龄分布数据:

依据得到的数据,正常的解读结论是「该品类的用户群主要年龄段为:18-24岁」

显然,但这一数据结果跟预期年龄分布相去甚远。

然后逐个排查原因:
首先,排除客观性错误,确认了下数据源及整个数据提取分析整理过程的正确性。

然后,排除主观性错误,找来第三方数据参考,通过「百度司南」(百度司南_百度百科 )得到该品牌数据结果如下:

通过「百度司南」的结果侧面印证了预判结论的正确性,这样就排除个人主观判断的错误。

再次,对比两个分析系统得出的结果,还是有一些差异的,相较于「百度司南」,公司自有的数据分析系统统计结果少了部分30~39岁人群的覆盖。
这是什么原因呢?进一步对比下两家数据数据分析系统的数据收集来源,分析下各自人群的覆盖范围:
公司的数据分析系统的主要数据来源为:社交网络数据、广告投放数据(DSP、SEM、直投)、媒体网站的tracking数据。
百度司南的主要数据来源为:搜索数据、广告投放数据、媒体网站的tracking数据、其它数据。
对比发现,相较于「百度司南」,造成结果差异的原因应该出在社交网络数据这部分数据源。

最后,提取了这部分数据源样本,同时查看数据采集源是否存在异常,经过一番努力,发现一个异常现象:在社交网络(微博等)中,分享、转发该品牌的人群中,有相当大一部分人是年轻的网络代购、买手、代理商等。

谜底终于揭开了!该品牌的用户群分析不仅要考虑实际消费者,还应考虑中介代理的存在。

在这个案例中,数据源、提取过程、分析及结果均正常。如果仅仅按照数据结果及主观判断去简单解读,显然不完全正确。

大多数时候,并不是数据欺骗了我们,而是我们不够全面的了解数据,错误片面的解读导致自己欺骗了自己,而非数据!

数据分析中会常犯哪些错误,如何解决? 六相关推荐

  1. 数据分析中会常犯哪些错误,如何解决的?

    错把相关性当成因果性 correlation vs. causation 经典的冰淇凌销量和游泳溺水人数成正比的数据,这并不能说明冰淇凌销量的增加会导致更多的人溺水,而只能说明二者相关,比如因为天热所 ...

  2. SearchHit转成java对象_Java开发中最常犯的10个错误,你中招了吗?

    http://www.programcreek.com/2014/05/top-10-mistakes-java-developers-make/ 阅读目录 Array转ArrayList 判断一个数 ...

  3. Java开发中最常犯的10个错误,你中招了吗?

    http://www.programcreek.com/2014/05/top-10-mistakes-java-developers-make/ 阅读目录 Array转ArrayList 判断一个数 ...

  4. 《小乌龟投资智慧:如何在投资中以弱胜强》书中的精髓:认清投资中常犯的错误,开启智慧投资之路。

    <小乌龟投资智慧:如何在投资中以弱胜强>书中的精髓:认清投资中常犯的错误,开启智慧投资之路. 如今,投资理财已经成为了一个绕不开的话题,我们一边想着通过投资赶超通货膨胀率,不要让自己辛苦攒 ...

  5. 网站设计中常犯的错误

    平面 | 包装 | 广告 | 环艺 | 工业 | 网页 | 服装 | 数码 | 摄影 | 绘画 | 人才 | 论坛 | 沙龙 | 字体 首页 网页资讯 网页作品 酷站欣赏 设计文章 网页沙龙 我的空间 ...

  6. java list top_Java程序员最常犯的错误盘点之Top 10

    原标题:Java程序员最常犯的错误盘点之Top 10 人非圣贤,孰能无过.都说Java语言是一门简单的编程语言,基于C++演化而来,剔除了很多C++中的复杂特性,但这并不能保证Java程序员不会犯错. ...

  7. 在数据挖掘中,经常犯的错误有哪些?

    1.太关注训练(FocusonTraining) IDMer:就象体育训练中越来越注重实战训练,因为单纯的封闭式训练常常会训练时状态神勇,比赛时一塌糊涂. 实际上,只有样本外数据上的模型评分结果才真正 ...

  8. 十个Python初学者常犯的错误

    下面10个Python初学者常犯的错误,并不是真正的代码错误,代码照样可以运行,但是不够Pythonic,因为Python有自己的语言哲学,在代码的处理上有传统语言无法比拟的简洁性和便捷性. 1.   ...

  9. 7个跑步易犯的错误和解决办法

    似乎所有人都认为跑步是一种非常简单的锻炼方式,然而,其实不然,跑步涉及到许多专业知识.错误的跑步,不仅影响锻炼效果,而且还容易导致受伤. 1.鞋子不合适 问题:穿着太旧的跑步鞋或者类型不合适的运动鞋容 ...

  10. Bug总结:python语言中出现的import error错误的解决思路

    Bug总结:python语言中出现的import error错误的解决思路 目录 解决问题 解决方法 解决问题 import error错误 解决方法 T1.查看是否存在该包,要么是python集成好 ...

最新文章

  1. 移动端banner css3(@keyframes )实现
  2. OpenYurt 开箱测评 | 一键让原生 K8s 集群具备边缘计算能力
  3. flutter 版本控制fvm
  4. try catch finally语句详解
  5. Boost::context模块fiber的斐波那契测试程序
  6. 微软输入法2010下载使用-IME2010下载使用
  7. SQLite和MySQL数据库的区别与应用
  8. oracle可以注入吗,ORACLE 注入
  9. 电芯容量在前期循环中容量增加_锂离子电池容量“跳水”背后元凶找到了!——非均匀压力...
  10. 两周,好多人的帮助解决select空列不显示的function
  11. 各种版本操作系统的虚拟机镜像文件
  12. 完全背包问题(详细解答)
  13. python 实现线程安全的单例模式
  14. 苏宁小店门店数量一年锐减428家 张近东之子张康阳为实控人
  15. 日剧推介:怨み屋本舗
  16. c语言 乱码转化为16进制_C语言版的16进制与字符串互转函数
  17. 基于uFUN开发板的心率计(二)动态阈值算法获取心率值
  18. WIN10应用商店(MicrosoftStore)闪退解决方法!!!
  19. [电路汇总] 强大、便捷的蓝牙技术应用方案分享
  20. BZOJ 2246 [SDOI2011]迷宫探险 ——动态规划

热门文章

  1. List 与 Map的常用方法
  2. c#学习5,处理异常
  3. 8月第一周IT类网站/频道排名:天极网跃居第三
  4. 解决PowerDesigner 错误:Invalid repository user or password!
  5. 用ISA 2004发布内部FTP服务器
  6. 【转载】C# 中的各种命名规范
  7. java fake,FakeScript-Java 轻量级嵌入式脚本语言
  8. 斐波那契数列——O(1)算法
  9. 扫码点菜系统代码_一顿火锅吃出474万天价?扫码点餐时,千万不要这样做
  10. 计量经济学 pdf_计量经济学笔记(十六)