数据百问系列:“未知”数据该如何处理?

0x00 前言

本次讨论的主题是:数据维度分类中,习惯将无法归类或者数据模糊的归为“未知”,那么对于这些未知数据, 我们应该怎么处理呢?

问题:

  • 1、“未知”对数据分析和可视化有什么影响?好处和坏处是什么?

  • 2、需求方经常反馈看不懂“未知”数据,认为“未知”数据量级过大,你会怎么处理这种情况的?

  • 示例:比如每个城市的用户数

补充:为什么会出现未知的数据?原因多种多样,如果你没有遇到是最好的。现在可以假设的确遇到了这个问题,然后继续后面的讨论。

分析:

本话题是一个发散性的话题,并没有限制太多的内容,主要是想跟大家讨论一下当我们遇到未知数据的时候,我们应该怎么处理它们才是合适的。这个现象,在实际工作中我们可能也会遇到的, 大家也可以将它当成是一道面试题或者假设你现在就是遇到了这样的问题的场景来进行思考。

0x01

讨论一:

在用户画像分析的时候经常会遇到未知数据,主要有两个原因:

  • 1、数据采集时埋点未采集到该字段数据,上报空值;

  • 2、没有收集到用户该字段信息,无法判断

讨论二:

我是做数据底层的

  • 1、数据发生未知的时候,如果按照城市来说,我们会补上

  • 2、重点字段无法补上的数据,我们剔除到问题库,2次清洗在补,如果无法补上,我们将放在问题库里。

讨论三

数据展示要完整 没有未知就是不完整的数据,可以观察数据分类和统筹情况,隐瞒未知虽然不会暴露问题,但是很多分析要建立在真实现有数据情况下才能成立,分类表总量也要体现出来,不能避重就轻,如果未知数据量过大,可以选择另外加一张没有未知情况的图形,或者另外加一张对数图进行补充

讨论四

未知问题主要是因为现有状态类型无法覆盖全部数据,但是为了保证数据的完整性,需要增加未知。

  • 1、在数据可视化上的影响,主要体现在数据量较大的影响上。当未知数据量是其他分类的n倍左右,数据可视化中其他数据的特征就得不到很好的展示,可视化效果差

  • 2、视情况来看。如果是业务调整加入了未分类的数据,此时需要及时与业务沟通,增加分类;非业务场景变更,先看下这种数据出现的场景是否可以解决,如果可以解决,那么增加应景的分类/按规则归类,如果是短期无法解决的且数据量较大,那剔除未知数据展示会好一点

讨论五:

回答题目前,需要达个共识

  • 1、“未知”对数据分析和可视化有什么影响?好处和坏处是什么?

    • 好处:

      数据的准确性,完整性,及时性三要素中,准确性和完整性都得到不到满足,不就不能发现问题解决问题

    • 坏处:

  • 备注:造成“未知”的现象

    • 1、数据质量问题,因为数据上报或者采集不完整,导致数据缺失,无法准确的归因。

      只好对无法归因的数据统一放在一个其他选项中,比如“未知”。

      这个现象从底层数据就支持不到位。

    • 2、数据加工损耗,数据生成加工过程中,由于考虑不周全或是特殊场景要求,将数据过度的清洗,或者选择不采用,不加工的舍弃方法,导致数据在加工层面缺失。

    • 3、基于数据可视化的需要,聚合数据。

      以减少维度的枚举值数量。

  • 2、需求方经常反馈看不懂“未知”数据,认为“未知”数据量级过大,你会怎么处理这种情况的?

  • 解析:

    问题的重点为,“未知”量级过大,或者说量级偶尔抖动;

    然后是这个问题时常发生,比较反复。

    *

    • 1、归纳存在“未知”这个数据现象的数据可视化报表;

    • 2、协调推动团队内外达成共识,每个报表选项下的“未知”比例的SLA标准,(例如,访问用户来源渠道的“未知”下,用户数占比应该处于5%以下。

    • 3、对超出SLA预期的“未知”现象指标 ,做数据探查和分析,实现数据问题的修复,并设置长期监控。

      符合SLA标准为正常,超出预期,技术人员自主独立完成修复(ps:

      减少了内部其他职能人员的精力损耗)

    • 4、将数据质量问题的数据缺失,加工问题等,造成“未知”现象的原因,举例形成案例,同时将第1、2步中的报表+SLA标准整理为wiki(或者可视化中小提示tip)沉淀积累。

      后续运营、产品、商业分析等职能人员遇见类似问题,先丢出这个wiki,范围内的问题,职能类人员自行消化,超标准的提交技术人员解决。

      (ps:

      减少了内部技术人员的精力损耗)

附图:不同级别的人员对对于类似问题解决的要求门槛

0x02 总结

对于这个话题,我觉得群友们的讨论已经很极致了,所以下面的文章中我就根据大家讨论的情况及个人的一些理解对这个话题进行一个整理与总结。

首先是先弄清楚为什么会产生未知的数据?弄清楚原因之后才能更好地对症下药。未知数据产生的原因是多种多样的,其中可能是:

  • 1、数据的采集问题:

    • 数据在采集到的时候就是未知的,如性别保密、生日保密等;

    • 数据在采集的时候缺少了采集的字段;

  • 2、数据的加工问题:

    在数据中间层进行加工的时候,由于考虑不周全或者特殊场景要求,在对数据进行清洗的过程中出现了数据同类合并、信息丢失的现象,如广州、深圳、四川、上海四个地区的用户中,可能会将广州、深圳合为广东,将四川、上海都并入其他;

    也有可能将四川并入其他(广州、深圳、上海都是城市),这是数据在清洗的过程中出现的信息损耗,这种情况也很容易出现未知数据(因为不知道这个”其他“究竟是指哪些地区);

  • 3、数据的可视化问题:

    当数据在进行可视化操作的时候,可能会为了突出某一个字段而将其他字段都并入了其他。

其次是“未知”数据对数据分析和数据可视化会有什么样的影响?任何事物的存在都有其利与弊,所以对于这个问题我也是从辩证的角度来对它进行一个整理与总结:

好处:

  • 1、保障了数据的完整性。

    数据分析应该建立在数据的完整性、及时性与准确性上面,隐藏了未知数据或许可以给工作带来一些小方便,但是如果数据本身是残缺的,那么分析出来的结果也是值得怀疑的,毕竟缺少了数据的完整性就更别提数据的准确性了,而数据不准确的数据分析结果还可靠吗?

  • 2、使数据分析结果更具有说服力。

    其实也是完整性的一个拓展,在数据分析的过程中如果出现了问题,至少可以知道应该从哪一方面去入手解决这个问题,进而可以增加数据分析的维度,使分析报告的展示更加地饱满。

  • 3、在数据的可视化展示中,可以减少一些维度,突出重点。

    “未知”数据有时候是其他数据的合并,在数据进行可视化的时候,为了突出某一方面的重要性或者占比,我们可能会将其他数据都合并为“其他”,这是造成未知数据的一个原因之一,而这也是“未知”数据在数据可视化方面所体现出来的优点。

坏处:

  • 1、增加了数据分析的难度。

    未知数据如果只是一小部分的话就还好,但是如果未知数据达到了一个量级且无法对其进行解释,那么在进行数据分析的时候就很难进行下去了。

    未知数据太多了,数据就会失去参考价值,进而容易加大数据分析的难度;

  • 2、数据的可读性下降。

    如果无法解决未知数据所包含的信息有哪些这个问题,就很容易导致数据的可读性下降。

    比如说,用户的性别中男性、女性跟未知的占比,如果未知的占比过大,我们很难在结果中说明用户主要是男性居多还是女性居多。

    这种情况下,由于未知数据隐藏了较多的信息,会直接导致数据的可读性严重下降。

最后讲讲如何处理“需求方经常反馈看不懂“未知”数据,认为“未知”数据量级过大”的情况。对于这个问题,我结合了群友们的讨论,从以下四个点来进行简单的总结:

  • 1、控制数据来源中的“未知”数据比例。

    从ODS层就开始数据的把控,设置”未知“数据的比例标准,例如,访问用户来源渠道的“未知”下,用户数占比应该处于5%以下。

    如果在数据接入时就出现了超标的情况,那么就需要数据采集的技术人员去自行解决这一情况了;

  • 2、控制数据加工造成”未知“数据的比例。

    当在中间层中对数据进行加工的时候,同样也需要对产生”未知“数据进行一个比例的控制且需要对“未知”数据的比例及产生的原因使用文档或者图表的形式进行举例与说明,方便后续对未知数据的追踪;

  • 3、在数据分析报告中对“未知”数据进行解释。

    如果是数据分析中出现了“未知”数据, 那么可以在分析报告中对数据进行解释,向需求方说明这些“未知”数据里面会含有哪些信息,也可以再增加一份”未知“数据说明文档,举例说明是怎么产生这些未知数据的,有时候,一份”未知“数据的可视化图表或许就可以直观地解释这个现象了;

  • 4、将未知文件整理成系统性的文档,方便后续运营、产品、商业分析等职能人员进行查询及产生”未知“数据的人员责任追踪。

数百问系列文章:

数据百问系列:“未知”数据该如何处理?相关推荐

  1. 数据百问系列:什么是数据资产?

    数据百问系列:什么是数据资产? 0x00 前言 本次讨论的主题是:什么是数据资产? 问题: 大家所处的工作环境里面,有没有和数据资产相关的项目或者使用场景? 分析: 本话题是一个发散性的话题,并没有限 ...

  2. 数据百问系列之二:游戏DAU骤降分析

    本次讨论的主题是:游戏DAU骤降时如何进行分析 问题描述: 假设你在一家游戏公司做数据分析,现在发现从8月份开始公司运营的某款游戏出现了DAU骤降的现象,你该如何分析这个现象? 资料扩展: DAU(D ...

  3. 数据百问系列:如何做好职场晋升PPT?

    0x00 前言 问题 如何做好职场晋升PPT? 话题整理者:未期,某不知名大学透明本科生,GIS背景.画过地图,写过代码,热爱统计.目前在数据科学的道路上缓慢前进,希望与大家共同学习~ 问题描述 本人 ...

  4. access对比数据_数据仓库系列之数据质量管理

    数据质量一直是数据仓库领域一个比较令人头疼的问题,因为数据仓库上层对接很多业务系统,业务系统的脏数据,业务系统变更,都会直接影响数据仓库的数据质量.因此数据仓库的数据质量建设是一些公司的重点工作. 一 ...

  5. 大数据治理入门系列:数据治理

    在信息经济时代,数据是企业的一大关键资产.为了制定科学.有效.合理的决策,企业需要收集大量的数据并进行各种数据分析,为决策提供依据.在此过程中,收集数据的速度.数据的质量和可靠性.对数据的分析过程.合 ...

  6. 大数据治理入门系列:数据血缘关系

    血缘关系在人类社会中扮演着重要角色.大多数家庭是基于血缘关系形成的,而家庭作为社会的基本单元,对维系社会稳定发挥着重要关系.其实,数据之间也存在类似的血缘关系.数据从产生.加工.流转,一直到消亡,每个 ...

  7. DataWorks百问百答01:数据同步该用什么资源组

    引子 很多用户在使用数据集成建立同步任务时,往往都会困惑一个设置,即"资源组设置". 大家常有的疑问是"资源组是用来做什么的?跟网络之间什么关系?我该选择那种资源组?&q ...

  8. Flink大数据实时计算系列-Flink窗口如何处理延时数据

    Flink大数据实时计算系列-Flink窗口如何处理延时数据 目录 Flink窗口如何处理延时数据 allowedLateness延迟触发 sideOutputLateData 延时分流器 Flink ...

  9. 如何处理百亿级别的数据信息

    导读:本次分享将从以下几个方面进行分享,首先讲一下我们目前所做的工作,目前平台架构是怎么样的,第二个是大量日志情况下如何收集,第三个涉及百亿数据后如何快速存储以及快速查询,第四个讲一下数据存储后如何对 ...

最新文章

  1. 如何更好的利用Node.js的性能极限
  2. 对Python参数类型详解以及学习中遇到的坑
  3. 【Python入门】Python字符串的45个方法详解
  4. 有关于idea快捷键冲突的问题
  5. 为什么 OAuth 里除了 Access Token 之外,还需要 Refresh Token?
  6. ArcGIS实验教程——实验四:数字化属性数据的采集
  7. hdu4336-Card Collector【min-max容斥,期望概率】
  8. 华为机试——句子逆序
  9. 博文视点学院直播:如何用产品思维解决生活中的迷茫
  10. 在Python中用WordCloud生成聊天记录热点词汇词云图
  11. 树莓派4 使用 SnowBoy 搭建热词唤醒
  12. 如何给员工或者客户做产品培训?
  13. openssl(CVE-2014-0160)心脏出血漏洞复现
  14. pe重装系统后F盘无法打开系统拒绝访问解决方案
  15. Goouu-ESP32入门
  16. 人大金仓 创建表空间_Kingbase金仓更改表空间
  17. ThinkPad笔记本电脑海淘简单教程及注意事项
  18. 数据驱动是怎么跑偏的
  19. 微软真是个十足的混蛋啊!让我们跟踪Exception到行把!(不明真相群众请入)...
  20. 【Machine Learning 学习笔记】feature engineering中noisy feature的影响

热门文章

  1. Aandroid截屏遇到SurfaceView
  2. 计算机组装与维护课文,电脑组装实训心得体会文章精选.doc
  3. 蓝牙mesh基础(基本概念)
  4. Python XLRDError: Excel xlsx file; not supported解决方法
  5. 软件工程实践 Blog 2
  6. java微信录音arm转mp3_微信语音amr转mp3
  7. S1_B_Inna and New Matrix of Candies
  8. CAD制图初学入门:CAD图块功能的使用技巧
  9. 求职秘籍-如何投递简历
  10. FreeRTOS记录(七、FreeRTOS信号量、事件标志组、邮箱和消息队列、任务通知的关系)