数据百问系列：“未知”数据该如何处理？

0x00 前言

本次讨论的主题是：数据维度分类中，习惯将无法归类或者数据模糊的归为“未知”,那么对于这些未知数据，我们应该怎么处理呢?

问题：

1、“未知”对数据分析和可视化有什么影响？好处和坏处是什么？
2、需求方经常反馈看不懂“未知”数据，认为“未知”数据量级过大，你会怎么处理这种情况的？
示例：比如每个城市的用户数

补充：为什么会出现未知的数据？原因多种多样，如果你没有遇到是最好的。现在可以假设的确遇到了这个问题，然后继续后面的讨论。

分析：

本话题是一个发散性的话题，并没有限制太多的内容，主要是想跟大家讨论一下当我们遇到未知数据的时候，我们应该怎么处理它们才是合适的。这个现象，在实际工作中我们可能也会遇到的，大家也可以将它当成是一道面试题或者假设你现在就是遇到了这样的问题的场景来进行思考。

0x01

讨论一：

在用户画像分析的时候经常会遇到未知数据，主要有两个原因：

1、数据采集时埋点未采集到该字段数据，上报空值；
2、没有收集到用户该字段信息，无法判断

讨论二：

我是做数据底层的

1、数据发生未知的时候，如果按照城市来说，我们会补上
2、重点字段无法补上的数据，我们剔除到问题库，2次清洗在补，如果无法补上，我们将放在问题库里。

讨论三

数据展示要完整没有未知就是不完整的数据，可以观察数据分类和统筹情况，隐瞒未知虽然不会暴露问题，但是很多分析要建立在真实现有数据情况下才能成立，分类表总量也要体现出来，不能避重就轻，如果未知数据量过大，可以选择另外加一张没有未知情况的图形，或者另外加一张对数图进行补充

讨论四

未知问题主要是因为现有状态类型无法覆盖全部数据，但是为了保证数据的完整性，需要增加未知。

1、在数据可视化上的影响，主要体现在数据量较大的影响上。当未知数据量是其他分类的n倍左右，数据可视化中其他数据的特征就得不到很好的展示，可视化效果差
2、视情况来看。如果是业务调整加入了未分类的数据，此时需要及时与业务沟通，增加分类；非业务场景变更，先看下这种数据出现的场景是否可以解决，如果可以解决，那么增加应景的分类/按规则归类，如果是短期无法解决的且数据量较大，那剔除未知数据展示会好一点

讨论五：

回答题目前，需要达个共识

1、“未知”对数据分析和可视化有什么影响？好处和坏处是什么？
- 好处：
  
  数据的准确性，完整性，及时性三要素中，准确性和完整性都得到不到满足，不就不能发现问题解决问题
- 坏处：
备注：造成“未知”的现象
- 1、数据质量问题，因为数据上报或者采集不完整，导致数据缺失，无法准确的归因。
  
  只好对无法归因的数据统一放在一个其他选项中，比如“未知”。
  
  这个现象从底层数据就支持不到位。
- 2、数据加工损耗，数据生成加工过程中，由于考虑不周全或是特殊场景要求，将数据过度的清洗，或者选择不采用，不加工的舍弃方法，导致数据在加工层面缺失。
- 3、基于数据可视化的需要，聚合数据。
  
  以减少维度的枚举值数量。
2、需求方经常反馈看不懂“未知”数据，认为“未知”数据量级过大，你会怎么处理这种情况的？
解析：

问题的重点为，“未知”量级过大，或者说量级偶尔抖动；

然后是这个问题时常发生，比较反复。

*
- 1、归纳存在“未知”这个数据现象的数据可视化报表；
- 2、协调推动团队内外达成共识，每个报表选项下的“未知”比例的SLA标准，（例如，访问用户来源渠道的“未知”下，用户数占比应该处于5%以下。
  
  ）
- 3、对超出SLA预期的“未知”现象指标，做数据探查和分析，实现数据问题的修复，并设置长期监控。
  
  符合SLA标准为正常，超出预期，技术人员自主独立完成修复（ps：
  
  减少了内部其他职能人员的精力损耗）
- 4、将数据质量问题的数据缺失，加工问题等，造成“未知”现象的原因，举例形成案例，同时将第1、2步中的报表+SLA标准整理为wiki（或者可视化中小提示tip）沉淀积累。
  
  后续运营、产品、商业分析等职能人员遇见类似问题，先丢出这个wiki，范围内的问题，职能类人员自行消化，超标准的提交技术人员解决。
  
  （ps：
  
  减少了内部技术人员的精力损耗）

附图：不同级别的人员对对于类似问题解决的要求门槛

0x02 总结

对于这个话题，我觉得群友们的讨论已经很极致了，所以下面的文章中我就根据大家讨论的情况及个人的一些理解对这个话题进行一个整理与总结。

首先是先弄清楚为什么会产生未知的数据？弄清楚原因之后才能更好地对症下药。未知数据产生的原因是多种多样的，其中可能是：

1、数据的采集问题：
- 数据在采集到的时候就是未知的，如性别保密、生日保密等；
- 数据在采集的时候缺少了采集的字段；
2、数据的加工问题：

在数据中间层进行加工的时候，由于考虑不周全或者特殊场景要求，在对数据进行清洗的过程中出现了数据同类合并、信息丢失的现象，如广州、深圳、四川、上海四个地区的用户中，可能会将广州、深圳合为广东，将四川、上海都并入其他；

也有可能将四川并入其他（广州、深圳、上海都是城市），这是数据在清洗的过程中出现的信息损耗，这种情况也很容易出现未知数据（因为不知道这个”其他“究竟是指哪些地区）；
3、数据的可视化问题：

当数据在进行可视化操作的时候，可能会为了突出某一个字段而将其他字段都并入了其他。

其次是“未知”数据对数据分析和数据可视化会有什么样的影响？任何事物的存在都有其利与弊，所以对于这个问题我也是从辩证的角度来对它进行一个整理与总结：

好处：

1、保障了数据的完整性。

数据分析应该建立在数据的完整性、及时性与准确性上面，隐藏了未知数据或许可以给工作带来一些小方便，但是如果数据本身是残缺的，那么分析出来的结果也是值得怀疑的，毕竟缺少了数据的完整性就更别提数据的准确性了，而数据不准确的数据分析结果还可靠吗？
2、使数据分析结果更具有说服力。

其实也是完整性的一个拓展，在数据分析的过程中如果出现了问题，至少可以知道应该从哪一方面去入手解决这个问题，进而可以增加数据分析的维度，使分析报告的展示更加地饱满。
3、在数据的可视化展示中，可以减少一些维度，突出重点。

“未知”数据有时候是其他数据的合并，在数据进行可视化的时候，为了突出某一方面的重要性或者占比，我们可能会将其他数据都合并为“其他”，这是造成未知数据的一个原因之一，而这也是“未知”数据在数据可视化方面所体现出来的优点。

坏处：

1、增加了数据分析的难度。

未知数据如果只是一小部分的话就还好，但是如果未知数据达到了一个量级且无法对其进行解释，那么在进行数据分析的时候就很难进行下去了。

未知数据太多了，数据就会失去参考价值，进而容易加大数据分析的难度；
2、数据的可读性下降。

如果无法解决未知数据所包含的信息有哪些这个问题，就很容易导致数据的可读性下降。

比如说，用户的性别中男性、女性跟未知的占比，如果未知的占比过大，我们很难在结果中说明用户主要是男性居多还是女性居多。

这种情况下，由于未知数据隐藏了较多的信息，会直接导致数据的可读性严重下降。

最后讲讲如何处理“需求方经常反馈看不懂“未知”数据，认为“未知”数据量级过大”的情况。对于这个问题，我结合了群友们的讨论，从以下四个点来进行简单的总结：

1、控制数据来源中的“未知”数据比例。

从ODS层就开始数据的把控，设置”未知“数据的比例标准，例如，访问用户来源渠道的“未知”下，用户数占比应该处于5%以下。

如果在数据接入时就出现了超标的情况，那么就需要数据采集的技术人员去自行解决这一情况了；
2、控制数据加工造成”未知“数据的比例。

当在中间层中对数据进行加工的时候，同样也需要对产生”未知“数据进行一个比例的控制且需要对“未知”数据的比例及产生的原因使用文档或者图表的形式进行举例与说明，方便后续对未知数据的追踪；
3、在数据分析报告中对“未知”数据进行解释。

如果是数据分析中出现了“未知”数据，那么可以在分析报告中对数据进行解释，向需求方说明这些“未知”数据里面会含有哪些信息，也可以再增加一份”未知“数据说明文档，举例说明是怎么产生这些未知数据的，有时候，一份”未知“数据的可视化图表或许就可以直观地解释这个现象了；
4、将未知文件整理成系统性的文档，方便后续运营、产品、商业分析等职能人员进行查询及产生”未知“数据的人员责任追踪。

数百问系列文章：