你是否遭遇过以下场景?

老板:“你提交的报告,怎么和我查的不一样?”

业务部:“ERP 后台显示成单 687 笔,你怎么告诉我成单 620 笔?”

运营:“你给我的转化率,为何比实际成单算的转化率低?”

显然,数据准确性,常常成为企业爆发内战的导火索。

数据驱动时代,数据准确性即将成为进一步数字化、精细化的硬性指标,特别是越来越注重用户行为分析的今天,精益求精,是历史的趋势,也是神策数据相信的未来。

事实上,排除掉人为因素,或技术能力限制,不可抗因素导致的数据上报不及时或丢失,一般情况下 App 端约占 1%,Web 端约占 5%。这在过去历史数据的洪流中可能激不起波澜,但在做精细化运营的今天,用户行为路径中哪怕只丢失 1% 的数据,也可能影响分析结果或错失机遇。

比如,漏斗分析、留存分析、归因分析等模型均为多步骤组合,丢失任一环节的数据均可能影响最终的结果。

举个例子某电商的漏斗模型为:浏览商品详情页-加入购物车-提交订单-支付订单,一般数据是实时采集上报,但在极端情况下,部分用户在提交订单的数据丢失,那么相关环节的转化率将不准确,分析结果也会出现误差。

再比如,若未上报的这 1% 的数据,涵盖极其关键的甚至决定性的事件数据,将造成连带影响,如影响数据的完整性。

举个例子,神策数据支持用户未登录的匿名行为与登录后的行为打通,还原完整的用户全链条。在该过程中,存在一个关键事件,用户登录的当下绑定未登录之前的行为,如果丢失了这个事件,用户登录前的行为就无法匹配了,因为用户行为链条是环环相扣的。

综上,在精益求精的大数据时代,丢失哪怕不到 1% 的数据,也会牵一发而动全身。因此,神策坚持使数据准确,且保证数据与真实场景发生的当时当刻吻合,不容一丝侥幸与意外

一、关于数据准确性,你必须知道的事

纵观大部分数据应用,数据处理可以划分为如下五个步骤,每个步骤都可能影响数据准确性:

图 1 数据处理的五个步骤

总体上看,排除人为因素,通常数据准确性的问题可抽象为 3 种情况:

1. 统计口径差异

如 App 启动,很多统计工具使用设备 ID 计算用户,将导致同一个登录 ID 在多设备使用的情况下使 uv=N。而神策数据使用神策 ID 进行计算,可使同一个登录 ID 在多设备使用的情况下 uv=1。

2. 代码采集异常

如客户端使用匿名 ID 上报数据,服务端使用登录 ID 上传数据,导致同一用户没有关联,系统识别为两个用户导致用户总量不一致,神策数据使用同一 ID 上报全端数据,支持企业打通用户登录前后行为。

3. 数据上报延迟或丢失

数据上报往往是通过 http 或者 https 请求进行传输,因此网络稳定性和 App 使用异常均极大的影响上报的及时性。

在这三方面中,数据上报延迟或丢失存在非技术原因的不可抗因素导致,如下图。

表 1 数据延迟场景

在以上场景中,用户产生了数据,但却因为非数据采集技术原因导致了数据的丢失或延迟。针对这一特殊情况,你会选择在事后进行数据的回溯,还是忽略未实时上报的数据?

大多数的直觉答案是“利用数据回溯,保证数据准确性”,但数据回溯还面临两大难题:其一,由于技术能力限制只能让数据延迟或丢失;其二,同一天的数据在不同周期查看会发生变化,如何向用户解释?

因此,大部分数据分析平台服务提供商选择了牺牲数据准确性,与之不同,神策数据精研技术,通过数据的回溯与补充助力企业坚守数据准确性的红线。

二、可解释性 VS 准确性,神策数据的坚持

面对变幻莫测的现实情况,极端情况下的数据准确性和可解释性总是不可兼得——极端情况下数据的丢失易让人接受,复杂技术下坚守的数据准确却令人费解。

技术壁垒从不是神策数据的难题,但面对客户潜在的不解,又该如何抉择?神策坚持选择数据准确性

1. 看似正确的“错误”,数据不应该变化?

在数据分析行业中,为保证数据的可解释性,基本上企业会以当天 23 点 59 分 59 秒截止进行数据的结算。由于数据分析系统历史的技术框架限制,后续即使有延迟数据也不会进行数据的补充。长期以往,各企业习惯了以当天结算的数据为准,即不管时间周期如何变化,仅看某一天的数据是固定不变的,成为大家默认的规则。当数据发生变化,常常会被冠上“数据不准确”的帽子。

 “忽略特殊情况下未上报的数据”只是历史遗留问题,却被误认为“正确的事”。因此,变化的数据,无疑将增加解释成本。更难的是,数据并不是给 1 个人看的,每个人都可能提出数据变化的质疑。

首先,数据分析的人会困惑数据的变化;其次,即使给数据分析的人进行了清晰的说明,但向上汇报时,又会衍生新的可解释性问题。举个例子,数据分析师 A 做了一个报告给老板,报告中记录周一日活为 14000,但老板周五看的时候发现周一日活为 14500,因此,数据分析师 A 可能会迎来老板的质疑,这给 A 带来困扰,甚至该负面情绪可能并不会因为解释而消除。

历史遗留问题加上解释成本,让很多数据分析企业望而却步,有的是出于技术能力限制,有的是无法面对“约定俗成”的质疑。神策数据,选择坚守信念,只做正确的事情。

三、敢为人先,神策数据以变制变

把事情做到极致”是神策数据的做事原则。在数据准确性这件事上,哪怕付出更多的技术资源和解释成本,也坚持为“给客户带来价值”负责,面对疑虑,坦然应对。

神策数据选择以变制变。目前,使用神策数据的企业数据产生后,存在 10 天的回溯期,在此期间查询相关的数据均可能发生变化,10 天之后回溯完毕,数据将不再变化。

以下,为神策数据 SDK 缓存上报数据的场景:

1. 强杀场景,用户主动关闭
对于 Android 用户来说,用户常用的关闭 App 的方式就是退到后台将 App 划掉,对于这种场景,埋点数据会缓存在本地,未及时上传,比如退出事件,需要用户下次打开时进行上报。

2. 多进程触发数据采集
对于 Android App 来说,多进程场景是很普遍的场景,比如推送场景,或者一些来电服务的 App,经常活动的是子进程,对于这种在子进程埋点业务数据比较多的场景,需要在主进程启动时才会将缓存在本地的数据进行上报。

3. 没有网络或网络信号较差
在电梯或地铁里由于网络信号较差时,可能会出现埋点数据无法上报的情况,造成本地缓存埋点数据的情况,需要用户在网络条件状况良好时,重新进行数据上报。

4. App 异常退出
App 异常是最普遍的一个场景了,当 App 出现异常退出时,可能会造成部分埋点数据无法及时上传,待用户下次打开 App 时重新上传。

5. iOS 被动启动
在 iOS 中,当 App 由于一些原因(例如静默推送)被动启动时,采集的所有事件会在 App 下次启动时上传数据。

俗话说,“你不能解决问题,你就会成为问题”。在面对数据准确性的历史挑战,神策数据选择了更艰难的一条路,这条路虽然会偶遇客户的不解,但其终点是给客户带来更大的价值,神策数据矢志不渝。同时,若客户因特殊原因,理解背景后仍坚持保持数据不变,我们也给予了灵活的策略,可将回溯周期降低为 24 小时。此外,神策也会优化产品,如增加小提示,促进客户的理解。

在过去的 5 年里,神策数据服务了 1000 余家企业,未来将为更多的企业解决数据根基问题。背负着客户的未来,神策数据面对历史的难题,坚持以变应变,以变制变,力求在大数据时代,为即将到来的数据准确性变革领航,更为客户保驾护航。

立足于重构中国互联网数据根基的愿景,关于数据准确性,神策数据捍卫到底,决不允许一丝的侥幸与意外

✎✎✎

更多内容

  • 银行 4.0 时代,打开客户标签五扇门,高效赋能数据化运营

  • 还没真正理解用户标签体系?看这篇就够了!

  • 神策数据保险行业解决方案,正式上线官网!

点击“阅读原文”,体验 demo~

关于数据准确性,精益求精,神策数据矢志不渝的坚持相关推荐

  1. 妈妈帮携手神策数据 数据赋能打造母婴智能陪伴者

    近年来,随着科技的不断发展,"智能生活"越来越受到大众的关注.妈妈帮作为好未来旗下移动互联网母婴社区,紧跟时代发展趋势,携手大数据工具服务商"神策数据"一同致力 ...

  2. 神策数据全新服务体系——打造用户行为分析领域服务最高标准

    2018 年 4 月 11 日,神策数据 C 轮发布会的主题--时代"据"变,服务为先. 神策数据不仅关注用户数据分析需求,更加专注于帮助企业将数据驱动落地.国内市场当前发展进程不 ...

  3. 神策数据微信小程序 SDK 架构解析

    一.前言 神策数据微信小程序 SDK[1],是一款轻量级用于微信小程序端的数据采集埋点 SDK,包含代码埋点.全埋点功能.其中,全埋点功能通过代理微信小程序原生 App.Page.Component ...

  4. 神策数据宣布 4400 万美元融资 ,首家迈入 C 轮的用户行为分析服务商

    2018 年 4 月 11 日,主题为"时代据变,服务为先"神策数据 C 轮融资发布会在北京丽亭华苑酒店举行.会上,神策数据发布重磅融资消息,即获得华平投资领投,红杉资本中国基金. ...

  5. 神策数据丨九大行业数字化经营指南集锦,值 100% 收藏

    每一份白皮书.报告和案例的开始都有一个共同点:对各行业的数字化满心期许.我们希望为更多企业在数字化转型之路上提供可靠.可信.可落地的方法论与实践指导,为数字化时代的到来贡献绵薄之力. 2021 年末, ...

  6. 神策数据获华为鲲鹏技术认证,正式成为华为鲲鹏展翅 ISV 合作伙伴

    近日,神策数据签署 CLA(Contributor License Agreement,贡献者许可协议),正式加入 openEuler 社区,将与行业内的生态伙伴共建平台,推动行业生态繁荣发展. 同时 ...

  7. 超重磅 | 神策数据“两云一平台”上线,拥抱数字化经营

    什么是"两云一平台"? 即数字化营销闭环运转的"发动机". 过去 5 年,神策数据为超过 30+ 行业的 1500 多家企业提供数据分析和数字与营销服务,已总结 ...

  8. 神策数据张涛:微信生态数字化运营解决方案

    本文根据神策数据副总裁张涛关于微信生态数字化运营解决方案相关直播内容整理而成,本文主要内容如下: 微信生态运营现状 & 痛点 微信生态数字化运营解决方案 运营落地场景 & 案例展示 一 ...

  9. 喜报 | 大地影院集团签约神策数据,影院 + 数据化高光时刻开启

    近日,大地影院集团签约神策数据,未来神策数据将以第三方数据分析平台的形式助力大地影院集团,进一步加快影院产品和服务的创新与突破. 大地影院集团成立于 2006 年,是国内排名第二位的影院管理投资公司, ...

最新文章

  1. [Js-Spring]Spring与IoC(控制反转,Inversion of Control)
  2. Vmware Ubuntu 自适应屏幕 进入全屏模式
  3. 用long类型让我出了次生产事故,写代码还是要小心点
  4. π!到底蕴藏了多少不为人知的秘密?|今日最佳
  5. 用PHPnow搭建PHP+MYSQL网站开发环境
  6. 我对前端技术更新的看法以及未来发展趋势预测
  7. 访问服务器的速度由哪些因素决定?
  8. python线程数组_Python多线程
  9. Android中ListView的使用步骤
  10. 读《单页web应用》-回顾作用域
  11. jep-java-4.0-trial.jar 下载
  12. labview控件旋转_基于LabVIEW的旋转倒立摆系统设计
  13. IEEE论文模板下载地址及说明
  14. Spyder使用教程
  15. 如何做一个被领导喜欢的实施顾问
  16. 什么是java full gc_关于Java垃圾回收,你必须要知道FullGC是什么
  17. 多台显示器图像拼接组成大屏幕是怎么实现的?
  18. SCU2016-05 I题 trie图 + 大数dp
  19. Bellman_Ford的负环
  20. Linux网络之DNS域名解析概述

热门文章

  1. vue调用接口获取后台数据_Vuex 存储||获取后台接口数据
  2. 基于java封装的语言_封装在java中的应用
  3. java图片16帧动画_Java实现帧动画的实例代码
  4. 调参必备--Grid Search网格搜索
  5. 多个高维数组使用npz保存
  6. 命令行用pip命令安装mysql_使用pip install mysqlclient命令安装mysqlclient失败?(基于Python)...
  7. hashcode 和 equals 的关系_Java equals 和 hashCode 的这几个问题可以说明白吗?
  8. python栈是什么意思_Python数据结构——栈
  9. quit推不出mysql_cmd下使用mysql插入中文出现无法退出语句的情况!终极解决办法! 安装mysql详细教程。...
  10. unity如何实现图片透视_如何用nginx实现防盗链?保护网站图片、视频。