文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。

来源 | 商业评论精选

作者 | 萨姆·兰斯博撒姆

商评编者按

数据给商家带来很多便利的时候,也成为了这个时代的潮流名词。无论人们谈论用户行为还是属性标签,数据都变得愈加不可或缺。

但海量数据是否就是一剂万能灵药?

作为管理者,必须了解的是:数据是如何生成的,及导致数据变化的因素是什么。因为说到底,数据不会说话,人们需要在分析前练就一双“火眼金睛”。

当波士顿学院的一群学生开始对UFO目击报告进行数据分析时,他们发现位于美国华盛顿州的国家UFO报告中心自1974年开始跟踪UFO的动向以来,收到的UFO目击报告大幅增加。

然而,这并不意味着天外来客的数量越来越多,而是因为该中心刚成立时,人们必须拿起电话来报告自己的发现,互联网普及后,人们只需上网填写一张表格,因此,UFO目击报告的数量急剧上升。

再看UFO以外的更多例子,我们发现数据采集成本的降低带来了多方面的价值。我们比以前拥有了更多数据。

然而,管理者必须清楚地了解数据是如何生成的,以及这一生成过程会如何影响数据的价值。在可以获得的数据越来越多时,管理者应该留意哪些样本出现偏差?

以下四点做法值得采纳:

01

了解数据的来龙去脉

今天的企业在分析从网络论坛获得的丰富且低成本的数据时,必须慎之又慎。

它们必须考虑到,通过社交媒体了解到的顾客情况,可能与以往电话或书面调查的数据所反映出来的趋势并不吻合。

社交媒体固然为消费者活动提供了特别详细的数据,能够让企业获得前所未有的海量个人信息。然而,并不是每位顾客都使用社交媒体,同时出于刻意塑造自身形象的需要,也不是每个人在社交媒体上都能做到坦诚。

管理者必须了解自己使用的数据是来自哪里,以及数据生成之后可能会因什么而发生变化。

02

承认数据数量的增加并不代表数据质量的提升

庞大的数据量提供了一种虚假安慰,让管理者误以为自己掌握了“更好的”数据,而其实只不过是先前数据的权重增加。

更糟糕的是,数据量的增加会让样本偏差更深地隐藏在海量信息中。管理者在试图获取更多数据之前,需要对额外数据将产生的新信息进行评估,可以先开展小规模试验。

他们需要知道从数据中能够得到什么,以及如何以低成本达到这一目的。

03

认识到旧数据源的不完善

旧数据源自身也存在样本偏差。以上文提到的UFO目击报告为例:互联网普及之前,人们只能通过电话与国家UFO报告中心联系。由于外州人不得不考虑长途电话的成本,大多数报告都来自华盛顿本州。

无论是新数据源还是旧数据源,对它们的了解都需要时间。经验告诉我们,新旧数据源各自都存在样本偏差,同时采用它们可以相互取长补短。

04

记住直觉仍然很重要 

判断样本是否有偏差,归根结底是人类的工作。数据本身不会说话,我们需要自行识别缺失的部分。

尽管人工智能和机器学习正在兴起,但我们仍然需要人类的专业知识来纵观全局,确定某个数据源反映了全局的哪个部分。

管理者应当问自己:“对于业务,有哪些是数据无法告诉我们的,但我自己很了解的?” 

随着数据分析在企业内部日益普及,越来越多的人需要在分析结果前练就一副“火眼金睛”。

要做到这一点,管理者必须将两种不同类型的知识结合起来:

一是对数据生成过程背后细节的了解,这关乎数据的代表性;二是对业务的宏观把握和总体认知。


作者简介:萨姆▪兰斯博撒姆,波士顿学院卡罗尔管理学院(Carroll School of Management,Boston College)信息系统学副教授。

本文摘自《样本越多越好吗》

原文刊登在《商业评论》2019年1月号

作为管理者,如何理解数据与业务?相关推荐

  1. ML:MLOps系列讲解之《CRISP-ML (Q)ML生命周期过程—了解机器学习开发的标准过程模型—业务和数据理解→数据工程(数据准备)→ML模型工程→评估ML模型→模型部署→模型监控和维护》解读

    ML:MLOps系列讲解之<CRISP-ML (Q)ML生命周期过程-了解机器学习开发的标准过程模型-业务和数据理解→数据工程(数据准备)→ML模型工程→评估ML模型→模型部署→模型监控和维护& ...

  2. 高层管理者对于大数据的6个误解

    大数据已经成为一个如此普遍的流行词,但有人认为其几乎是毫无意义的. 一名IT行业专家表示,其曾从事信息技术工作超过十年,并记得当时订购新的驱动器和存储设备来处理文件和电子邮件,那时读取上千兆字节的信息 ...

  3. Spark Streaming 作者,Alluxio 的创始人李浩源:AI 潮流对做数据存储业务公司的挑战...

    本文转载自 Robin.ly 社区,Robin.ly 和 TalentSeer 的创始人 Alex Ren 采访了知名大数据初创公司Alluxio的创始人及CEO,李浩源博士,采访中分享了李浩源博士对 ...

  4. 【见闻录系列】我所理解的搜索业务二三事

    [见闻录系列]我所理解的搜索业务二三事 FexianXu 20220730 at Baidu Search Team 前言 之前笔者在博文[1]中谈到了在工作一年的过程中,笔者对"业务&qu ...

  5. 怎么理解数据湖?(深度长文)

    ▲ 点击上方"分布式实验室"关注公众号 回复"1"抽取技术书 最近,数据湖的概念非常热,许多前线的同学都在讨论数据湖应该怎么建?阿里云有没有成熟的数据湖解决方案 ...

  6. 怎么理解数据网格(Data Mesh)

    来源:网络翻译    编辑:数据一哥 全文共 2179个字,建议阅读 5分钟 数据网格是一种架构模式,用于在大型复杂组织中实现企业数据平台.它有助于扩展分析的采用范围,使其超越单个平台和单个实施团队 ...

  7. 个人理解数据中台与大数据平台区别

    个人理解数据中台与大数据平台区别 概念介绍 本文主要介绍如下几个数据概念: 数据库 数据库是"按照数据结构来组织.存储和管理数据的仓库".是一个长期存储在计算机内的.有组织的.有共 ...

  8. 如何理解数据的保密性与完整性?如何保证数据的保密性与完整性?

    文章目录 前言 第一章.数据 第二章.OSI七层网络模型&TCP/IP四层模型 2.1 数据封装与解封 2.2 应用层 2.3 传输层 2.4 网络层 2.5 数据链路层 2.6 物理层 2. ...

  9. 天猫用户重复购买预测赛题——赛题理解 + 数据探索

    天猫用户重复购买预测赛题--赛题理解 + 数据探索 理论知识 1. 赛题信息 2. 评估指标 AUC 3. 查看数据样例 4. 缺失值查看 5. 查看数据分布 6. 探究影响复购的各种因素 理论知识 ...

最新文章

  1. 转 vi 编辑器,gcc 编译器的使用
  2. 如何关闭华为自动杀进程_手机自动扣费该如何删除,教你正确关闭,我们要知道!...
  3. 循环中fork创建进程的个数
  4. python与7无关的数输出格式第一行为所有与7无关的数_70 道 NumPy 测试题
  5. [翻译] 学习iOS开发的建议:如何从菜鸟到专家
  6. oracle 朱志辉_DB2设计、管理与性能优化艺术
  7. C++_类和对象_对象特性_This指针的用途_用来解决名称冲突_*this实现链式编程---C++语言工作笔记049
  8. MUI class=mui-switch开关 JQuery 控制开关
  9. matlab竞赛论文模板,美赛数学建模比赛论文模板.doc
  10. 深入浅出分布式系统Raft协议
  11. CAD打印 acad.ctb丢失
  12. Linux虚拟机如何扩展内存盘
  13. Ubuntu16.04LTS安装到移动硬盘,实现随插随用
  14. iOS第三方支付——银联支付
  15. 【FPGA创新设计竞赛——2022紫光同创杯】1、“基于 RISC-V 处理器的软硬件系统设计”赛题介绍
  16. 《软件工程实践》第五次作业-WordCount进阶需求 (结对第二次)
  17. java unpark_Java多线程学习:(wait,notify)--(await,signal)--(park,unpark)
  18. HR不得不知的Excel技能——模板篇
  19. protect权限解析
  20. 所有方向你要的资料干货这都有,从入门到实战!【CSDN宝藏资料图鉴第一期】

热门文章

  1. 八种提升薪酬激励的艺术(转)
  2. 结构体如何节省空间——位域(段域)
  3. python集合(set)
  4. Melis3.0系统Quick Start
  5. 如何将XP升级到win7
  6. 计算机科学与技术专业的概念,面向概念表达的计算机辅助草绘设计关键技术研究-计算机科学与技术专业毕业论文.docx...
  7. Linux系统搭建钓鱼WIFI教程,Kali linux创建钓鱼wifi热点
  8. java的setvisible_Java Container.setVisible方法代码示例
  9. 计算机黑屏不亮,电脑屏幕点不亮怎么办,电脑屏幕不亮的6种处理方法
  10. nodeJS exports