作为管理者,如何理解数据与业务?
文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。
来源 | 商业评论精选
作者 | 萨姆·兰斯博撒姆
商评编者按
数据给商家带来很多便利的时候,也成为了这个时代的潮流名词。无论人们谈论用户行为还是属性标签,数据都变得愈加不可或缺。
但海量数据是否就是一剂万能灵药?
作为管理者,必须了解的是:数据是如何生成的,及导致数据变化的因素是什么。因为说到底,数据不会说话,人们需要在分析前练就一双“火眼金睛”。
当波士顿学院的一群学生开始对UFO目击报告进行数据分析时,他们发现位于美国华盛顿州的国家UFO报告中心自1974年开始跟踪UFO的动向以来,收到的UFO目击报告大幅增加。
然而,这并不意味着天外来客的数量越来越多,而是因为该中心刚成立时,人们必须拿起电话来报告自己的发现,互联网普及后,人们只需上网填写一张表格,因此,UFO目击报告的数量急剧上升。
再看UFO以外的更多例子,我们发现数据采集成本的降低带来了多方面的价值。我们比以前拥有了更多数据。
然而,管理者必须清楚地了解数据是如何生成的,以及这一生成过程会如何影响数据的价值。在可以获得的数据越来越多时,管理者应该留意哪些样本出现偏差?
以下四点做法值得采纳:
01
了解数据的来龙去脉
今天的企业在分析从网络论坛获得的丰富且低成本的数据时,必须慎之又慎。
它们必须考虑到,通过社交媒体了解到的顾客情况,可能与以往电话或书面调查的数据所反映出来的趋势并不吻合。
社交媒体固然为消费者活动提供了特别详细的数据,能够让企业获得前所未有的海量个人信息。然而,并不是每位顾客都使用社交媒体,同时出于刻意塑造自身形象的需要,也不是每个人在社交媒体上都能做到坦诚。
管理者必须了解自己使用的数据是来自哪里,以及数据生成之后可能会因什么而发生变化。
02
承认数据数量的增加并不代表数据质量的提升
庞大的数据量提供了一种虚假安慰,让管理者误以为自己掌握了“更好的”数据,而其实只不过是先前数据的权重增加。
更糟糕的是,数据量的增加会让样本偏差更深地隐藏在海量信息中。管理者在试图获取更多数据之前,需要对额外数据将产生的新信息进行评估,可以先开展小规模试验。
他们需要知道从数据中能够得到什么,以及如何以低成本达到这一目的。
03
认识到旧数据源的不完善
旧数据源自身也存在样本偏差。以上文提到的UFO目击报告为例:互联网普及之前,人们只能通过电话与国家UFO报告中心联系。由于外州人不得不考虑长途电话的成本,大多数报告都来自华盛顿本州。
无论是新数据源还是旧数据源,对它们的了解都需要时间。经验告诉我们,新旧数据源各自都存在样本偏差,同时采用它们可以相互取长补短。
04
记住直觉仍然很重要
判断样本是否有偏差,归根结底是人类的工作。数据本身不会说话,我们需要自行识别缺失的部分。
尽管人工智能和机器学习正在兴起,但我们仍然需要人类的专业知识来纵观全局,确定某个数据源反映了全局的哪个部分。
管理者应当问自己:“对于业务,有哪些是数据无法告诉我们的,但我自己很了解的?”
随着数据分析在企业内部日益普及,越来越多的人需要在分析结果前练就一副“火眼金睛”。
要做到这一点,管理者必须将两种不同类型的知识结合起来:
一是对数据生成过程背后细节的了解,这关乎数据的代表性;二是对业务的宏观把握和总体认知。
作者简介:萨姆▪兰斯博撒姆,波士顿学院卡罗尔管理学院(Carroll School of Management,Boston College)信息系统学副教授。
本文摘自《样本越多越好吗》
原文刊登在《商业评论》2019年1月号
作为管理者,如何理解数据与业务?相关推荐
- ML:MLOps系列讲解之《CRISP-ML (Q)ML生命周期过程—了解机器学习开发的标准过程模型—业务和数据理解→数据工程(数据准备)→ML模型工程→评估ML模型→模型部署→模型监控和维护》解读
ML:MLOps系列讲解之<CRISP-ML (Q)ML生命周期过程-了解机器学习开发的标准过程模型-业务和数据理解→数据工程(数据准备)→ML模型工程→评估ML模型→模型部署→模型监控和维护& ...
- 高层管理者对于大数据的6个误解
大数据已经成为一个如此普遍的流行词,但有人认为其几乎是毫无意义的. 一名IT行业专家表示,其曾从事信息技术工作超过十年,并记得当时订购新的驱动器和存储设备来处理文件和电子邮件,那时读取上千兆字节的信息 ...
- Spark Streaming 作者,Alluxio 的创始人李浩源:AI 潮流对做数据存储业务公司的挑战...
本文转载自 Robin.ly 社区,Robin.ly 和 TalentSeer 的创始人 Alex Ren 采访了知名大数据初创公司Alluxio的创始人及CEO,李浩源博士,采访中分享了李浩源博士对 ...
- 【见闻录系列】我所理解的搜索业务二三事
[见闻录系列]我所理解的搜索业务二三事 FexianXu 20220730 at Baidu Search Team 前言 之前笔者在博文[1]中谈到了在工作一年的过程中,笔者对"业务&qu ...
- 怎么理解数据湖?(深度长文)
▲ 点击上方"分布式实验室"关注公众号 回复"1"抽取技术书 最近,数据湖的概念非常热,许多前线的同学都在讨论数据湖应该怎么建?阿里云有没有成熟的数据湖解决方案 ...
- 怎么理解数据网格(Data Mesh)
来源:网络翻译 编辑:数据一哥 全文共 2179个字,建议阅读 5分钟 数据网格是一种架构模式,用于在大型复杂组织中实现企业数据平台.它有助于扩展分析的采用范围,使其超越单个平台和单个实施团队 ...
- 个人理解数据中台与大数据平台区别
个人理解数据中台与大数据平台区别 概念介绍 本文主要介绍如下几个数据概念: 数据库 数据库是"按照数据结构来组织.存储和管理数据的仓库".是一个长期存储在计算机内的.有组织的.有共 ...
- 如何理解数据的保密性与完整性?如何保证数据的保密性与完整性?
文章目录 前言 第一章.数据 第二章.OSI七层网络模型&TCP/IP四层模型 2.1 数据封装与解封 2.2 应用层 2.3 传输层 2.4 网络层 2.5 数据链路层 2.6 物理层 2. ...
- 天猫用户重复购买预测赛题——赛题理解 + 数据探索
天猫用户重复购买预测赛题--赛题理解 + 数据探索 理论知识 1. 赛题信息 2. 评估指标 AUC 3. 查看数据样例 4. 缺失值查看 5. 查看数据分布 6. 探究影响复购的各种因素 理论知识 ...
最新文章
- 转	vi 编辑器,gcc 编译器的使用
- 如何关闭华为自动杀进程_手机自动扣费该如何删除,教你正确关闭,我们要知道!...
- 循环中fork创建进程的个数
- python与7无关的数输出格式第一行为所有与7无关的数_70 道 NumPy 测试题
- [翻译] 学习iOS开发的建议:如何从菜鸟到专家
- oracle 朱志辉_DB2设计、管理与性能优化艺术
- C++_类和对象_对象特性_This指针的用途_用来解决名称冲突_*this实现链式编程---C++语言工作笔记049
- MUI class=mui-switch开关 JQuery 控制开关
- matlab竞赛论文模板,美赛数学建模比赛论文模板.doc
- 深入浅出分布式系统Raft协议
- CAD打印 acad.ctb丢失
- Linux虚拟机如何扩展内存盘
- Ubuntu16.04LTS安装到移动硬盘,实现随插随用
- iOS第三方支付——银联支付
- 【FPGA创新设计竞赛——2022紫光同创杯】1、“基于 RISC-V 处理器的软硬件系统设计”赛题介绍
- 《软件工程实践》第五次作业-WordCount进阶需求 (结对第二次)
- java unpark_Java多线程学习:(wait,notify)--(await,signal)--(park,unpark)
- HR不得不知的Excel技能——模板篇
- protect权限解析
- 所有方向你要的资料干货这都有,从入门到实战!【CSDN宝藏资料图鉴第一期】
热门文章
- 八种提升薪酬激励的艺术(转)
- 结构体如何节省空间——位域(段域)
- python集合(set)
- Melis3.0系统Quick Start
- 如何将XP升级到win7
- 计算机科学与技术专业的概念,面向概念表达的计算机辅助草绘设计关键技术研究-计算机科学与技术专业毕业论文.docx...
- Linux系统搭建钓鱼WIFI教程,Kali linux创建钓鱼wifi热点
- java的setvisible_Java Container.setVisible方法代码示例
- 计算机黑屏不亮,电脑屏幕点不亮怎么办,电脑屏幕不亮的6种处理方法
- nodeJS exports