“ 大数据”这个词这几年火的不得了。各种企业都宣称自己掌握着大量的数据,好像有了大数据,就能解决一切问题一样。

然而现实情况时,很多时候我们对数据的痴迷,却将我们引上了歧途。是的,在一些情况下,要想从数据中萃取有用的东西,我们的确需要大量的这类数据,然而对于创新者来说,数据的数量和规模并不是最关键的因素 ——正确性才是最重要的东西。

数据正确性无关大小

在谈到大数据的作用的时候,我们总是拿 Uber 来举例,他们好像是用大数据获得成功的最典型的例子。毫无疑问, Uber 从数据中获得了财富。依靠他们的应用, Uber 从司机和乘客那里获得了实时的数据,让他们能够知道何时、何处人们对车辆有着较高的需求。

但是 Uber 的成功,依靠的并不是他们所收集的大数据。如果你仔细分析一下,就会发现,他们的成功依靠的是规模并不大的正确的数据 ——车辆 派遣数据 。

在可以用手机叫车以前,我们依靠的是传统的出租车。虽然传统出租车看上去与互联网没有什么关系,但是其实它们才是一种依靠大数据的东西。原因是,传统出租车依赖的是 “人眼网络 ”:无数人站在城市中的某一个点,在看到出租车后马上招手。虽然貌似与信息科技无关,但是实际上人们在打车的过程中,同样使用了计算 ——人脑的计算:我们在大脑中收集并且分析数据。

Uber 提出了一个更好的解决方案,人们不再需要自己跑到街上去用眼睛收集数据,不用再用大脑去处理数据,转而开始让 Uber 为我们提供正确的数据来完成打车任务。城市中谁需要打车?他在哪里?离他最近的车在哪里?需要多长时间能接到乘客?正是凭借这些正确的数据, Uber 才得以成功的在出租车行业内掀起了革命。

用正确的数据完成任务

有的时候,正确的数据规模很大;也有的时候,正确的数据规模很小。对于创新者来说,关键在于分析出那些数据对我们来说最有帮助。要想找到正确的数据,我建议你去思考下面三个问题。

问题1 :哪些因素会浪费公司的资源?大多数企业都会在日常运营中浪费许多资源。用鲜花零售业务来举例,大多数花店中 50% 的库存都会被最终浪费掉。因此 UrbanStems 和 Bouqs 这样的鲜花配送服务应运而生,他们的作用就在于利用正确的数据帮助花店减少浪费。

无论你是工业生产、零售还是法务调查公司,搞清楚哪些因素会浪费你的资源,都能够帮你找到正确的数据。

问题 2 :如何利用自动化来减少浪费?在确定哪些因素会造成资源浪费之后,下一步就是要减少浪费。人类的优势,在于分析问题。但是在实施方面,尤其是大量计算方面,计算机有着人类难以比拟的能力。在当今这个计算能力爆炸的时代,我们应该利用自动化技术来解决问题。

例如,有消息称亚马逊正在计划删除大量定价团队,让算法来给产品进行定价。在很多零售商看来,这是一个不可思议的行为。但是如果亚马逊的算法能够胜任定价工作,它将能够亚马逊带来巨大的好处,例如减少积压库存。

问题 3 :针对问题 1 和 2 ,你需要哪些数据?最后一步,就是确定你需要哪些数据才能减少浪费,并且完成自动化。

还是用 Uber 来举例,他们需要知道潜在乘客的具体位置,才能完成自动化司机指派工作,从而减少浪费(车辆闲置、乘客司机在街上打车)。

这就是你所需要的正确的数据。很多企业都在花费大量的时间去研究大数据,但是却没有花足够的时间去考虑哪些数据才是真正有用的数据。

本文转自d1net(转载)

你需要的不是大数据——而是正确的数据相关推荐

  1. 如何为人工智能建立正确的数据策略?

    使用正确的数据策略实施人工智能(AI),将确保数据无缝流入系统以生成准确的输出. 人工智能已经在几乎每个行业中找到了各种应用程序.这些AI应用通过数据来发挥作用并提供输出.人工智能系统的成功完全取决于 ...

  2. 数据查重去重,数据匹配过程

    帮助更多需要自动化解决工作的人们. 步骤:不完整,重复,错误,格式不规范数据 -> 数据清洗 -> 正确规范数据 -> 数据去重技术 -> 数据匹配. 使用过的一些相关软件,查 ...

  3. 华为云大数据存储的冗余方式是三副本_大数据入门:HDFS数据副本存放策略

    大数据处理当中,数据储存始终是一个重要的环节,从现阶段的市场现状来说,以Hadoop为首的大数据技术框架,仍然占据主流地位,而Hadoop的HDFS,在数据存储方面,仍然得到重用.今天的大数据入门分享 ...

  4. php读取大文件某行内容,php读取大文件最后几行数据的实现代码

    /* * 读取大文件最后几行数据 * by www.jbxue.com */ $file = $handledir.'/venocap.1'; $fp = fopen($file, "r&q ...

  5. 命名管道 win7未响应_大数据分析Python建立分析数据管道

    如果您曾经想通过流数据或快速变化的数据在线学习Python,那么您可能会熟悉数据管道的概念.数据管道允许您通过一系列步骤将数据从一种表示形式转换为另一种表示形式.数据管道是数据工程的关键部分,我们将在 ...

  6. R语言使用ggpubr包的ggdotplot函数可视化水平棒棒糖图(自定义分组数据点色彩、自定义调色板、在两端添加点图的线段segments、整体排序从大到小、自定义数据点的大小、添加数值标签)

    R语言使用ggpubr包的ggdotplot函数可视化水平棒棒糖图(自定义分组数据点色彩.自定义调色板.在两端添加点图的线段segments.整体排序从大到小.自定义数据点的大小.添加数值标签) 目录

  7. R语言ggplot2可视化使用不连续的y轴、中断的Y轴来可视化数值分布差异很大的数据实战:把数据轴分为两个区间或者多个区间来匹配不同区间数据的可视化(因为有的数据可能10附近,有的数值可能1W附近)

    R语言ggplot2可视化使用不连续的y轴.中断的Y轴来可视化数值分布差异很大的数据实战:把数据轴分为两个区间或者多个区间来匹配不同区间数据的可视化(因为有的数据可能10附近,有的数值可能1W附近) ...

  8. python保存大列表(list)数据到文件并后续重新加载为列表(list)对象实战

    python保存大列表(list)数据到文件并后续重新加载为列表(list)对象实战 笔者遇到的问题是这样的, 在做机器学习模型的时候,有的时候会使用相关性分析的方法来进行特征的筛选,去除冗余特征,降 ...

  9. 《数学之美》第31章 大数据的威力--谈谈数据的重要性

    1 数据的重要性 2 数据的统计和信息技术 3 为什么需要大数据 首先,只有当一些随机事件的组合一同出现了很多次以后,才能得到有意义的统计规律: 其次,大数据的采集过程是一个自然过程,有利于消除主观性 ...

最新文章

  1. CPU被夺走的三种状态 执行时间久了 IO操作让cpu等待 被优先级高的抢占
  2. Jmeter连接mysql(一)
  3. git 的安装以及使用:是一个开源的分布式版本控制系统,可以对项目进行版本管理。 早期是linux之父用来管理linux系统源代码的(linux是和windows一样操作系统 开源免费的操作...
  4. nginx介绍(一) 简介篇
  5. 上海贝尔阿尔卡特与阿尔卡特朗讯之间关系
  6. 【转】Java重构-策略模式、状态模式、卫语句
  7. CF 71C. Round Table Knights
  8. 使用ColorUI组件
  9. java代码实现雷达图_雷达图的一种实现! Cocos Creator !
  10. 上机练习2 类与对象 pc cpu harddisk对象组合
  11. PHP 判断日期格式
  12. 股权投资模型-CAPM模型和PEG模型(内附示例数据)
  13. 【建议收藏】15755字,讲透MySQL性能优化(包含MySQL架构、存储引擎、调优工具、SQL、索引、建议等等)
  14. java bfs 迷宫例子_51-迷宫(一)- java版dfs和bfs
  15. Visitor----------模式
  16. 核工业物理研究院九院三所
  17. python大佬的可视化工具-Bokeh
  18. 筛选法与试除法 判断素数
  19. VISIO 流程图和UML类共用后,UML类变形
  20. 兴趣标签体系告诉我,闲鱼的95后是这样的...

热门文章

  1. [转] Vb中FSO 对象的介绍
  2. Android 视频播放器 (二):使用MediaPlayer播放视频
  3. vue-element超初级教学
  4. RPC远程过程调用概念及实现
  5. 【EntityFramework学习笔记】为什么要使用迁移
  6. C中的extern-static-const关键词
  7. maven-dependency-plugin (goals copy-dependencies, unpack) is not support解决办法
  8. 使用AfxGetMainWnd函数的一个心得
  9. 超长干货 | Kubernetes命名空间详解
  10. SQLServer中批量插入数据方式的性能对比