文章讲的是拨开云雾:破除大数据的四大常见误区,大数据概念自诞生以来,与之相关的争论之声就不绝于耳。如今似乎每一家软件供应商、咨询服务企业以及意见领袖都在以自己的理解为其进行“正确”定义。尽管笔者一直认为这种所谓“正确”的定义根本不存在,本文将专注于为大家破除最常见的大数据认识误区。

  误区一:所有数据都将尽在掌握

  从很多方面来看,我们目前生活的时代都前所未有的,过去从未面对过如此庞大的数据量。把MB和PB的概念抛在脑后吧,现在EB(即艾字节)级别的数据已经真实存在。笔者最近刚刚拜读了一份报告,文章指出生活在当今工业化社会的人们每天所接触并使用的信息比十五世纪时一个人一生所能接触的信息量还大。

  由于数据总量之庞大完全可以用深不可测形容,目前任何个人或者机构甚至无法对与特定主题相关的全部数据进行存储及检索,更不用说整体数据量了。没错,就连搜索巨头谷歌也不例外。谷歌公司的软件只会检测表面Web而非深层Web。有人估计后者的实际大小将达到前者的二十五倍。因此,当大家在搜索任何信息时,其列出的内容只占互联网实际信息总量的4%到6%。

  即使我们放低要求,也无法获取自己需要的某些有价值的信息,例如哪些特定客户曾经购买过我的作品——虽然Amazon以及巴诺商店这样的网站肯定保留了此类信息。我个人非常乐于结识自己的读者,然而即使是在大数据如火如荼的当下,这部分信息仍然遥不可及。总而言之,我们永远无法获得所有相关数据。

  误区二:需要掌握全部数据

  毫无疑问,庞大的数据量有助于解决问题,但千万不要误以为所有数据在业务决策方面都拥有其必要性。明智的大数据机构已经清醒地意识到,捕捉全部相关信息除了浪费资源之外毫无意义。

  似乎每天都有新的数据源出现,但可以肯定的是它们并非都具有实际价值。举例来说,电子邮件信息中通常包含重要的企业动态信息,明智的公司会以此为目标挖掘数据以评估员工情绪、猜测哪些员工有可能辞职。

  但这并不意味着所有电子邮件都有关注的必要。企业邮箱中往往充斥着大量垃圾邮件,浪费资源对其内容加以分析无疑是种愚蠢的行为。

  我们并不需要掌握全部数据。没错,数据的确是越多越好,但请别把时间浪费在无法完成的任务上。

  误区三:大数据拥有稳定的收益

  大家可能听说过这样一条格言:“我拥有自己能够处理的所有数据,只是缺乏足够的信息。”在之前的文章中,我曾经提到过利用外来数据真正指导业务决策是件极为困难的事情。我们甚至无法百分之百确定企业合并、新产品推出、公司合资乃至个别员工离职等状况。

  难道大数据不正是在帮助我们应对不确定性吗?这么说是没错,不过千万别把降低不确定性与消除不确定性混为一谈。也许未来这一愿望会变成现实,但至少目前还不行,而且在可以预见的未来实现的机会也很渺茫。

  对PB级非结构化数据进行分析能够有效帮助企业了解客户情绪。不过千万别误以为大数据能够消弭所有不确定性内容。生活与业务中总是存在难以预知的状况,只有做好多方面准备才能有备无患。

  误区四:大数据属于暂时性趋势

  我们可以认为目前大数据的代言人应该是Nate Silver——至少在他离开《纽约时报》之前的状态。这位知名博主兼统计学家曾在2012的美国大选中预测奥巴马将赢得九成民众的支持,最终结果也证实了他的判断。更令人惊讶的是,竞选期间的民意调查显示奥巴马与罗姆尼相比居于劣势。Silver的统计模型非常准确,他也因此成为人们心目中的预测达人。

  可以肯定的是,大数据与数据科学的概念将在未来几年中逐渐淡化,但其影响与处理流程仍将继续存在。我们不喜欢拿大堆专业术语和行话唬弄人,但那些坚信大数据属于暂时性趋势的专家实在是愚不可及。可以肯定的是今年我们共同产生及消耗的数据量必然要高于去年。

  大数据中的不确定因素永远无法彻底消除、这项技术也不足以回答所有问题。不过仅仅将其作为暂时性趋势加以处理很可能让你的企业陷入危局。现在各机构应该尽快意识到大数据的重要意义,一味抗拒只会让企业在大数据的洪流中处于被动并最终折戟沉沙。

作者:核子可乐 编译

来源:IT168

原文链接:拨开云雾:破除大数据的四大常见误区

拨开云雾:破除大数据的四大常见误区相关推荐

  1. 目前医疗大数据面临四大挑战

    2018年,在由中国研究型医院学会医疗信息化分会医疗和临床科研大数据专业委员会主办.HIT专家网承办的"医疗大数据应用与实践研讨会"上,国家卫生计生委统计信息中心原副主任.中国医院 ...

  2. 【观点见解】解读大数据的5个误区

    [观点见解]解读大数据的5个误区 大数据并不会给你带来大麻烦,事实上,大数据能够帮助你尽量减少业务问题,还能帮助你作出战略性决策.但如果不搞清楚对大数据的一些误区,也可能会给你带来不必要的麻烦.下面就 ...

  3. 大数据开发之常见九种数据分析方法

    今天老师给大家分享一篇关于大数据开发常见的9种数据分析方法,首先数据分析是从数据中提取有价值信息的过程,过程中需要对数据进行各种处理和归类,只有掌握了正确的数据分类方法和数据处理模式,才能起到事半功倍 ...

  4. 破除大数据坚冰 PaaS平台有妙招

    PaaS提供了基础架构,软件开发者可以在这个基础架构之上建设新的应用,或者扩展已有的应用.Salesforce的Force.com.Google的App Engine和微软的Azure(微软云计算平台 ...

  5. 大数据等四大特性助力制造业转型升级

    近年来,企业转型升级的途径很多,包括信息化.数字化.定制化.智能制造等.工业互联网作为近两年出现的一个新概念,与以往的许多方式相比,产业互联网的特殊之处是什么,对企业来说又有什么特别的地方,是企业在发 ...

  6. 大数据分析会遇到哪些误区

    数据虽然客观,有时也是会骗人的.在与数据打交道的过程中,我们可能经常会犯一些错误,导致分析的结论出现较大的偏颇.因此,在做数据分析时,我们需要警惕这5个常见误区: 1.选取的样本容量有误 08年奥运会 ...

  7. 大数据技术的理解误区

    大数据本身是基于数据价值化而构建出来的新概念,虽然概念比较新,但是数据却一直都在,所以大数据的核心并不在"大"上,而是基于大数据所构建出的一个新的价值空间.在理解大数据概念的时候, ...

  8. 大数据可视化的三大误区

    数据可视化的主要目的是通过图形手段,清晰有效地进行信息的沟通和交流.为了有效地传达思想的概念,审美形式和功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察 ...

  9. 大数据有哪些分析误区

    "用数据说话",已经成为一种流行语,有时候它更像是一种证明,一个论据,或者是一个真相,在我们的眼里,数据就是事实,那么问题来了,数据真的不会骗人吗? 首先,数据分析是建立在统计学的 ...

最新文章

  1. Sql语法---DDL
  2. 中国肠道大会 | 日程及嘉宾(4月16日更新)
  3. python 列表表达式 if_python中if else如何判断表达式成立?
  4. 小程序中自定义头部标题栏
  5. Type EnumTypeInfo<xxxxx> cannot be used as key. Contained UNSUPPORTED key types: EnumTypeInfo<xxxxx>
  6. 【Python】Python3编码规范
  7. dj鲜生-23-模板抽离-继承的小结
  8. 主板有电无法启动_电脑无法开机?这篇文章让你省下几百修理费
  9. 二叉树的BFS及DFS
  10. C++ char/byte 转16进制字符串
  11. 基于SSM 技术的服装店管理系统
  12. Win10窗口背景色改成淡绿色的方法
  13. delphi mysql
  14. javaFX学习之颜色选择器(ColorPicker)
  15. 计算机维修的感想,电脑维护心得
  16. QA | 关于手持式频谱仪,您想了解的那些技术问题(一)
  17. 你不知道的网站图片存储格式-base64
  18. 莆田家庭教育指导师证在哪报名报考条件是什么
  19. oneDrive 无法连接
  20. PLC控制例子——中央空调机房控制系统

热门文章

  1. 帧、报文、报文段、分组、包、数据报、PDU、SDU、信元
  2. [强化学习实战]出租车调度-Q learning SARSA
  3. 去AV片马赛克,开发者被抓了
  4. 如何把Excel的数据导入python?
  5. 模型描边(二)—— three.js着色器法线延伸
  6. 黑客攻击最短代码大揭秘!不要问,问就是5下shift键
  7. 肉鸡进程linux,教菜鸟如何获得大量Linux肉鸡网站安全 -电脑资料
  8. 【ZYNQ】Petalinux 编译工程报错
  9. Kubeadm 快速搭建 k8s v1.24.1 集群(openEuler 22.03 LTS)
  10. 流水线生产,精益生产,TPS和TOC的缓冲管理