大数据概念的升温,引来了很多争议。有人称之为“新瓶装旧酒”,也有人认为大数据的机遇被过于夸大。其实,这些都与没有真正理解大数据的本质有关。任何事物的发展都有其客观规律,大数据并非是“石头里蹦出来的孙悟空”,它也有自己的“亲生父母”——计算机科学和数据科学。正是由于两者的融合,以及生命科学、地理科学甚至社会科学等各领域数据化程度的加深,才使得大数据拥有不同寻常的“基因”。而且,随着互联网产业的成熟,物联网、云计算概念的落地,数据驱动创新观念的深入人心,大数据的用武之地将更为广泛,所能带来的变革潜力也将不可限量。

关于大数据,有如下几个重要判断和观点:

——大数据思维源于数据挖掘(Data Mining)又高于数据挖掘。也可以说,数据挖掘是大数据的“近亲”。数据挖掘借助计算机从海量数据中发现隐含的知识和规律,是一门融合了计算机、统计等领域知识的交叉学科,其核心的人工智能、机器学习、模式识别等理论,在上世纪90年代推行知识管理时已有显著进展。从本质上看,大数据带来的“思维大变革”以及一些数据驱动类的商业智能(Business Intelligence)模式创新,都是数据挖掘理论的延伸,表达为“数据挖掘相对于数理统计带来的思维变革”或许更加准确。比如,因果关系是数理统计中的重要内容,基于完善的数学理论,代表是回归模型;而相关关系是数据挖掘中的重要内容,基于强大的机器运算能力,代表是神经网络、决策树算法,这使得人们不需要了解背后复杂的因果逻辑也可以获得良好的分析和预测结果。但是,数据挖掘通常面向结构化数据。大数据则还涉及数据的采集、提取、转化、存储等,且必然要面对非结构化数据。

——大数据突破主要来自技术上的革新。表现在对多样(Variety)、海量(Volume)、快速(Velocity)特征的“适应”和“运用”上。一是存储数据从结构化向半结构化、非结构化拓展,如基于Web异构环境下的网页、文档、报表、多媒体等,导致了一批基于非结构化数据的专有挖掘算法的产生和发展。二是数据库从关系型向非关系型、分布式拓展,关系型数据库是以行和列的形式组织起来的结构化数据表,如Excel表格,缺点在于存储容量小、数据扩展性和多样性差,而新的非关系型、分布式数据库可以弥补上述不足。三是数据处理从静态向实时交互拓展,新的大规模分布式并行数据处理技术能够实时处理社交媒体和物联网应用产生的大量交互数据,有效应对多样和海量带来的复杂度和时效性要求。

——技术革新直接促成了价值(Value)的实现。得益于上述技术,数据挖掘理论获得了呈几何倍数增长的数据量和处理能力,原本很多无法验证的设想和方法得以实现。比如,传统商业智能(BI)分析有一个“集中”步骤,即在分析前需要对大量数据抽取和集中化,形成一个完整的数据仓库,这个步骤往往成为BI分析全过程的能力瓶颈。而基于大数据分布式技术的BI分析无需“集中”,大大提升了敏捷度和智能水平,从而推动机器学习、语义处理等领域发生重大突破,直接促成了Mahout机器学习算法集、Siri语音助手等一批商用化产品的问世。

——价值实现的潜力主要体现在数据开放战略和数据驱动范式上。在战略层面,数据处理从封闭、断点、静态向开放、海量、实时的转变,引发了社区、众包、网格等新业态、新模式蓬勃发展,在此基础上将推动机构数据开放和公众共享运动的兴起。在研究范式层面,科学研究出现从推理演绎驱动向数据驱动拓展的苗头,如生物基因与健康等研发密集型产业开始向数据研究科学拓展,许多传统的科学研究如历史、文学等也开始尝试运用数据分析技术。但上述重大变革目前尚未规模化实现,大数据现有技术水平的主要受益者仍然是互联网产业和各类基于互联网的商业模式。在信息基础设施普及率、社会开放性以及与网络智能交互技术的结合度没有达到一定能级时,大数据的应用是有限的,达不到面向社会的“无所不能”。

——互联网企业是当前大数据价值实现的推动者和直接受益者。由于互联网的发展在带动大数据概念兴起的过程中起到了重要作用,因此多家知名互联网企业顺势掌握了大数据相关核心技术,推出了关键产品和服务。如谷歌公司研发了大数据“三核心”——文件系统(Google File System)、处理算法(MapReduce)和分布式数据库(BigTable),打造了全球大数据开发的主流框架和范式。雅虎基于谷歌的算法思想,改进了Hadoop开源框架,向广大企业和创业者开放,推动产业生态系统的不断壮大;亚马逊、脸谱、推特等企业在此框架基础上开发各类功能性工具,并以数据为消费产品改善用户体验;而微软、IBM等传统IT企业在产业链上更多关注下游应用,为各行业客户提供系统解决方案。这些企业不仅可以从新技术产品和服务中获得可观的收入,还可以从占有的数据资源中获利。

——大数据有助于进一步明晰云计算的价值。在云计算概念刚被提出的几年里,许多政企行业用户对其应用价值一直存在疑虑。而随着大数据的异军突起,云计算的价值又一次受到公众的关注。由于云计算帮助解决了大数据无法进行抓取、管理和处理的问题,给予了它不同以往的存储和计算能力,使得结果获取更快速、分析更智慧。可以预见,在未来云计算将成为大数据应用分析最活跃的舞台。同样,大数据为云计算大规模与分布式的计算能力提供了应用的空间,解决了传统计算机无法解决的问题,从而进一步明晰了云计算的价值。

——需警惕大数据至上主义。大数据支持者的一个重要论断是:基于全量,大数据分析的准确性将超越传统数理统计,因果关系将为相关关系所取代。而事实并非如此乐观,一方面,经历四百年发展的传统数理统计没有过时,仍然在经济社会各方面发挥着重要作用。比如,抽样是一门古老且成熟的统计方法,如果目标明确、方法科学,其在绝大多数情况下得出结论的正确性,并不逊于全量数据。客观上看,全量的价值更多体现在一些传统数理统计基本假设可能失效之处,如互联网“长尾”现象的出现,导致正态分布、帕累托法则在个别领域不再适用,此时需要依靠全量数据寻求规律。另一方面,全量伴生的“噪音”有时会影响精准度。例如,被誉为大数据杰出案例的“谷歌流感趋势”近期陷入低谷,错误率高达90%以上,不能预测甲型H1N1等重大疫情。它的核心逻辑是:搜索“流感”的人数与实际患症的人数之间存在相关性,而事实上,即便去医院看流感的人都有80%—90%实际没有得流感,表面的网络搜索行为与可靠的信息来源还存在较大差距以及“去噪”过程。很多专家认为,就目前而言,相关关系还不足以替代因果关系,而只是作为其补充。

转自:科学理性拨开大数据的神秘外衣
http://bbs.chinacloud.cn/showtopic-22531.aspx

转载于:https://blog.51cto.com/yangxianhong/1542968

科学理性拨开大数据的神秘外衣相关推荐

  1. 赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 - 电子书下载 -(百度网盘 高清版PDF格式)...

    赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美-[美]查尔斯·韦兰 在线阅读                   百度网盘下载(bkgy) 书名:赤裸裸的统计学:除去大数据的枯燥外衣,呈现真 ...

  2. 生命天书”破译20年,生命科学由此走向“大数据时代”

    生命天书"破译20年,生命科学由此走向"大数据时代" 文汇客户端 2021-07-18 10:33:13 今年是人类基因组草图公布20周年.2001年,被称为破译&quo ...

  3. 如何学习大数据,到底怎么学?数据科学概论与大数据学习误区在哪

    数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知." 最近不少网友向我咨询如何学习大数据技术?大数据怎么入门?怎么做大数据分析?数据科学需要学习那些技术?大数据的应用前景等等问 ...

  4. 大数据到底怎么学: 数据科学概论与大数据学习误区

    数据科学家走在通往无所不知的路上,走到尽头才发现,自己一无所知."-Will Cukierski,Head of Competitions & Data Scientist at K ...

  5. 数据科学 怎样进行大数据的入门级学习?

    转:数据科学 怎样进行大数据的入门级学习? 数据科学并没有一个独立的学科体系,统计学,机器学习,数据挖掘,数据库,分布式计算,云计算,信息可视化等技术或方法来对付数据. 但从狭义上来看,我认为数据科学 ...

  6. 不动产登记 科学用好大数据

    就法理核心而论,不动产登记可视为<物权法>的延伸.认识到不动产登记的全局性.基础性的意义更加重要. 昨日,国务院正式公布<不动产登记暂行条例>全文,自明年3月1日起施行.新规对 ...

  7. 数据科学 vs. 大数据 vs. 数据分析:定义,内涵,应用,所需技能

    什么是数据科学? 什么是大数据? 什么是数据分析? 数据科学的应用 大数据的应用 数据分析的应用 成为数据科学家所需的技能 成为大数据专家所需的技能 成为数据分析师所需的技能 薪资趋势 结论 数据无处 ...

  8. 王曦:大数据人工智能中的运筹与决策科学

    大数据时代,拥有庞大的数据量不再是制胜的关键,更需要关注用大数据分析所支持的决策.运筹与决策科学正是大数据人工智能的一个核心概念,大数据与决策相辅相成,人工智能离不开运筹学的支持. 王曦:杉数科技联合 ...

  9. hahabet05-com:大数据与数据科学课程体系--哈哈电竞

    一. 大数据与数据科学专业 二. 大数据与数据科学培养的主要人才 大数据与数据科学主要培养大数据应用分析师.大数据系统工程师.大数据算法研究员几大类,猫先生官网登录搜hahabet每个大类下又可以根据 ...

最新文章

  1. 【AI】在win10上安装TensorFlow2,安装成功,但是import tensorflow时报错:pywrap_tensorflow.py“, line 58
  2. 深度学习:技术原理、迭代路径与局限
  3. 记录输入框本地记录用户名效果
  4. 地雷会炸到自己吗_回顾自己曾经的往事 ——记双语学习有感
  5. [leetcode] 5342. 最多可以参加的会议数目
  6. Http协议以及Httpclient
  7. Oracle从非归档模式变成归档模式
  8. C# 控制台、接口、窗体使用BarTender打印标签 (亲测可用)
  9. 坚果pro2刷回官方_坚果Pro2刷机教程刷TWRP面具详细步骤_软件开发_IT综合服务
  10. LDAP学习小结【仅原理和基础篇】
  11. 集团企业税务管理浅析
  12. 数字排在最前,英文字母其次,汉字则按照拼音进行排序,获取中文首字母
  13. java与c#哪个用得多_Java和c#哪个更值得学习?
  14. 基于阿里云的智能插座——(立创EDA项目)
  15. 8000 sentences of oral English(four)
  16. 数据库价格汇总查询的方法
  17. 我的世界java版骷髅_我的世界:击杀凋灵骷髅,才会掉落“凋灵头”?听起来有些不靠谱...
  18. word密码破解工具
  19. python处理csv文件里的空值_如何处理csv中的空值
  20. 计算机应用大赛一等奖,全国xx杯计算机应用基础类说课大赛一等奖作品说课精品模板.ppt...

热门文章

  1. Backup Retention Policies
  2. 高级软件架构师实战培训阶二
  3. 第一天了说说什么呢~
  4. 利用 iCloud Drive 来同步 Xcode 配置
  5. win10计算机默认用户名和密码是什么,win10共享的文件夹需要密码和用户名登陆...
  6. js charcodeat java_JavaSacript中charCodeAt()方法的使用详解
  7. 计算机在材料科学与工程中的应用试题,计算机在材料科学与工程中的应用.doc...
  8. 向量和矩阵的点乘和叉乘
  9. 一样降价出售,而是干脆地从苹果的产品线中去除掉
  10. 深入理解CSS之 如何使子元素撑宽 设置了 block 的父元素