一、大数据的概念?

“大数据”是一个还未给出严格定义的概念,是相较于过去小的、局部性的、抽样的数据而言的。因此大数据进行分析和工作时,依赖的是完整的、全面的相关数据。维克托在书中给出的三个转变描述了大数据的特征:

  1. 在大数据时代,我们可以分析更多的数据,有时候甚至可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。例如一项针对相扑比赛中非法操纵比赛结果的研究对64000场比赛进行了分析,这算不上一个很大的数字,但由于这是过去十年所有的比赛,所以它是大数据。
  2. 由于有了更多的数据,我们可以接受更多的混杂、更多数据上的不精确。如果我们对于一个事物只有50个数据点,那么每一个数据点都必须非常精确,因为每个数据点都是有用的;但是如果我们有5000万个,去掉10个,甚至去掉1000个都没有太大的问题。
  3. 转变探求费时费力的因果关系,进而关注事物的相关关系。知道“是什么”,而不费力探究“为什么”。因为很多时候我们以为我们找到了事情背后的原因,实际上却没有找到。更多时候知道了“是什么”就足够了。例如知道流感将会扩散到哪里就足够了,我不需要知道为什么;知道什么时候在网上购买机票能够获得最优惠的价格就足够了,我不需要知道为什么此时价格最低。

二、大数据带来的冲击

(1) 科学研究的方法面临挑战

科学研究的基本路径是:发现问题 -> 提出假设 -> 制定方案 -> 实践探究-> 分析数据 -> 得出结论。之所以会梳理出这样一个探究的路径,与我们对问题知晓的信息过少有关。换句话说,对所要研究的事物,我们知道的数据很少,需要从这些很小的数据出发,通过猜想和假设,进行试探性的研究,如果研究得出的结果和自己的假想是一致的,则说明我们的假说是正确的,这些假说会上升为对该事物描述的知识,我们掌握该事物的数据也随之增加。

利用测量所获得的点滴数据,从一个局部来推测世界是怎样的,这是科学探究的基本思路和方式。长期以来,我们总是通过这样的方式来认识世界,对其有宗教般的信仰。尽管我们知道,决策者总是先有了想法,才会提出假设。如果决策者自身对所研究的事情存在着偏见,所提出的假设就很难得到实证的支持,这往往会导致探究花费了很长的时间、很大的物力和财力,也常常劳而无功。但科学研究者还是坚定不移地沿着这条道路前行,学校在教学中也将其作为科学研究的基本规范来传授。

在大数据时代,这样的研究方式收到了极大的挑战。先举个事例来说吧。手机辐射是否能够致癌?关于这个问题,无论我们的假设如何,实验的设计都很难进行。首先,样本选择过少,没有统计学上的意义;其次,不能拿人做研究对象;第三,短时间的研究很难观察到变化。有了大数据之后,这样的难题就可以迎刃而解。前段时间,丹麦就进行了这样的研究。丹麦拥有1985年手机推出以来所有手机用户的数据库。他们从这个数据库中分析了1990年至2007年拥有手机的所用用户的数据,同时,他们还收集了这一期间医院收集的所有癌症患者的数据,然后分析手机用户是否比非手机用户有更高的癌症发病率。这两个数据库本身是完全独立的,在作分析之前从来没有想过可以做这样的研究。结果表明,使用移动用户和癌症风险增加之间不存在任何关系。2011年10月,这一研究的结果发表在《英国医学杂志》上。

上述的案例告诉我们,在获得了大量的数据,能够对事物的整体进行全面的认识之后,假想就没有意义了,我们可以直接根据全面的数据做出结论

(2) 因果思维面临转变

人们在生活中总是试图用因果去认知和解释所有现象。比如说,1885年7月6日,巴斯德接诊了一个被带有狂犬病毒的狗咬伤的孩子,他把自己刚研制出来的狂犬疫苗给孩子注射,结果孩子活下来了。巴斯德的这一举措,使得狂犬疫苗和孩子的生存之间建立起了一个因果关系。但事实上,人被狂犬病狗咬伤后换上狂犬病的概率是只有七分之一,就算没有狂犬疫苗,这个孩子活下来的几率还是有85%。

在哲学界,关于因果关系的争论已经持续了几个世纪。争论的焦点在于:如果因果关系是普遍存在的,每一个果都有一个因和他相对应,世界上的所有事情都有因果的话,我们就没有决定任何事情的自由了。尽管哲学领域的争论很热烈,但并不耽误人们在日常生活中通过因果关系来思考问题。不仅如此,由于掌握的数据过少,人们还容易从线性关系的角度找寻事物之间的因果关系。在物理学中,有一种处理数据的方式是“化曲为直”,设法找到两个变量之间的线性因果关系,从而进行定量的描述。事实上,由于很多事情之间的关系是很复杂的,简单的线性处理容易导致人们对事物本质属性的误解。在大数据时代,相关关系比因果关系重要。

2009年甲型H1N1流感发生之后,美国的卫生系统极力想从因果关系上来找到流感的源头,但信息反馈的速度太慢,让专家们束手无策。谷歌公司做出了快速反应,把5000万条美国人最频繁检索的词条和美国疾控中心在2003年至2008年间季节性流感传播时期的数据进行比较,研究特定检索词条的频繁使用与流感在时间和空间上的传播之间的联系,很快就确定了流感是从哪个地方传播出来的。谷歌采取的就是相关关系分析的方法,而不是因果关系分析的方法。这是大数据时代,对数据进行处理的一种典型方法。

注意:大数据时代不是摒弃因果关系,而是平衡因果关系和相关关系。因果关系是建立在相关关系上的更为复杂的自然规律。

三、数据化比数字化更加重要

数字化是将模拟数据转化成0和1的二进制码,以便电脑进行数据处理的过程。过去的很长时间,我们所做的事情,就是对文本进行数字化。很多书籍包括教材,通过PDF等格式,变成了数字形态的资料,存入了电脑或者网路之中。

但是,这些数字化的资料要查询起来并不方便。首先你要知道所需的资料在那本书中,其次你还要仔细地去翻阅这些数字化的资源,以便找到你所需要的信息。这和到书本里去找没有本质的区别。

如果这些数字文本能够被数据化,文本中的字、词和段落能够一一被识别,利用搜索殷勤加以检索就会方便很多。所谓数据化就是将一种现象转化为可以制表分析的可量化的过程,量化,是数据化的核心。信息只能被数据化,其巨大的潜在价值才有可能被释放出来。

数字化带来了数据化,但数字化不能替代数据化。今天,很多学校都在进行“电子书包”的课程教学实践,但有不少实践者认为,所为电子书包,就是将纸质的课本和教辅资料数字化,装入电脑中让学生上课中使用,这其实是对电子书包最大的误解。电子书包的核心在于数据化,要通过对学生学习过程所记录的大数据分析,把握学生的个性化学习特征,以便给予更有针对性的指导。

有待补充:旧数据的保值与加工

四、大数据应用:教育行业如何顺应大数据潮流

1,教育内容要进行革新。大数据使得传统的因果思维方式、科学研究方式不再是生活、工作起主导地位的方式,这必然要求我们在教学中要将这些变化和学生讲清楚,以便他们能够在今后走上社会的时候有足够的能力迎接挑战。

2,教学方式要进行革新。过去的教学,因为没有大量数据的支撑,该教什么全凭教师自己跟着感觉走。今天,我们可以将教师的教学视频挂在晚上,通过深度分析学生在观看视频的过程中在哪些地方停顿或者重放的频次比较高,来找出学生不明确或者课程吸引人的地方,帮助教师改进教学、确定教学重点。这必然导致教师教学方式的变革。

3,学习路径会发生变化。在过去,如果你想成为一个优秀的生物学家,一定要认识很多生物学家。今天,要解决一个生物难题,可能与天体物理学家或者数据视图设计师联系就可以实现。

4,要防止对数据的痴迷。一方面,我们要研究学校长期以来储存下来的大量数据,同时积累学校每天的教育数据,为进入大数据时代做好充分的思想准备;另一方面,要唤醒学校里沉睡的数据,让其在学校管理和教师教学中发挥更大的作用;再一方面,也要防止出现另一个极端,那就是对数据的痴迷。能仅仅为了收集数据而收集数据,要让数据在如何全面反映一个学生的能力、全面反映教师的教育质量等方面做出实践和探索。

《大数据时代》 概要相关推荐

  1. 云计算:大数据时代的系统工程

    很多人觉得云计算应该是个具体的事物,所以初听到云计算时,总会先问一句:"什么是云计算"? 什么是云计算?问的人轻松,回答的人却很费力,仿佛描绘一种味觉,感觉强烈,却不知如何抓住要领 ...

  2. 解铃还须系铃人—大数据时代的安全交给大数据

    从2008年大数据的概念提出之后,经过近几年的发展大数据已经不再是一个被炒作的概念.金融.物流.能源等行业对大数据的拥抱愈发紧密.不过随着大数据的普及,各种组织机构的网络安全,也受到了前所未有的威胁挑 ...

  3. 大数据时代的小数据会消亡吗(非原创)

    大数据时代的小数据会消亡吗 苏令银 上海师范大学马克思主义学院 上海师范大学经济伦理研究中心 摘 要: 在过去的几个世纪,学术知识的构建普遍使用小数据并取得了巨大进步,其特征是为回答特定问题而生成的抽 ...

  4. 郭为:大数据时代的企业管理挑战

    互联网时代,创新使得财富积累的速度前所未有的快,贫富不均也前所未有地分化.这个时代,世界的竞争变成人与人的竞争,人与人的竞争就是智慧的竞争,就是人的创新能力的竞争.如何才能提高人的竞争力,是管理科学面 ...

  5. 大数据时代涉军网络舆情引导的“5个结合”

    随着信息技术发展,大数据构成了一种新的传播技术环境,重塑了网络舆情生态,给社会舆情体系带来了重大而深刻的变化,使网络舆情在整个社会舆情体系中地位更加凸显.作用更加突出.必须从维护国家政治安全的高度,深 ...

  6. 柯南君:看大数据时代下的IT架构(5)消息队列之RabbitMQ--案例(Work Queues起航)...

    二.Work Queues(using the Java Client) 走起 在第上一个教程中我们写程序从一个命名队列发送和接收消息.在这一次我们将创建一个工作队列,将用于分发耗时的任务在多个工作者 ...

  7. 大数据时代下的新生态、新洞察、新趋势 | 神策 2019 数据驱动大会

    10 月 22 日,以"矩•变"为主题的神策 2019 数据驱动大会在北京维景国际大酒店顺利举行,来自全球大数据各大行业的领袖人物聚首北京,融合国际前沿技术与行业实践,深入探讨大数 ...

  8. 大数据时代,谁的眼神锁定你?

    数据时代当前,欢迎来到楚门的世界. 双十一余韵未歇,刚处理完一波售后及退件等"剁手后遗症"的各方人马也已经为再战双十二做好了准备.截至 12 日零点,天猫双十一成交额达 2135 ...

  9. 在目前大数据时代下,怎么能成为一名合格的数据分析师

    "21世纪什么最贵,人才",在目前大数据时代下,什么最难找,什么最贵,实现数据价值的人,数据分析师. 但是对于数据分析师的认识,比较极端,但对数据分析师价值的认识正在回归理性.很多 ...

最新文章

  1. 鸟哥的linux私房菜-文件压缩于打包-2
  2. 《极速切水果游戏》有Python版了,曾风靡一时的手游能否富过“二代”?
  3. vmware workstation 安装 fedora9+ vmware tools血泪史啊
  4. QQ2007退出市场
  5. oracle dbfile数,通过案例学调优之--Oracle参数(db_file_multiblock_read_count)
  6. 数据装载指定一张表或者多张表直接装载到目标表_10
  7. mysql数据库集群架构图_搭建MySQL-Cluster集群架构
  8. 简单介绍.Net3.0 中跨线程访问控件
  9. sonic云真机linux分布式部署
  10. jQuery boxy弹出层插件中文演示及讲解
  11. PID控制器的离散化推导及其C语言实现
  12. 曹金明:Zynga大败局--数据控是如何把游戏做败的
  13. 浅谈JavaScript、ES5、ES6 ,,转自http://www.cnblogs.com/lovesong/p/4908871.html
  14. 主板各种插针接口与机箱(电源)的接法
  15. 开关电源buck电感、电容选择
  16. FAT32文件删除与恢复
  17. 机器学习系列(8)_回归算法,支持向量机
  18. 霍营到北土城时间记录
  19. linux多系统引导管理,Linux 多重引导MBR与系统引导管理器GRUB.docx
  20. linux启动mysql1820_linux下安装mysql的问题解决

热门文章

  1. iSpring SDK 10 Crack!iSpring SDK NEW @ 2022定格!
  2. 安装McAfee EPO 5.10.0
  3. 阿里云天池大赛赛题解析——机器学习篇 | 留言赠书
  4. Python制作植物大战僵尸,赶快来试试吧
  5. Potplayer快速裁取视频(适用截取比较短的视频)
  6. 如何搞定会计人员头疼的固定资产盘点?
  7. 前端中的hack是什么意思?常见的hack技术以及以及hack技术的利弊
  8. 均衡教育计算机室整改方案,义务教育均衡发展工作存在的问题整改方案.docx
  9. ZYNQ开发之PL-PS中断
  10. 服务器装系统提示获取分区失败,u盘装系统时获取硬盘分区失败怎么办