张亚勤表示,大数据具有高容量、高速度、多类型等“3V”的特点,应用大数据发挥价值包括数据的管理、数据的扩充、数据的呈现三个层面。

大数据的3V

  张亚勤表示,讲到大数据3个V,一个是Volume,数据容量越来越大,第二个是 Velocity,数据量增长越来越快,需要处理的速度和响应的时间越来越快,对系统的延时要求相当高。第三个就是各种各样类型的数据,过去的数据更多的是结构化的,现在越来越多的数据是半结构,甚至是完全没有结构的数据,从企业里来的、从互联网来的,从用户来的各种各样的数据都大量进入我们的服务器、进入数据中心,所以这里面产生了很多的挑战,这么多数据怎么样把它变成信息,怎么样把信息变成知识,把知识变成决策,这就需要有更多的很好的数据处理能力。

  面对这样的挑战,张亚勤认为,我们需要更多人从事一个叫数据科学家的职业,这些人需要有计算机科学的背景,需要有很强的数学背景,也需要有很强的统计学背景,要对大量的数据进行这样的处理、逻辑的分析和结构化的呈现。

  挖掘大数据价值的三个层面

  张亚勤表示,大数据包括三个层面。首先是数据的管理,对各种来自不同的地方、不同的大小的数据,都进行采集和管理,这里面有实时的数据,也有非实时的数据。第二个层次,是数据的扩充,怎么样去挖掘、推荐、转换、清洗、按摩、分享和控制,这就是传统的ETL流程。第三个层次,就是怎么样把数据很好地呈现出来,用好的工具,大家获得更直觉的洞察力。

  微软的数据平台根据这样的职能,也分成三个不同的层次。这里面比较重要的,就是我们可以接收各种各样的数据,在物理层次,有企业的、有IOT传感器的、有从网络里面经过爬虫收集的数据。有了这些数据之后,根据数据不同的种类,如果是企业数据,我们有微软的数据仓库来进行处理。如果这个数据也可以到公有云,也可以到私有云,那我们支持大数据的平台是基于Hadoop,Hadoop是开源平台。在处理之后,上面是商业的智能平台,当然,最上面一层是好的可视化呈现的工具,包括 PowerView等等,就可以消化这些数据。

  不过,张亚勤表示,谈到大数据,我们就遇到一个挑战,Hadoop可能对于处理大数据很有效,但是对流数据、实时的数据就不太有效,所以微软开发了对于半实时、或者实时的软件,这个流数据可以去实时地处理。这里面对于数据库的要求都完全不一样,所以,我们要有大量处理并行数据、流数据的能力。

转载于:https://www.cnblogs.com/BinbinChen/articles/3399942.html

大数据的3V和三个层面相关推荐

  1. 企业大数据规划需要的三种能力和五个步骤

    企业大数据规划需要的三种能力和五个步骤 大数据规划有五个步骤,首先从业务驱动的角度,相关部门选择要解决和产生的业务场景.针对需求处理和采取整合这些场景需要的大数据.当然选择的重点是怎么使信息快速产生价 ...

  2. 盘点全球最热十家大数据公司中国占三席

    文章讲的是盘点全球最热十家大数据公司中国占三席,近两年来,大数据发展浪潮席卷全球.研究机构IDC预测,全球大数据与分析市场规模将由2015年的1220亿美元,在5年间成长超过50%,并在2019年底达 ...

  3. 盘点全球最热门十家大数据公司中国占据三席

    免费开通大数据服务:https://www.aliyun.com/product/odps 近两年来,大数据发展浪潮席卷全球.研究机构IDC预测,全球大数据与分析市场规模将由2015年的1220亿美元 ...

  4. 大数据技术基础实验三:HDFS实验——部署HDFS

    大数据技术基础实验三:HDFS实验--部署HDFS 文章目录 大数据技术基础实验三:HDFS实验--部署HDFS 一.前言 二.实验要求 三.实验原理 1.什么是HDFS? 2.HDFS的体系结构 3 ...

  5. Python +大数据-hadoop生态-hadoop(三)--Hadoop HDFS

    Python +大数据-hadoop生态-hadoop(三)–Hadoop HDFS 今日课程学习目标 理解分布式文件存储的概念与实现 掌握HDFS分块存储.副本机制等特性 学会shell操作HDFS ...

  6. 大数据HiveSQL学习笔记三-查询基础语法以及常用函数

    大数据HiveSQL学习笔记三-查询基础语法以及常用函数 一.基础语法 1.SELECT -列名- FROM -表名- WHERE -筛选条件- 如:需要根据城市,性别找出匹配的10个用户 user_ ...

  7. Python+大数据-数据处理与分析(三)-数据清洗

    Python+大数据-数据处理与分析(三)-数据清洗 1. 数据组合 1.1 数据聚合简介 在动手进行数据分析工作之前,需要进行数据清理工作,数据清理的主要目标是: 每个观测值成一行 每个变量成一列 ...

  8. 大数据可视化常见的三种错误

    可视化是获取并分享观点的绝佳途径,但很多大数据团队却没能选对正确的方式.可视化怎么会出现问题?原因很简单,因为存在多种可能破坏数据可视化效果的实施方式.下面我们就一同来探讨最为常见的三种错误实践. 错 ...

  9. 大数据面试常见问题(三)——Hadoop部分

    目录 1.hive数据库和其他的数据库有什么区别? 2.传统数仓和大数据数仓的区别 3.你们使用的hadoop是什么环境什么版本的? 4.分桶的作用是什么? 5.分桶的数量你是如何决定的? 6.hiv ...

最新文章

  1. 图解 Elasticsearch 原理
  2. c++ standard library_什么是C/C++的标准库?
  3. python 解析xml 文件: SAX方式
  4. Leetcode--128. 最长连续序列
  5. 2021全球权威AI性能竞赛MLPerf最新榜单: 浪潮获18项冠军几近半壁江山
  6. ctf-HITCON-2016-houseoforange学习
  7. docker web程序本地化_想要成为前端Star 吗?一首歌时间将React / Vue 应用Docker 化...
  8. Linux 操作系统下常见信号详解
  9. ECNU 3263 丽娃河的狼人传说(差分约束)
  10. 怎么设置Linux swap分区?方法教程
  11. 中控指纹考勤机软件登录用户名和密码忘记的解决办法
  12. unity虚拟摇杆控制的实现
  13. matlab灰度直方图均衡化_图像的灰度直方图、直方图均衡化、直方图规定化(匹配)
  14. SDM439平台出现部分机型SD卡不能识别mmc1: error -110 whilst initialising SD card【学习笔记】...
  15. Flask:工厂函数和蓝本
  16. php 邮件群发功能,php实现邮件群发
  17. 【蓝桥杯省赛真题32】Scratch帆船运动 少儿编程scratch蓝桥杯省赛真题讲解
  18. 02-windows调试工具(DebugDiag使用)
  19. 泽塔云:紧盯用户需求,用差异化竞争和技术创新赢得超融合云计算市场
  20. 使用VS2015 VC++第一步 写一个hello world程序

热门文章

  1. final finally finalize 的区别
  2. 微信小程序红包开发 小程序发红包 开发过程中遇到的坑 微信小程序红包接口的...
  3. Chapter 2 Open Book——16
  4. 程序员生存定律--编程的起点与可能的失足
  5. 自行架设DNS的操作步骤及相关说明
  6. NSArray,NSSet,NSDictionary总结 (转)
  7. 牛客练习赛39 B:选点(二叉树遍历+LIS)
  8. 在C#中,Json的序列化和反序列化的几种方式总结
  9. Thinkphp5创建控制器
  10. [BZOJ3631][JLOI2014]松鼠的新家