大数据概述

  • 大数据兴起的背景 --第三次信息化浪潮
    • 技术支撑
    • 数据产生方式的变革。
  • 什么是大数据?
    • 大数据特性
    • 大数据的几个来源
    • 大数据带来思维方式的转变:
    • 关键技术:
      • 典型计算模式

大数据兴起的背景 --第三次信息化浪潮

​​

技术支撑

  • 硬盘存储容量增加;

  • CPU计算速度提高;

  • 网络带宽不断增加。

数据产生方式的变革。


感知式系统阶段物联网的大规模普及。(物联网底层是感知层:RFID,摄像头,传感器)

物联网的兴起让我们迎来了大数据时代。

什么是大数据?

大数据是一个仁者见仁, 智者见智的宽泛概念. 关于大数据的定义有很多, 我们不妨拿来几个品读品读:

亚马逊大数据科学家John Rauser 认为大数据是任何超过一台计算机处理能力的数据量. (Big data is any amount of data that’ s too big to be handled by one computer)

在《大数据: 下一个创新, 竞争和生产率的前沿》中, 麦肯锡对大数据定义为: 所谓大数据, 主要是指无法在一定时间内用传统数据库工具对其内容进行获取, 存储, 管理和分析的数据集.

研究机构Gartner定义: 大数据是指需要新处理模式才能具有更强的决策力, 洞察发现力和流程优化能力的海量, 高增长率和多样化的信息资产.

维基百科对大数据的定义则简单明了: 大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。 就是说大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。

大数据大牛张富刚前辈说: 大数据是在短时间内快速地产生海量的, 多种多样的, 有价值的数据.

无论哪种定义, 都体现出了大数据的四大特性, 即4V–Volume(体量大),Velocity(速度快),Variety(多样化),Value(价值). 当然, 也有人认为是5V特性, 第五个V是Veracity(真实性).

大数据特性

  • 数据体量巨大. 数据量从TB级别跃升至PB

  • 处理速度快. 需对数据实时分析

  • 数据类别大. 由大量非结构化数据和少数结构化, 半结构化数据组成.

  • 价值密度低,商业价值高.

  • 数据真实性难辨识.

大数据的几个来源

  • 来自人类活动. 人们通过社会网络、互联网、健康、金融、经济、交通等活动过程所产生的各类数据,包括微博、病人医疗记录、文字、图形、视频等信息。

  • 来自计算机. 各类计算机信息系统产生的数据,以文件、数据库、多媒体等形式存在,也包括审计、日志等自动生成的信息。

  • 来自物理世界. 各类数字设备、科学实验与观察所采集的数据。 如摄像头所不断产生的数字信号,医疗物联网不断产生的人的各项特征值,气象业务系统采集设备所收集的海量数据等。

大数据带来思维方式的转变:

  • 全样而非抽样. 可以存储全部数据,而不用再去做抽样分析;

  • 效率而非精度. 抽样由于样本选取的不同精度有发生变化,全样分析误差是多少就是多少,不会被放大;

  • 相关而非因果. 只关注相关性,而非因果关系。

关键技术:

     两大核心:分布式存储,分布式处理。
  • 分布式存储:分布式数据库BigTable,分布式文件系统GFS

  • 分布式处理:分布式并行处理技术MapReduce

典型计算模式

  • 批处理计算(MapReduce,Spark实时性好于MapReduce)
  • 流计算——实时处理,实时响应,否则失去商业价值(S4,Storm,Flume)
  • 图计算——社交网络类数据(Google Pregel)
  • 查询分析计算(Google Dremel,Hive,Cassandra)

大数据(一) --大数据概述相关推荐

  1. 第一、二章大数据与Hadoop的概述

    目录 第一章:大数据的概述 1.1 大数据的概念 1.2 大数据的特征(重点) 1.3 大数据的应用场景 1.4 大数据的发展前景 1.5 企业大数据的一般工作流程 1.6 数据部门的组织架构​ 1. ...

  2. 大数据应用导论 Chapter1 | 大数据技术与应用概述

      大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  3. 大数据技术与原理 概述

    大数据概述: 大数据的发展历程: 第一阶段:萌芽期(20世纪90年代至21世纪初) 第二阶段:成熟期(21世纪前十年) 第三阶段:大规模应用期(2010年以后) 大数据的特点(简称4V): 数据量大 ...

  4. ICT技术发展趋势,AI、大数据和云计算的概述及存储应用技术【2】

    文章目录 ICT技术发展趋势 云计算存储应用技术 云计算概述 AI.大数据存储应用技术 大数据概述 ICT技术发展趋势 各行各业都在面临IT新技术的挑战,IT新趋势正在改变世界,基于数字世界重构规则. ...

  5. 大数据技术⑤ |大数据第1章·概述|第2章·大数据系统基础|21:50~22:22

    第1章 概述 1.简述大数据发展现状与历史 1.1.1国外发展现状 (1)国家及国际组织方面: 2009年,联合国就启动了"全球脉动计划". 2009 年至今, 美国Data.go ...

  6. 大数据入门-大数据技术概述(一)

    目录 大数据入门系列文章 1.大数据入门-大数据是什么 一.概念 二.技术详解 1.基础架构:Hadoop 2.分布式文件系统:HDFS 3.数据仓库:Hive 4.存储引擎:Kudu 5.分布式数据 ...

  7. 大数据概述:传统数据与大数据的区别

    传统数据处理介绍 数据来源: 1.企业内部管理系统 ,如员工考勤(打卡)记录. 2.客户管理系统(CRM) 数据特征: 1.数据增长速度比较缓慢,种类单一. 2.数据量为GB级别,数据量较小. 数据处 ...

  8. 大数据数据仓库建设流程概述

    数据仓库的逻辑分层架构: 想看懂数据仓库的逻辑分层架构,必须先弄懂以下4大概念. 数据源:数据来源,互联网公司的数据来源随着公司的规模扩张而呈递增趋势,同时自不同的业务源,比如埋点采集,客户上报,AP ...

  9. 网易惠惠购物助手:大数据实时更新框架概述

    一.需求是什么? 互联网中的许多应用都有数据实时更新的需求,比如网页搜索如何展示几分钟之前的新闻结果,购物搜索中价格.库存信息的实时更新.在大数据量的情况下,数据如何做到稳定及时的更新?本文以有道购物 ...

最新文章

  1. 异步通知是什么意思_一次相亲经历,我彻底搞懂了阻塞非阻塞、同步异步
  2. 谈谈机器学习模型的可解释性
  3. IP地址修改后ORACLE不能使用问题
  4. git rebase用法_Git入门实战
  5. OJ1068: 二进制数(C语言)
  6. MongoDB中的索引操作
  7. easypoi导入合并单元格_1分钟不到就能合并100个Excel工作表,这功能太强大了!...
  8. SharePoint Server 2016 部署安装(七)—— 配置SharePoint Server
  9. Windows Server 2012中的多元密策略
  10. 《达拉崩吧》扣哒世界版——在扣哒世界中学习编程
  11. 2015061004 - slf4和mysql,jdbc下载地址
  12. 推荐多款好看的报表图表配色方案(转载)
  13. Android开发者熬夜也要看完的25本中、高级工程师进阶必看书籍
  14. cpu对计算机性能的影响,雷神告诉你CPU制程对性能的影响有多大?
  15. Godot3游戏引擎入门之四:给主角添加动画(上)
  16. F1--DDR3的应用总结(二)-2021.11.29
  17. 《原力计划-打卡挑战》总榜名单揭晓!!
  18. TUV南德与重庆赛宝于四川签署合作协议并联合举办多国认证研讨会
  19. 第九章 科学、技术与工业
  20. 3D动作绑定_游戏建模大佬教你九招轻轻松松学会三维动画制作绑定技术

热门文章

  1. STM32进入低功耗模式以及唤醒(RTC+中断)
  2. 《python密码学编程》笔记
  3. 无人机倾斜摄影全景建模三维数字沙盘电子沙盘人工智能开发教程视频第7课
  4. python进程池(子进程)函数没有执行
  5. Linux树莓派开发——刷机
  6. klee-2.1安装(按照这个博客,闭着眼都能成功!)
  7. 1024程序员狂欢节,来领当当大额优惠券
  8. linux日志查看技巧
  9. 点击复制input内容
  10. Vera++ 默认Rules文件功能解读