大数据(一) --大数据概述
大数据概述
- 大数据兴起的背景 --第三次信息化浪潮
- 技术支撑
- 数据产生方式的变革。
- 什么是大数据?
- 大数据特性
- 大数据的几个来源
- 大数据带来思维方式的转变:
- 关键技术:
- 典型计算模式
大数据兴起的背景 --第三次信息化浪潮
技术支撑
硬盘存储容量增加;
CPU计算速度提高;
网络带宽不断增加。
数据产生方式的变革。
感知式系统阶段物联网的大规模普及。(物联网底层是感知层:RFID,摄像头,传感器)
物联网的兴起让我们迎来了大数据时代。
什么是大数据?
大数据是一个仁者见仁, 智者见智的宽泛概念. 关于大数据的定义有很多, 我们不妨拿来几个品读品读:
亚马逊大数据科学家John Rauser 认为大数据是任何超过一台计算机处理能力的数据量. (Big data is any amount of data that’ s too big to be handled by one computer)
在《大数据: 下一个创新, 竞争和生产率的前沿》中, 麦肯锡对大数据定义为: 所谓大数据, 主要是指无法在一定时间内用传统数据库工具对其内容进行获取, 存储, 管理和分析的数据集.
研究机构Gartner定义: 大数据是指需要新处理模式才能具有更强的决策力, 洞察发现力和流程优化能力的海量, 高增长率和多样化的信息资产.
维基百科对大数据的定义则简单明了: 大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。 就是说大数据是一个体量特别大,数据类别特别大的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。
大数据大牛张富刚前辈说: 大数据是在短时间内快速地产生海量的, 多种多样的, 有价值的数据.
无论哪种定义, 都体现出了大数据的四大特性, 即4V–Volume(体量大),Velocity(速度快),Variety(多样化),Value(价值). 当然, 也有人认为是5V特性, 第五个V是Veracity(真实性).
大数据特性
数据体量巨大. 数据量从TB级别跃升至PB
处理速度快. 需对数据实时分析
数据类别大. 由大量非结构化数据和少数结构化, 半结构化数据组成.
价值密度低,商业价值高.
数据真实性难辨识.
大数据的几个来源
来自人类活动. 人们通过社会网络、互联网、健康、金融、经济、交通等活动过程所产生的各类数据,包括微博、病人医疗记录、文字、图形、视频等信息。
来自计算机. 各类计算机信息系统产生的数据,以文件、数据库、多媒体等形式存在,也包括审计、日志等自动生成的信息。
来自物理世界. 各类数字设备、科学实验与观察所采集的数据。 如摄像头所不断产生的数字信号,医疗物联网不断产生的人的各项特征值,气象业务系统采集设备所收集的海量数据等。
大数据带来思维方式的转变:
全样而非抽样. 可以存储全部数据,而不用再去做抽样分析;
效率而非精度. 抽样由于样本选取的不同精度有发生变化,全样分析误差是多少就是多少,不会被放大;
相关而非因果. 只关注相关性,而非因果关系。
关键技术:
两大核心:分布式存储,分布式处理。
分布式存储:分布式数据库BigTable,分布式文件系统GFS;
分布式处理:分布式并行处理技术MapReduce。
典型计算模式
- 批处理计算(MapReduce,Spark实时性好于MapReduce)
- 流计算——实时处理,实时响应,否则失去商业价值(S4,Storm,Flume)
- 图计算——社交网络类数据(Google Pregel)
- 查询分析计算(Google Dremel,Hive,Cassandra)
大数据(一) --大数据概述相关推荐
- 第一、二章大数据与Hadoop的概述
目录 第一章:大数据的概述 1.1 大数据的概念 1.2 大数据的特征(重点) 1.3 大数据的应用场景 1.4 大数据的发展前景 1.5 企业大数据的一般工作流程 1.6 数据部门的组织架构 1. ...
- 大数据应用导论 Chapter1 | 大数据技术与应用概述
大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
- 大数据技术与原理 概述
大数据概述: 大数据的发展历程: 第一阶段:萌芽期(20世纪90年代至21世纪初) 第二阶段:成熟期(21世纪前十年) 第三阶段:大规模应用期(2010年以后) 大数据的特点(简称4V): 数据量大 ...
- ICT技术发展趋势,AI、大数据和云计算的概述及存储应用技术【2】
文章目录 ICT技术发展趋势 云计算存储应用技术 云计算概述 AI.大数据存储应用技术 大数据概述 ICT技术发展趋势 各行各业都在面临IT新技术的挑战,IT新趋势正在改变世界,基于数字世界重构规则. ...
- 大数据技术⑤ |大数据第1章·概述|第2章·大数据系统基础|21:50~22:22
第1章 概述 1.简述大数据发展现状与历史 1.1.1国外发展现状 (1)国家及国际组织方面: 2009年,联合国就启动了"全球脉动计划". 2009 年至今, 美国Data.go ...
- 大数据入门-大数据技术概述(一)
目录 大数据入门系列文章 1.大数据入门-大数据是什么 一.概念 二.技术详解 1.基础架构:Hadoop 2.分布式文件系统:HDFS 3.数据仓库:Hive 4.存储引擎:Kudu 5.分布式数据 ...
- 大数据概述:传统数据与大数据的区别
传统数据处理介绍 数据来源: 1.企业内部管理系统 ,如员工考勤(打卡)记录. 2.客户管理系统(CRM) 数据特征: 1.数据增长速度比较缓慢,种类单一. 2.数据量为GB级别,数据量较小. 数据处 ...
- 大数据数据仓库建设流程概述
数据仓库的逻辑分层架构: 想看懂数据仓库的逻辑分层架构,必须先弄懂以下4大概念. 数据源:数据来源,互联网公司的数据来源随着公司的规模扩张而呈递增趋势,同时自不同的业务源,比如埋点采集,客户上报,AP ...
- 网易惠惠购物助手:大数据实时更新框架概述
一.需求是什么? 互联网中的许多应用都有数据实时更新的需求,比如网页搜索如何展示几分钟之前的新闻结果,购物搜索中价格.库存信息的实时更新.在大数据量的情况下,数据如何做到稳定及时的更新?本文以有道购物 ...
最新文章
- 异步通知是什么意思_一次相亲经历,我彻底搞懂了阻塞非阻塞、同步异步
- 谈谈机器学习模型的可解释性
- IP地址修改后ORACLE不能使用问题
- git rebase用法_Git入门实战
- OJ1068: 二进制数(C语言)
- MongoDB中的索引操作
- easypoi导入合并单元格_1分钟不到就能合并100个Excel工作表,这功能太强大了!...
- SharePoint Server 2016 部署安装(七)—— 配置SharePoint Server
- Windows Server 2012中的多元密策略
- 《达拉崩吧》扣哒世界版——在扣哒世界中学习编程
- 2015061004 - slf4和mysql,jdbc下载地址
- 推荐多款好看的报表图表配色方案(转载)
- Android开发者熬夜也要看完的25本中、高级工程师进阶必看书籍
- cpu对计算机性能的影响,雷神告诉你CPU制程对性能的影响有多大?
- Godot3游戏引擎入门之四:给主角添加动画(上)
- F1--DDR3的应用总结(二)-2021.11.29
- 《原力计划-打卡挑战》总榜名单揭晓!!
- TUV南德与重庆赛宝于四川签署合作协议并联合举办多国认证研讨会
- 第九章 科学、技术与工业
- 3D动作绑定_游戏建模大佬教你九招轻轻松松学会三维动画制作绑定技术