第二章大数据技术概述
大数据技术的产生
海量数据的产生:
- 来自大人群互联网
- 来自大量传感器机械
- 科学研究及行业多结构专业数据
大数据的基本概念
大数据的定义:无法在一定时间内用常规软件工具对其内容进行抓捕、管理和处理的数据集合
经典案例:啤酒与尿布、谷歌与流感。
大数据的范围:采集、存储、搜索、共享、传输、分析和可视化
大数据产生的原因
(1)信息技术的飞速发展,是大数据产品的技术基础
在互联网技术的技术上,产生物联网技术、无线互联技术、无线传感技术不断推行了物联网、移动互联网和传感器网络的飞速发展,各个网络都在持续不断的产生和传播数据。另外数据抓取技术可以使人们方便地获取数据;并行处理技术的发展,极大地提升了海量数据的处理能力和处理效率;容量、高可靠的存储技术,可以让人们更多、更快地存取数据。
(2)数据产生方式的多元化,是大数据产生的数据基础
全世界网民成为数据的生产者,每一个网民就是一个信息系统不断地制造数据。
(3)企业思维转变,是大数据产生的内在动力
企业开始注重于企业内外部数据挖掘,在海量的数据中搜索出隐藏的规律和价值,从而为决策者提供更好的参考。大数据时代的到来,人类对于数据的搜索和利用能力得到了巨大的提升,主要表现在企业大数据的挖掘上。
大数据概念的提出
1887-1890年:电功器 |
1944年:预见大数据 |
1997年:用大数据描述超级计算机产生的大量信息 |
2003-2006年:谷歌提出大数据可重用方案 |
2008年:提出大数据概念 |
2009年:大数据逐渐走进互联网 |
2012年:大数据成为一种新的资产类别 |
2013年:大数据元年 |
第四范式——大数据对科学产生的影响
第一范式:实验
第二范式:理论
第三范式:计算
第四范式:数据
大数据的4V特征
一、大量化
- 存储量大
- 增量大
二、多样化
1.来源多
1)搜索引擎
2)社交网络
2.格式多
1)结构化数据
2)非结构化数据
三、快速化
四、价值密度低
企业推动大数据行业发展
- 腾讯
- 华为
- 谷歌
- 阿里
- 数据库
- ETC
大数据的关键技术
一、大数据预处理技术
1.数据采集
2.数据存储
3.基础架构支持
4.计算结果展示
二、大数据存储技术
1.存储设备能持久可靠的存储数据
2.提供可伸缩接口
3.提供高效查询、更新等操作
三、大数据分析技术
1.数据处理
2.统计和分析
3.数据挖掘
4.模型预测
四、大数据计算技术
典型的大数据计算架构
1)Hadoop——处理本地数据
2)Spark——收集并更新
3)Storm——延迟毫秒级
第二章大数据技术概述相关推荐
- 第二章 大数据技术概述
大数据基本概念 数据是各种符号如字符.数字等.声音.图片动画.视频多媒体,数据也是原始事实.要保证其原始性和真实性,后期加工才有意义.信息是人们为了某种需求而对原始数据加工重组后形成的有意义.有用途的 ...
- 第11章 大数据技术与实践
第11章 大数据技术与实践 11.1 大数据概述 大数据一词由英文" big data"翻译而来,是最近几年兴起的概念,目前还没有一个统的定义.相比于过去的"信息爆炸&q ...
- 第二课 大数据技术之Hadoop3.x的HDFS
第二课 大数据技术之Hadoop3.x的HDFS 文章目录 第二课 大数据技术之Hadoop3.x的HDFS 第一节 HDFS概述 1.1 HDFS产出背景及定义 1.2 HDFS优缺点 1.3 HD ...
- 大数据技术概述复习(一)
大数据技术概述复习(一) 本文整理复习自用,仅供参考 引用: 1<大数据技术原理与应用(第3版)> 2 https://blog.csdn.net/weixin_45207388/arti ...
- 第十一章·大数据技术与实践
11.1大数据概述 11.1.1大数据产生的背景 家阿尔文,托夫勒便在<第三次浪潮>一书中, 将大数据比作 第三次浪潮的华彩乐章". 在传统数据处理过程中,单个计算机的性能往往很 ...
- 第二章 大数据如此重要,引无数英雄竞折腰
在这个一秒钟就可能江山易主的大数据时代,获得最真实可靠的数据并进行准确的分析和预测是企业占得先机的重要条件.如何在数据上展开角力成为企业生存的核心问题,只有企业对大数据的"外貌"和 ...
- 大数据技术概述与入门
一.大数据概述 大数据概念最初来自于2009年的<自然>杂志, Ginsberg采用大数据搜索引擎查询数据并对流行性流感活动进行检测,之后在2011年2月<科学>杂志通过社会调 ...
- 大数据入门-大数据技术概述(一)
目录 大数据入门系列文章 1.大数据入门-大数据是什么 一.概念 二.技术详解 1.基础架构:Hadoop 2.分布式文件系统:HDFS 3.数据仓库:Hive 4.存储引擎:Kudu 5.分布式数据 ...
- 大数据技术概述__大数据最全面的技术栈总结及分类
大数据不是一门专门的技术,而是很多技术的综合应用.可以通过一些列大数据技术对海量数据进行分析,挖掘出数据背后的价值. 虽然大数据与Hadoop密切相关,但Hadoop并不等同于大数据,大数据也不是指H ...
最新文章
- 决策树Decision Tree
- Python中的内存管理机制
- iOS pod init 报错
- 不会做特征工程的 AI 研究员不是好数据科学家!上篇 - 连续数据的处理方法 本文作者:s5248 编辑:杨晓凡 2018-01-19 11:32 导语:即便现代机器学习模型已经很先进了,也别
- File类获取功能的方法
- php封装一个加密算法,PHP封装的非对称加密RSA算法示例
- 【docker】win10子系统ubuntu安装docker
- nginx 配置反向代理和负载均衡
- 框架鲜花商城系统测试_小程序商城 Open-Shop
- delphi7+firebird+dbexpress
- 【推荐】阿里云主机accesskey利用工具
- 冯诺依曼 计算机名言,冯·诺依曼名言
- high sierra php,關於macOS High Sierra 10.13 中,XAMPP php7 安裝memcache的問題
- 海瑟矩阵和函数凹凸性之间的关系
- [转载]Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images
- 计算机网络脆弱性评估方法研究
- FPGA时钟篇(三) MRCC和SRCC的区别
- Mac OS X 10.9.5系统下创建quick3.3final项目出现问题
- 随心所欲Do whatever you want——Minecraft
- 树、二叉树、满二叉树、完全二叉树概念分清
热门文章
- 英语Kutnahorite金田黄kutnahorite单词
- 从一幅图中了解开源世界
- suse linux VNC配置
- html中页面背景属性,css背景属性有哪些?
- python 获取qq群成员信息_Python-获取QQ群成员信息并存入excel及redis并发送邮件
- 那些可以看做是沧海一粟的App
- 华云数据蝉联中国大数据50强 入选《2022数字化转型生态建设百佳案例》
- Jina AI 蝉联 2022 CB Insights 全球 AI 百强
- 【网关路由测试】——网关状态转换测试
- Chaos Mesh Test(在k8s对mysql,redis zookeeper 进行chaos 测试)