大数据技术与原理 概述
大数据概述:
大数据的发展历程:
第一阶段:萌芽期(20世纪90年代至21世纪初)
第二阶段:成熟期(21世纪前十年)
第三阶段:大规模应用期(2010年以后)
大数据的特点(简称4V):
数据量大
数据类型多
处理速度快
价值密度低
大数据的特征:
全面而非抽样
效率而非精确
相关而非因果
在科学研究上的四种范式:
实验科学、理论科学、计算科学、数据密集型科学
大数据技术
主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护。
大数据技术的不同层面及其功能
技术层面 功能
数据采集与预处理 利用ETL(数据仓库技术)数据文件工具将分布的、异构数据源中的数据,如关系数据、平 面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础; 也可以利用日志采集工具(如Flume、Kafka等)把实时采集的数据作为流计算系统的输入,进行实时的处理分析 。
数据的存储和管理 利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海里数据的存储和管理
数据的处理与分析 利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好理解数据、分析数据。
数据的隐私和安全 从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效的保护 个人隐私和数安全。
大数据的计算模式
批处理计算 针对大数据的批处理。 代表产品:MapReduce、Spark
流计算 针对流数据的实时计算。 代表产品: Storm、S4、 Flume、 Dstream 、银河流数据处理平台等
图计算 针对大规模图结构数据处理。 代表产品:Pregel 、Hama 、GraphX
查询分析计算 大规模数据的存储管理和查询分析。 代表产品:Hive、 Dremel
云计算:
三种模式:
Iaas(基础设施即服务)
Paas(平台即服务)
Saas(软件即服务)
关键技术:
虚拟化
分布式存储
分布式计算
多租户
物联网
分层:
感知层
网络层
处理层
应用层
大数据、云计算、物联网三者的关系与联系
大数据:侧重于海量数据的存储、处理、分析,从海量数据中发现价值,服务于生产和生活。
云计算:旨在整合和优化各种IT资源,并通过网络以服务的廉价方式提供给用户。
物联网:发展目标是实现物物相连,应用创新是互联网发展的核心。
大数据技术与原理 概述相关推荐
- 大数据应用导论 Chapter1 | 大数据技术与应用概述
大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...
- 大数据技术之Hadoop概述集群环境搭建常见错误解决等
Hadoop概述 文章目录 Hadoop概述 1. Hadoop是什么 2. Hadoop发展历史 4. Hadoop的优势 5. Hadoop组成 6. 大数据技术生态体系 7. 推荐系统框架图略图 ...
- 大数据技术的原理是什么
大数据可分成大数据技术.大数据工程.大数据科学和大数据应用等领域.目前人们谈论最多的是大数据技术和大数据应用.工程和科学问题尚未被重视.大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大 ...
- 大数据技术——Flume原理分析
摘要 主要是分析和讲解Flum的原理源码分析 Flume概述 Flume是的一个分布式.高可用.高可靠的海量日志采集.聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时提供了对数 ...
- 大数据技术与原理之流计算基本知识点梳理(一)
1:流数据: 流数据(数据流):在时间分布和数量上无限的一系列动态数据的集合体.: 2:流数据的特点: 1:数据快速到达,潜在大小也许是无穷无尽的. 2:数据来源众多,格式复杂. 3: 数据量大,但 ...
- 大数据技术之Flume(概述,安装,案例等)
第1章 概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统.Flume基于流式架构,灵活简单. 1.2 Flume的优点 可 ...
- 大数据技术与原理应用MOOC期末考试题目答案
前面每一个章节测试题目的链接 点点这里看看!!
- 大数据技术平台主要分为哪几类
大数据的处理过程可以分为大数据采集.存储.结构化处理.隐私保护.挖掘.结果展示(发布)等,各种领域的大数据应用一般都会涉及到这些基本过程,但不同应用可能会有所侧重.对于互联网大数据而言,由于其具有独特 ...
- 大数据建设意义_大数据技术平台建设方案(ppt)
应急指挥一张图可视化平台方案(ppt) 大数据平台架构建设方案(图文) 大数据平台技术架构解决方案(ppt)大数据平台总体架构方案(ppt)大数据平台框架选型分析方案(图文)大数据可视化分析平台应用方 ...
最新文章
- 6款强大的jQuery插件 创建和加强网站布局
- 一步一步详解ID3和C4.5的C++实现
- TCPIP / LAN、WAN、、VLAN、WLAN 和 WIFI 的区别和联系
- arm-linux学习笔记3-linux内存管理与文件操作
- STL迭代器iterator
- SWJTU 2208 最大覆盖
- 7-17 mmh学长的三色灯 (20分)
- 创建font_使用python创建秒表
- linux lua 编译 开发,Linux CentOS 编译LUA。。搞半天终于对了= =
- 磁力计椭球拟合使用篇 IMU 加速度、电子罗盘校准
- 计算机ping使用的端口,ping 端口:Ping端口命令的使用方法介绍
- iPhone各个机型屏幕尺寸
- DBMS Implementation 笔记 05: SIMC CATC 以及 Join 操作的实现
- 计算机的音乐怎么按出来怎么办,音频管理器一直跳出来怎么处理啊
- OpenCV中出现“Microsoft C++ 异常: cv::Exception,位于内存位置 0x0000005C8ECFFA80 处。”的异常...
- 经济基础知识(中级)【6】
- hihocoder#1369 : 网络流算法的一些小结
- Python+Selenium自动化测试之页码,前一页、后一页、翻页
- windows10安装oracle数据库
- 【Mybatis】Mybatis 注解开发