大数据概述:
大数据的发展历程:

第一阶段:萌芽期(20世纪90年代至21世纪初)
第二阶段:成熟期(21世纪前十年)
第三阶段:大规模应用期(2010年以后)
大数据的特点(简称4V):

数据量大
数据类型多
处理速度快
价值密度低
大数据的特征:

全面而非抽样
效率而非精确
相关而非因果
在科学研究上的四种范式:
实验科学、理论科学、计算科学、数据密集型科学

大数据技术
主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护。

大数据技术的不同层面及其功能

技术层面    功能
数据采集与预处理    利用ETL(数据仓库技术)数据文件工具将分布的、异构数据源中的数据,如关系数据、平 面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础; 也可以利用日志采集工具(如Flume、Kafka等)把实时采集的数据作为流计算系统的输入,进行实时的处理分析 。
数据的存储和管理    利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海里数据的存储和管理
数据的处理与分析    利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的处理和分析;对分析结果进行可视化呈现,帮助人们更好理解数据、分析数据。
数据的隐私和安全    从大数据中挖掘潜在的巨大商业价值和学术价值的同时,构建隐私数据保护体系和数据安全体系,有效的保护 个人隐私和数安全。
大数据的计算模式

批处理计算 针对大数据的批处理。 代表产品:MapReduce、Spark
流计算 针对流数据的实时计算。 代表产品: Storm、S4、 Flume、 Dstream 、银河流数据处理平台等
图计算 针对大规模图结构数据处理。 代表产品:Pregel 、Hama 、GraphX
查询分析计算 大规模数据的存储管理和查询分析。 代表产品:Hive、 Dremel
云计算:
三种模式:

Iaas(基础设施即服务)
Paas(平台即服务)
Saas(软件即服务)
关键技术:

虚拟化
分布式存储
分布式计算
多租户
物联网
分层:

感知层
网络层
处理层
应用层
大数据、云计算、物联网三者的关系与联系

大数据:侧重于海量数据的存储、处理、分析,从海量数据中发现价值,服务于生产和生活。
云计算:旨在整合和优化各种IT资源,并通过网络以服务的廉价方式提供给用户。
物联网:发展目标是实现物物相连,应用创新是互联网发展的核心。

大数据技术与原理 概述相关推荐

  1. 大数据应用导论 Chapter1 | 大数据技术与应用概述

      大家好,我是不温卜火,是一名计算机学院大数据专业大二的学生,昵称来源于成语-不温不火,本意是希望自己性情温和.作为一名互联网行业的小白,博主写博客一方面是为了记录自己的学习过程,另一方面是总结自己 ...

  2. 大数据技术之Hadoop概述集群环境搭建常见错误解决等

    Hadoop概述 文章目录 Hadoop概述 1. Hadoop是什么 2. Hadoop发展历史 4. Hadoop的优势 5. Hadoop组成 6. 大数据技术生态体系 7. 推荐系统框架图略图 ...

  3. 大数据技术的原理是什么

    大数据可分成大数据技术.大数据工程.大数据科学和大数据应用等领域.目前人们谈论最多的是大数据技术和大数据应用.工程和科学问题尚未被重视.大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大 ...

  4. 大数据技术——Flume原理分析

    摘要 主要是分析和讲解Flum的原理源码分析 Flume概述 Flume是的一个分布式.高可用.高可靠的海量日志采集.聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时提供了对数 ...

  5. 大数据技术与原理之流计算基本知识点梳理(一)

    1:流数据: 流数据(数据流):在时间分布和数量上无限的一系列动态数据的集合体.: 2:流数据的特点: 1:数据快速到达,潜在大小也许是无穷无尽的. 2:数据来源众多,格式复杂. 3:  数据量大,但 ...

  6. 大数据技术之Flume(概述,安装,案例等)

    第1章 概述 1.1 Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统.Flume基于流式架构,灵活简单. 1.2 Flume的优点 可 ...

  7. 大数据技术与原理应用MOOC期末考试题目答案

    前面每一个章节测试题目的链接 点点这里看看!!

  8. 大数据技术平台主要分为哪几类

    大数据的处理过程可以分为大数据采集.存储.结构化处理.隐私保护.挖掘.结果展示(发布)等,各种领域的大数据应用一般都会涉及到这些基本过程,但不同应用可能会有所侧重.对于互联网大数据而言,由于其具有独特 ...

  9. 大数据建设意义_大数据技术平台建设方案(ppt)

    应急指挥一张图可视化平台方案(ppt) 大数据平台架构建设方案(图文) 大数据平台技术架构解决方案(ppt)大数据平台总体架构方案(ppt)大数据平台框架选型分析方案(图文)大数据可视化分析平台应用方 ...

最新文章

  1. 6款强大的jQuery插件 创建和加强网站布局
  2. 一步一步详解ID3和C4.5的C++实现
  3. TCPIP / LAN、WAN、、VLAN、WLAN 和 WIFI 的区别和联系
  4. arm-linux学习笔记3-linux内存管理与文件操作
  5. STL迭代器iterator
  6. SWJTU 2208 最大覆盖
  7. 7-17 mmh学长的三色灯 (20分)
  8. 创建font_使用python创建秒表
  9. linux lua 编译 开发,Linux CentOS 编译LUA。。搞半天终于对了= =
  10. 磁力计椭球拟合使用篇 IMU 加速度、电子罗盘校准
  11. 计算机ping使用的端口,ping 端口:Ping端口命令的使用方法介绍
  12. iPhone各个机型屏幕尺寸
  13. DBMS Implementation 笔记 05: SIMC CATC 以及 Join 操作的实现
  14. 计算机的音乐怎么按出来怎么办,音频管理器一直跳出来怎么处理啊
  15. OpenCV中出现“Microsoft C++ 异常: cv::Exception,位于内存位置 0x0000005C8ECFFA80 处。”的异常...
  16. 经济基础知识(中级)【6】
  17. hihocoder#1369 : 网络流算法的一些小结
  18. Python+Selenium自动化测试之页码,前一页、后一页、翻页
  19. windows10安装oracle数据库
  20. 【Mybatis】Mybatis 注解开发

热门文章

  1. 解决谷歌浏览器你的时钟快了和证书问题
  2. 【Matlab】牛顿迭代法实现
  3. MPC(模型预测控制)_附matlab例程
  4. 线形回归和梯度下降的Python实例。
  5. hosts屏蔽网站以及代理越过屏蔽
  6. Ryzen 5 5600G windows 10 企业版 - 高温 BUG
  7. 自动滑动背景图片html,html背景图片滚动属性bgproperties
  8. 蓝桥杯--黄金连分数
  9. 求解Ax=0:主变量、自由变量、特殊解
  10. 怎么才能写出好的代码