1、大数据概述

传统数据处理介绍

目标: 了解大数据到来之前,传统数据的通用处理模式。

数据来源:

1、企业内部管理系统 ,如员工考勤(打卡)记录。

2、客户管理系统(CRM)

数据特征:

1、数据增长速度比较缓慢,种类单一。

2、数据量为GB级别,数据量较小。

数据处理方式:

1、数据保存在数据库中。处理时以处理器为中心,应用程序到数据库中检索数据再进行计算(移
动数据到程序端)

遇到的问题:

1、数据量越来越大、数据处理的速度越来越慢。

2、数据种类越来越多,出现很多数据库无法存储的数据,如音频、照片、视频等。

2、什么是大数据?(Big Data)

目标:掌握什么是大数据、传统数据与大数据的对比有哪些区别、大数据的特点

是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

数据的存储单位

最小的基本单位是bit

1 Byte =8 bit

1 KB = 1,024 Bytes = 8192 bit

KB à MB à GB à TB àPB à EB à ZB àYB à BB àNBà DB  进率1024

3、传统数据与大数据的对比

4、大数据的特点

数据集主要特点

Volume(大量):  数据量巨大,从TB到PB级别。

Velocity(高速):       数据量在持续增加(两位数的年增长率)。

Variety(多样):       数据类型复杂,超过80%的数据是非结构化的。

Value(低密度高价值):  低成本创造高价值。

其他特征

数据来自大量源,需要做相关性分析。

需要实时或者准实时的流式采集,有些应用90%写vs.10%读。

数据需要长时间存储,非热点数据也会被随机访问。

传统数据与大数据处理服务器系统安装对比

目标:了解传统数据与大数据处理服务器系统安装有什么不同

详细解释请见PPT《大数据素材》中的“传统数据与大数据处理服务器系统安装对比”

传统数据下服务器系统安装

在传统数据背景下,服务器系统安装中,系统硬盘、数据硬盘完全隔离。通常会将多块数据硬盘制作成LVM(逻辑卷),即将多块物理硬盘通过软件技术“拼接”在一起形成一个大的硬盘(逻辑上是一个硬盘)。

大数据下服务器系统安装

在大数据背景下,服务器系统安装中,系统硬盘、数据硬盘完全隔离。数据硬盘必须独立挂载,每个硬盘挂载到系统的一个独立的目录下。

5、大数据生态系统

目标:了解大数据生态系统,大数据技术列举

大数据:历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题

新技术:传统方式与技术无法处理大量、种类繁多的数据,需要新的技术解决新的问题。

技术人员:有了问题,有了解决问题的技术,需要大量懂技术的人解决问题。

最佳实践:解决 问题的方法,途径有很多,寻找最好的解决方法。

商业模式:有了最好的解决办法,同行业可以复用,不同行业可以借鉴,便形成了商业模式。

新技术

HADOOP

HDFS:       海量数据存储。

YARN:       集群资源调度。

MapReduce:    历史数据离线计算。

Hive:海量数据仓库。

Hbase:海量数据快速查询数据库。

Zookeeper:集群组件协调。

Impala:是一个能查询存储在Hadoop的HDFS和HBase中的PB级数据的交互式查询引擎。

Kudu:是一个既能够支持高吞吐批处理,又能够满足低延时随机读取的综合组件

Sqoop:数据同步组件(关系型数据库与hadoop同步)。

Flume :海量数据收集。

Kafka:消息总线。

Oozie:工作流协调。

Azkaban: 工作流协调。

Zeppelin:  数据可视化。

Hue: 数据可视化。

Flink:实时计算引擎。

Kylin: 分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析。

Elasticsearch: 是一个分布式多用户能力的全文搜索引擎。

Logstash: 一个开源数据搜集引擎。

Kibana: 一个开源的分析和可视化平台。

SPARK

SparkCore:Spark 核心组件

SparkSQL:高效数仓SQL引擎

Spark Streaming: 实时计算引擎

Structured: 实时计算引擎2.0

Spark MLlib:机器学习引擎

Spark GraphX:图计算引擎

初识大数据 小孩子都懂的大数据相关推荐

  1. 双11过后张勇感谢快递小哥:再大的纪录都是靠大协作来完成的

    11月13日消息,双11过后,阿里巴巴集团董事局主席兼CEO张勇在12日夜晚赶往中通.圆通.韵达.申通等快递公司,专程向快递小哥致谢,"感谢全国300多万物流人,大家创造了新的世界物流高峰. ...

  2. SAP携手“大数据之都” 共推大数据创新

    在10月21日举办的SAP贵阳大数据峰会上,SAP与贵阳市人民政府宣布签署战略合作备忘录,共建SAP在中国的首家"SAP大数据应用创新中心".依照"立足贵阳市.服务贵州省 ...

  3. oracle 如何查看一个表属于哪一个数据文件,如何查看某一表空间的数据文件都分布了哪些数据对象...

    $ sqlplus /nolog SQL*Plus: Release 10.1.0.3.0 - Production on Thu Jun 7 10:02:20 2007 Copyright (c) ...

  4. 大数据处理系统都有哪些?(数据查询分析计算系统篇)

    大数据的出现使得数据的处理效率提高不少,这得益于大数据的数据处理系统,而大数据的处理系统有很多.就目前而言,主要的大数据处理系统有数据查询分析计算系统.批处理系统.流式计算系统.迭代计算系统.图计算系 ...

  5. 测试矩阵是什么,小孩子都懂的,你该不会不知道吧

    迷阵 "单元测试,集成测试,端到端测试,安全测试,性能测试,压力测试,契约测试,冒烟测试,验收测试,API测试,UI测试,兼容性测试--" 不知道你是不是像我一样,曾被这些各种各样 ...

  6. 大数据的特征介绍,大数据技术主要分为哪几部分?

    大数据,这个词给人的印象可能只是大量的数据而已,但是大量仅是大数据中的一部分.因为数据量的增加,并不是现在才有,主要还是数据处理分析技术的进步.大数据通常是指大小规格超越传统数据库软件抓取,存储,管理 ...

  7. 海量视频监控数据存储和管理是大数据最重要的命题

    海量视频数据的存储和管理 维基百科全书的定义:"大数据是飞速增长的,用现有数据库管理工具难以管理的数据集合".这些数据包括:社交媒体.移动设备.科学计算和城市中部署的各类传感器等等 ...

  8. 一文读懂数据仓库、数据湖、湖仓一体

    目录 1.数据仓库 数据仓库的特征 2.数据湖 数据湖的特征 数据仓库和数据湖的对比 3.湖仓一体 湖仓一体的特征 湖仓一体的优势 智能湖仓 数据仓库.数据湖.湖仓一体对比 1.数据仓库 数据仓库,英 ...

  9. 数据湖基本概念--什么是数据湖,数据湖又能干什么?为什么是Hudi

    一.什么是数据湖 对于经常跟数据打交道的同学,初步听到数据湖这个概念的时候,肯定有点懵,但是相信大家对于数据仓库 这个概念并不陌生. 到了20世纪80年代以后,基于关系型数据库的事务处理成为了企业IT ...

  10. 一本书读懂大数据(每个人都看得懂的大数据入门书) - 电子书下载(高清版PDF格式+EPUB格式)...

    一本书读懂大数据(每个人都看得懂的大数据入门书)-黄颖 在线阅读                   百度网盘下载(635f) 书名:一本书读懂大数据(每个人都看得懂的大数据入门书) 作者:黄颖 格式 ...

最新文章

  1. Linux的watch命令--实时监测命令的运行结果
  2. Java IO篇:序列化与反序列化
  3. SLAM:ORB-SLAM 位姿优化描述
  4. 基于matlab的能级_波函数及几率密度图形的绘制,基于MATLAB的能级波函数及几率密度图形的绘制.pdf...
  5. inno setup 打包mysql_使用Inno Setup 打包jdk、mysql、tomcat、webapp等为一个exe安装包
  6. showdoc如何创建文件夹_showDoc生成文档
  7. 《UNIX环境高级编程——APUE》
  8. EasyCVR对接大华SDK,视频回放无法播放的排查过程及解决方法
  9. 巧记单词:odd和even
  10. 翼支付在Sharding-Sphere项目工作介绍
  11. 为什么苹果手机通话的时候不能录音?
  12. 计算机英语 自我介绍,计算机专业英文自我介绍
  13. STM32实战③RGB渐变
  14. 用支付宝扫自己生成的网页二维码无法跳转的问题
  15. 元宇宙来了,用好名字好概念赋能中国制造国际营销的初步构想
  16. 网吧服务器网络维护教程,网管员维护服务器过程中的反黑技巧
  17. 电商网站适合用什么服务器?
  18. c#调用TeamViewer或AnyDesk实现远程控制
  19. 司铭宇老师--沪师经纪刘建
  20. MATLAB算法实战应用案例精讲-【自动驾驶】SAE分级

热门文章

  1. 2021 OpenCV人工智能竞赛优秀项目团队介绍集锦(五)
  2. Linux系统下载谷歌浏览器
  3. mysql有if选择更新_使用IF条件的MySQL更新
  4. (转载)CruiseControl配置介绍
  5. LOFTER轻博模板设计
  6. 隐藏 element-ui上传照片显示的加号盒子
  7. python读取TXT、CSV、xml
  8. 计算机网络(第七版)部分课后习题含答案第一章 概述1-02 试简述分组交换的要点。分组交换最主要的特点就是采用存储转发技术。我们把要发送的整块数据称为一个报文。在发送报文之前,先把较长的报
  9. JavaWeb之servlet详解(转帖)
  10. php fseek函数,php fseek函数怎么用 - fseek