初识大数据 小孩子都懂的大数据
1、大数据概述
传统数据处理介绍
目标: 了解大数据到来之前,传统数据的通用处理模式。
数据来源:
1、企业内部管理系统 ,如员工考勤(打卡)记录。
2、客户管理系统(CRM)
数据特征:
1、数据增长速度比较缓慢,种类单一。
2、数据量为GB级别,数据量较小。
数据处理方式:
1、数据保存在数据库中。处理时以处理器为中心,应用程序到数据库中检索数据再进行计算(移
动数据到程序端)
遇到的问题:
1、数据量越来越大、数据处理的速度越来越慢。
2、数据种类越来越多,出现很多数据库无法存储的数据,如音频、照片、视频等。
2、什么是大数据?(Big Data)
目标:掌握什么是大数据、传统数据与大数据的对比有哪些区别、大数据的特点
是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
是指一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
数据的存储单位
最小的基本单位是bit
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
KB à MB à GB à TB àPB à EB à ZB àYB à BB àNBà DB 进率1024
3、传统数据与大数据的对比
4、大数据的特点
数据集主要特点
Volume(大量): 数据量巨大,从TB到PB级别。
Velocity(高速): 数据量在持续增加(两位数的年增长率)。
Variety(多样): 数据类型复杂,超过80%的数据是非结构化的。
Value(低密度高价值): 低成本创造高价值。
其他特征
数据来自大量源,需要做相关性分析。
需要实时或者准实时的流式采集,有些应用90%写vs.10%读。
数据需要长时间存储,非热点数据也会被随机访问。
传统数据与大数据处理服务器系统安装对比
目标:了解传统数据与大数据处理服务器系统安装有什么不同
详细解释请见PPT《大数据素材》中的“传统数据与大数据处理服务器系统安装对比”
传统数据下服务器系统安装
在传统数据背景下,服务器系统安装中,系统硬盘、数据硬盘完全隔离。通常会将多块数据硬盘制作成LVM(逻辑卷),即将多块物理硬盘通过软件技术“拼接”在一起形成一个大的硬盘(逻辑上是一个硬盘)。
大数据下服务器系统安装
在大数据背景下,服务器系统安装中,系统硬盘、数据硬盘完全隔离。数据硬盘必须独立挂载,每个硬盘挂载到系统的一个独立的目录下。
5、大数据生态系统
目标:了解大数据生态系统,大数据技术列举
大数据:历史数据量逐渐攀升、新型数据类型逐渐增多。是企业必然会遇到的问题
新技术:传统方式与技术无法处理大量、种类繁多的数据,需要新的技术解决新的问题。
技术人员:有了问题,有了解决问题的技术,需要大量懂技术的人解决问题。
最佳实践:解决 问题的方法,途径有很多,寻找最好的解决方法。
商业模式:有了最好的解决办法,同行业可以复用,不同行业可以借鉴,便形成了商业模式。
新技术
HADOOP
HDFS: 海量数据存储。
YARN: 集群资源调度。
MapReduce: 历史数据离线计算。
Hive:海量数据仓库。
Hbase:海量数据快速查询数据库。
Zookeeper:集群组件协调。
Impala:是一个能查询存储在Hadoop的HDFS和HBase中的PB级数据的交互式查询引擎。
Kudu:是一个既能够支持高吞吐批处理,又能够满足低延时随机读取的综合组件
Sqoop:数据同步组件(关系型数据库与hadoop同步)。
Flume :海量数据收集。
Kafka:消息总线。
Oozie:工作流协调。
Azkaban: 工作流协调。
Zeppelin: 数据可视化。
Hue: 数据可视化。
Flink:实时计算引擎。
Kylin: 分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析。
Elasticsearch: 是一个分布式多用户能力的全文搜索引擎。
Logstash: 一个开源数据搜集引擎。
Kibana: 一个开源的分析和可视化平台。
SPARK
SparkCore:Spark 核心组件
SparkSQL:高效数仓SQL引擎
Spark Streaming: 实时计算引擎
Structured: 实时计算引擎2.0
Spark MLlib:机器学习引擎
Spark GraphX:图计算引擎
初识大数据 小孩子都懂的大数据相关推荐
- 双11过后张勇感谢快递小哥:再大的纪录都是靠大协作来完成的
11月13日消息,双11过后,阿里巴巴集团董事局主席兼CEO张勇在12日夜晚赶往中通.圆通.韵达.申通等快递公司,专程向快递小哥致谢,"感谢全国300多万物流人,大家创造了新的世界物流高峰. ...
- SAP携手“大数据之都” 共推大数据创新
在10月21日举办的SAP贵阳大数据峰会上,SAP与贵阳市人民政府宣布签署战略合作备忘录,共建SAP在中国的首家"SAP大数据应用创新中心".依照"立足贵阳市.服务贵州省 ...
- oracle 如何查看一个表属于哪一个数据文件,如何查看某一表空间的数据文件都分布了哪些数据对象...
$ sqlplus /nolog SQL*Plus: Release 10.1.0.3.0 - Production on Thu Jun 7 10:02:20 2007 Copyright (c) ...
- 大数据处理系统都有哪些?(数据查询分析计算系统篇)
大数据的出现使得数据的处理效率提高不少,这得益于大数据的数据处理系统,而大数据的处理系统有很多.就目前而言,主要的大数据处理系统有数据查询分析计算系统.批处理系统.流式计算系统.迭代计算系统.图计算系 ...
- 测试矩阵是什么,小孩子都懂的,你该不会不知道吧
迷阵 "单元测试,集成测试,端到端测试,安全测试,性能测试,压力测试,契约测试,冒烟测试,验收测试,API测试,UI测试,兼容性测试--" 不知道你是不是像我一样,曾被这些各种各样 ...
- 大数据的特征介绍,大数据技术主要分为哪几部分?
大数据,这个词给人的印象可能只是大量的数据而已,但是大量仅是大数据中的一部分.因为数据量的增加,并不是现在才有,主要还是数据处理分析技术的进步.大数据通常是指大小规格超越传统数据库软件抓取,存储,管理 ...
- 海量视频监控数据存储和管理是大数据最重要的命题
海量视频数据的存储和管理 维基百科全书的定义:"大数据是飞速增长的,用现有数据库管理工具难以管理的数据集合".这些数据包括:社交媒体.移动设备.科学计算和城市中部署的各类传感器等等 ...
- 一文读懂数据仓库、数据湖、湖仓一体
目录 1.数据仓库 数据仓库的特征 2.数据湖 数据湖的特征 数据仓库和数据湖的对比 3.湖仓一体 湖仓一体的特征 湖仓一体的优势 智能湖仓 数据仓库.数据湖.湖仓一体对比 1.数据仓库 数据仓库,英 ...
- 数据湖基本概念--什么是数据湖,数据湖又能干什么?为什么是Hudi
一.什么是数据湖 对于经常跟数据打交道的同学,初步听到数据湖这个概念的时候,肯定有点懵,但是相信大家对于数据仓库 这个概念并不陌生. 到了20世纪80年代以后,基于关系型数据库的事务处理成为了企业IT ...
- 一本书读懂大数据(每个人都看得懂的大数据入门书) - 电子书下载(高清版PDF格式+EPUB格式)...
一本书读懂大数据(每个人都看得懂的大数据入门书)-黄颖 在线阅读 百度网盘下载(635f) 书名:一本书读懂大数据(每个人都看得懂的大数据入门书) 作者:黄颖 格式 ...
最新文章
- Linux的watch命令--实时监测命令的运行结果
- Java IO篇:序列化与反序列化
- SLAM:ORB-SLAM 位姿优化描述
- 基于matlab的能级_波函数及几率密度图形的绘制,基于MATLAB的能级波函数及几率密度图形的绘制.pdf...
- inno setup 打包mysql_使用Inno Setup 打包jdk、mysql、tomcat、webapp等为一个exe安装包
- showdoc如何创建文件夹_showDoc生成文档
- 《UNIX环境高级编程——APUE》
- EasyCVR对接大华SDK,视频回放无法播放的排查过程及解决方法
- 巧记单词:odd和even
- 翼支付在Sharding-Sphere项目工作介绍
- 为什么苹果手机通话的时候不能录音?
- 计算机英语 自我介绍,计算机专业英文自我介绍
- STM32实战③RGB渐变
- 用支付宝扫自己生成的网页二维码无法跳转的问题
- 元宇宙来了,用好名字好概念赋能中国制造国际营销的初步构想
- 网吧服务器网络维护教程,网管员维护服务器过程中的反黑技巧
- 电商网站适合用什么服务器?
- c#调用TeamViewer或AnyDesk实现远程控制
- 司铭宇老师--沪师经纪刘建
- MATLAB算法实战应用案例精讲-【自动驾驶】SAE分级
热门文章
- 2021 OpenCV人工智能竞赛优秀项目团队介绍集锦(五)
- Linux系统下载谷歌浏览器
- mysql有if选择更新_使用IF条件的MySQL更新
- (转载)CruiseControl配置介绍
- LOFTER轻博模板设计
- 隐藏 element-ui上传照片显示的加号盒子
- python读取TXT、CSV、xml
- 计算机网络(第七版)部分课后习题含答案第一章 概述1-02 试简述分组交换的要点。分组交换最主要的特点就是采用存储转发技术。我们把要发送的整块数据称为一个报文。在发送报文之前,先把较长的报
- JavaWeb之servlet详解(转帖)
- php fseek函数,php fseek函数怎么用 - fseek