1、何为大数据?

大数据是指很多很多的数据,主要源于web2.0之后,数据库中的数据量累计起来很庞大,在对数据进行操作(主要指查询)会变得很慢,对机器的性能要求会很高,如果数据量达到足够大(如十几亿),那服务器会崩溃的

2、大数据解决什么问题?

大数据解决对海量数据的存储、查询、分析计算等操作,主要应用在利用庞大的数据归类分析用户的偏好,利用用户的历史信息得出相应的统计账单等,将同行业的大公司的数据进行计算分析,可以挖掘出一些隐含价值。

3、学习大数据的基础

1)java SE,EE(SSM) 
因为90%的大数据框架都是java写的 
2)SQL 
特别是sql语句中的查询语句,因为对数据库的操作最多的是查询 
使用Hadoop作为大数据的分布式存储、计算和分析 sql的操作会重要 
3)Linux 
大数据的框架安装在Linux操作系统上

4、需要学什么

*第一方面:大数据离线分析*

一般处理T+1数据(T是指日、周、月、年),处理历史数据 
模块1:Hadoop 
包括四大块(common、yarn、MapReduce、HDFS) 
主要掌握环境搭建、处理数据的思想 
模块2:Hive 
大数据数据仓库 
通过写SQL对数据进行操作,类似于mysql数据库中的sql 
模块3:HBase 
基于HDFS的NOSQL数据库 
面向列的存储 
协作框架: 
sqoop(桥梁:HDFS 《==》RDBMS) 
flume:收集日志文件中信息 
调度框架anzkaban, 
了解:crotab(Linux自带)、zeus(Alibaba)、Oozie(cloudera) 
扩展前沿框架:kylin、impala、ElasticSearch(ES)

第二方面:大数据离线分析

以spark框架为主 
Scala:OOP + FP 
sparkCore:类比MapReduce 
sparkSQL:类比hive 
sparkStreaming:实时数据处理 
kafka:消息队列 
前沿框架扩展:flink 
阿里巴巴 blink

第三方面:大数据机器学习(扩展) 
spark MLlib:机器学习库 
pyspark编程:Python和spark的结合 
推荐系统 
python数据分析 
Python机器学习

大数据框架安装功能来划分

1、海量数据存储:

HDFS、Hive(本质存储数据还是hdfs)、HBASE、ES

2、海量数据分析:

MapReduce、Spark、SQL

最原始的Hadoop框架 
数据存储:HDFS(Hadoop Distributed File System) 
数据分析:MapReduce

Hadoop的起源 
Google的三篇论文 
虽然Google没有公布这三个产品的源码, 
但是他发布了这三个产品的详细设计论文, 
奠定了风靡全球的大数据算法的基础!

Hadoop介绍 
大数据绝大多数框架,都属于Apache顶级项目 
http://apache.org/ 
hadoop官网: 
http://hadoop.apache.org/

分布式 
相对于【集中式】 
需要多台机器,进行协助完成。

    元数据:记录数据的数据架构:主节点Master   老大,管理者管理从节点Slave    从属,奴隶,被管理者干活
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

Hadoop也是分布式架构 
HDFS: 
主节点:NameNode 
决定着数据存储到那个DataNode上 
从节点:DataNode 
存储数据

**MapReduce:**分而治之思想将海量的数据划分为多个部分,每部分数据进行单独的处理,最后将所有结果进行合并map task单独处理每一部分的数据、reduce task合并map task的输出**YARN:**分布式集群资源管理框架,管理者集群的资源(Memory,cpu core)合理调度分配给各个程序(MapReduce)使用主节点:resourceManager掌管集群中的资源从节点:nodeManager管理每台集群资源**总结:Hadoop的安装部署**都属于java进程,就是启动了JVM进程,运行服务。HDFS:存储数据,提供分析的数据NameNode/DataNodeYARN:提供程序运行的资源ResourceManager/NodeManager

什么是大数据?大数据用来干嘛?相关推荐

  1. 用 Python 制作数据大屏,超简单

    作者 | 俊欣 来源 | 关于数据分析与可视化 今天我们用Streamlit模块来制作一个数据面板,将数据更加直观地呈现给别人观看,整个页面大致如下图所示: 制作工具栏 在页面的左侧是一个工具栏,工具 ...

  2. 3000 字推荐一个可视化神器,50 行 Python 代码制作数据大屏

    作者 | 俊欣 来源 | 关于数据分析与可视化 今天小编给大家分享一个制作数据大屏的工具,非常的好用,100行左右的Python代码就可以制作出来一个完整的数据大屏,并且代码的逻辑非常容易理解. Py ...

  3. 工资8000以下的程序员注意了:《零coding数据大屏实战宝典.pdf》

    马云曾说:"整个世界将变成数据,这还只是数据时代的开始.新浪潮即将来临,很多就业机会将被夺走.有些人会赶上潮流,变得富有和成功.但是对那些落后的人,未来将是痛苦的. 大数据从2013年一路发 ...

  4. 除了数据还是数据?2018年5大 AI (人工智能)预测

    人工智能 (AI) 在 2017 年已成为多数人日常生活的一部份,不论是在工作场所或是居家生活,而随着新的一年将至,<福布斯>杂志也对 AI 进入 2018 年的成长与发展进行预测: 数据 ...

  5. 海量大数据大屏分析展示一步到位:DataWorks数据服务对接DataV最佳实践

    概述 数据服务(https://ds-cn-shanghai.data.a... 是DataWorks产品家族的一员,提供了快速将数据表生成API的能力,通过可视化的向导,一分钟"零代码&q ...

  6. 如何构建可视化的营销数据大屏?

    数据可视化大屏是数据展现最直观最全面的方式之一,对于企业重要数据指标的展示和实时数据的监测,是目前极佳的方案. 对于大屏数据展示,某知名汽车制造厂商的信息化团队有着深刻的建设经验. 该公司目前拥有两个 ...

  7. 大数据环境下数据科学的知识体系

    数据科学概论 随着互联网的飞速发展,大数据(Big Data)的概念和技术成为当下流行的领域. 数据科学(Data Science)这一体系也随着大数据的崛起成为讨论热点.在各大招聘网站上," ...

  8. 大数据数据收集数据困难_大数据架构、大数据开发与数据分析的区别

    是新朋友吗?记得先点蓝字关注我哦- 今日课程菜单 Java全栈开发 | Web前端+H5 大数据开发 | 数据分析  人工智能+Python | 人工智能+物联网 来源:小职(z_zhizuobiao ...

  9. 为什么大数据需要数据湖?

    自2011年"数据湖"概念被提出,业界便对数据湖一直有着广泛而不同的理解和定义. "数据湖是一个集中化存储海量的.多个来源,多种类型数据,并可以对数据进行快速加工,分析的 ...

  10. 非常复杂,上双11数据大屏背后的秘密:大规模流式增量计算及应用

    回顾大数据技术领域大事件,最早可追溯到06年Hadoop的正式启动,而环顾四下,围绕着数据库及数据处理引擎,业内充斥着各种各样的大数据技术.这是个技术人的好时代,仅数据库领域热门DB就有300+,围绕 ...

最新文章

  1. 深度学习项目中在yaml文件中定义配置,以及使用的python的PyYAML库包读取解析yaml配置文件
  2. HarmonyOS之常用组件ToastDialog的功能和使用
  3. 关于php的文章,一篇关于 PHP 性能的文章
  4. matlab2014a 3d标定,[转载]张的matlab摄像机标定
  5. 【模板】Manacher算法
  6. 装修月记第一弹,硬装篇
  7. vscode编辑python_VSCode+Python开发环境
  8. 预训练语言模型关系图+必读论文列表,清华荣誉出品
  9. LoadRunner 12 试用
  10. Java applet 类
  11. android 获取签名的md5值,获取Android MD5签名
  12. QQ邮箱代收Gmail邮件,微信第一时间通知Gmail新收邮件
  13. 微型计算机硬件系统包括什么,微型计算机硬件系统由什么组成(6个基本组成部件)...
  14. 青海省海西蒙古族藏族自治州谷歌高清卫星地图下载
  15. 象棋的杀法??????
  16. 计算机中丢失granny2,修复granny2.dll
  17. 重磅!项目经理指导手册和全套管理秘籍下载
  18. DNS-域名解析协议
  19. 我为什么要选择traefik2做网关?
  20. php做照片墙,照片墙作业练习

热门文章

  1. 灵机一栋团队alpha冲刺 Ⅱ
  2. React 常见面试题
  3. Appium 点击操作梳理
  4. ASP.NET MVC 音乐商店 - 10. 完成导航和站点的设计
  5. python中prompt的意思_selenium+Python(alert 、confirm 、prompt 的处理)
  6. tools:ignore=“MissingConstraints“属性
  7. 国产开源优秀新一代MPP数据库StarRocks入门之旅-数仓新利器(上)
  8. 斯隆奖获得者李博:从博弈论出发,和「偶像」并肩的感觉很好 | 青源专栏
  9. POJ 3264 Balanced Lineup (RMQ)
  10. UIApplication(BTGMethodSwizzler) btg_swizzleSendEvent: 崩溃