一、大数据是什么?

大数据,big data,《大数据》一书对大数据这么定义,大数据是指不能用随机分析法(抽样调查)这样捷径,而采用所有数据进行分析处理。

这句话至少传递两种信息:

1、大数据是海量的数据

2、大数据处理无捷径,对分析处理技术提出了更高的要求

二、大数据的处理流程

下图是数据处理流程:

1、底层是数以千亿计的数据源,数据源可以是SCM(供应链数据),4PL(物流数据),CRM(客户数据),网站日志以及其他的数据

2、第二层是数据加工层,数据工程师对数据源按照标准的统计口径和指标对数据进行抽取、清洗、转化、装载(整个过程简称ELT)

3、第三层是数据仓库,加工后的数据流入数据仓库,进行整合和存储,形成一个又一个数据集市。

数据集市,指分类存储数据的集合,即按照不同部门或用户的需求存储数据。

4、第四层是BI(商业智能),按照业务需求,对数据进行分析建模、挖掘、运算,输出统一的数据分析平台

5、第五层是数据访问层,对不同的需求方开放不同的数据角色和权限,以数据驱动业务。

大数据的量级,决定了大数据处理及应用的难度,需要利用特定的技术工具去处理大数据。

三、大数据处理技术

以最常使用的Hadoop为例:

Hadoop是Apache公司开发的一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。

集群是指,2台或2台以上服务器构建节点,提供数据服务。单台服务器,无法处理海量的大数据。服务器越多,集群的威力越大。

Hadoop类似于一个数据生态圈,不同的模块各司其职。下图是Hadoop官网的生态图。

Hadoop的LOGO是一只灵活的大象。关于LOGO的来源,网上众说纷纭,有人说,是因为大象象征庞然大物,指代大数据,Hadoop让大数据变得灵活。而官方盖章,LOGO来源于创始人Doug Cutting的孩子曾为一个大象玩具取名hadoop。

从上图可以看出,Hadoop的核心是HDFS,YARN和Map Reduce,下面和大家讲一讲,几个主要模块的含义和功能。

1、HDFS(分布式文件存储系统)

数据以块的形式,分布在集群的不同节点。在使用HDFS时,无需关心数据是存储在哪个节点上、或者是从哪个节点从获取的,只需像使用本地文件系统一样管理和存储文件系统中的数据。

2、Map Reduce(分布式计算框架)

分布式计算框架将复杂的数据集分发给不同的节点去操作,每个节点会周期性的返回它所完成的工作和最新的状态。大家可以结合下图理解Map Reduce原理:

计算机要对输入的单词进行计数:

如果采用集中式计算方式,我们要先算出一个单词如Deer出现了多少次,再算另一个单词出现了多少次,直到所有单词统计完毕,将浪费大量的时间和资源。

如果采用分布式计算方式,计算将变得高效。我们将数据随机分配给三个节点,由节点去分别统计各自处理的数据中单词出现的次数,再将相同的单词进行聚合,输出最后的结果。

3、YARN(资源调度器)

相当于电脑的任务管理器,对资源进行管理和调度。

4、HBASE(分布式数据库)

HBase是非关系型数据库(Nosql),在某些业务场景下,数据存储查询在Hbase的使用效率更高。

关于关系型数据库和菲关系型数据库的区别,会在以后的文章进行详述。

5、HIVE(数据仓库)

HIVE是基于Hadoop的一个数据仓库工具,可以用SQL的语言转化成Map Reduce任务对hdfs数据的查询分析。HIVE的好处在于,使用者无需写Map Reduce任务,只需要掌握SQL即可完成查询分析工作。

6、 Spark(大数据计算引擎)

Spark是专为大规模数据处理而设计的快速通用的计算引擎

7、Mahout(机器学习挖掘库)

Mahout是一个可扩展的机器学习和数据挖掘库

8、Sqoop

Sqoop可以将关系型数据库导入Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中

除上述模块外,Hadoop还有Zookeeper、Chukwa等多种模块,因为是开源的,所以未来还有出现更多更高效的模块,大家感兴趣可以上网了解。

通过Hadoop强大的生态圈,完成大数据处理流程。

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以留心多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

掌握这些大数据知识,面试官再也不会怕了!相关推荐

  1. 2021年大数据工程师面试内容包括哪些?

    2021年大数据工程师面试内容包括哪些? [导语]近年来,大数据发展如火如荼,很多人都选择学习大数据专业或者转行大数据,大数据里又包含很多就业岗位,所以在进行岗位选择的时候,还是需要大家合理选择,为了 ...

  2. 大数据分析师面试求职攻略

    面试大数据分析前焦虑怎么办? 如果你没有得到面试怎么办? 大数据分析师面试过程尴尬怎么办? 如何准备大数据分析师面试? 大数据分析师的面试技巧有哪些? 大数据分析师的面试注意事项有哪些? 如何在大数据 ...

  3. 字节跳动大数据研发面试——自我反省

    一.面试问题 自我介绍balabala- 1.1提问 线程与进程的理解.具体比如- 系统总线怎么理解 网络爬虫的通信过程,需要经历哪些过程 怎么通过链接找到服务器IP的 域名解析怎么理解.TCP/UD ...

  4. Interview:人工智能大数据岗位面试—【数据分析师】的简介、技能、待遇、进阶的详细攻略

    Interview:人工智能&大数据岗位面试-[数据分析师]的简介.技能.待遇.进阶的详细攻略 目录 数据分析师的简介 1.网友经验之谈 数据分析师的待遇 数据分析师的技能 数据分析师进阶 数 ...

  5. 大数据知识梳理(Hadoop、HDFS)(整理中。。。)

    大数据知识梳理(Hadoop.HDFS)(更新中...) 第1讲 大数据概述 1.1 大数据时代 1.2 大数据概念和影响 1.3 大数据的应用 1.4 大数据的关键技术 1.5 大数据与云计算.物联 ...

  6. 如何快速全面建立自己的大数据知识体系? 大数据 ETL 用户画像 机器学习 阅读232 作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据

    如何快速全面建立自己的大数据知识体系? 大数据 ETL 用户画像 机器学习 阅读232  作者经过研发多个大数据产品,将自己形成关于大数据知识体系的干货分享出来,希望给大家能够快速建立起大数据产品的体 ...

  7. 收藏!一张图帮你快速建立大数据知识体系

    简介: 对海量数据进行存储.计算.分析.挖掘处理需要依赖一系列的大数据技术,而大数据技术又涉及了分布式计算.高并发处理.高可用处理.集群.实时性计算等,可以说是汇集了当前 IT 领域热门流行的 IT ...

  8. 大数据学长面试之boss直聘面试题

    大数据学长面试之boss直聘面试题 1)技术部分 (1)hadoop二次排序 (2)小表关联大表怎么实现的|切片,shuffle,reduce阶段,map阶段,Yarn流程 (3)combiner使用 ...

  9. 大数据学长面试之瓜子二手车面试题

    大数据学长面试之瓜子二手车面试题 1)技术部分 (1)优化必问 hive/spark (2)为什么kafka可以实现高吞吐?单节点kafka的吞吐量也比其他消息队列大,为什么? (3)如果写了JVM调 ...

最新文章

  1. 如何快速下载maven依赖jar包
  2. Contact support button enablement logic
  3. Java Decompiler(Java反编译工具)
  4. 【渝粤教育】电大中专药物分析技术基础 (2)作业 题库
  5. 前端学习(1611):redux使用
  6. 95-070-040-源码-源码调试-FLINK源代码调试方式
  7. Spring Cloud与微服务学习总结(3)——认证鉴权与API权限控制在微服务架构中的设计与实现(一)
  8. 如何获取NuGet以安装/更新packages.config中的所有软件包?
  9. SonarLint各种提示的意思
  10. 来了!微信小程序五款最受欢迎的UI框架解读
  11. java工程师容易秃头吗_程序员因发际线后悔学java!
  12. 本地打印后台处理程序服务没有运行
  13. 用状态机做人物(AI)的状态切换以及动画效果——人物动画以及切换
  14. PCA为什么要进行中心化
  15. datadog windows 环境安装
  16. 两个免费的文献翻译网站,支持多种专业翻译,多种语言!
  17. 规则引擎-drools-5-决策表
  18. 抓取服务器作业文档不存在,易飞ERP客户问题集.doc
  19. TB6600最简单的驱动程序
  20. 零犀科技携手集智俱乐部:“因果派”论坛成功举办,“因果革命”带来下一代可信AI

热门文章

  1. 作者:张鹏(1993-),男,国防科学技术大学并行与分布处理重点实验室硕士生...
  2. C++——《算法分析》实验贰——最长公共子序列问题
  3. 两分数相乘后约分的Cantor表(洛谷P1482题题解,Java语言描述)
  4. 并非最边界的情况“OK“就真的“OK“(记洛谷P1720WA的经历,Java语言描述)
  5. 【C语言】通过原子操作实现加减乘除功能Ⅰ
  6. 常见的新算法的标准测试函数(Ackely,Rastrigin,Griewangk,SumSquartes,Sphere,Quartic,Schwefel' Problem等)
  7. Sublime Text 3 常用快捷键汇总
  8. 手把手教你写一个微信小程序日历组件
  9. Oracle基础 游标
  10. Programming 2D Games 读书笔记(第二章)