hadoop快速入门

1. 什么是大数据

大数据核心含义是一种技术革新
随着互联网时代的深入,产生了越来越多的数据,比如:
1、电商产生的大量用户浏览、购物行为
2、移动运营商记录了大量的用户上网行为
3、网络舆情分析—-营销支撑
4、金融系统征信分析
。。。。。。。

上述的这些需求,用以前的传统技术无法胜任,需要有一个全新的技术体系来支撑
在此背景之下,就产生了一系列针对海量数据进行处理的技术;

总结:“大数据”这个概念核心是指一系列针对海量数据进行处理的新技术
大数据技术的主要功能:处理海量数据

2. 大数据应用场景

例如下图 购买了商品用户还购买了,下面的数据就是海量数据处理的结构

下面的”猜你喜欢” 后台的一些算法模型,加一些用户行为而得出的

网易云音乐 也是采用这种数据

以及优酷和爱奇艺的广告推送
精准广告推送:对海量互联网用户的相关数据统计分析——核心:用户画像

淘宝
推荐:——要大数据
我的淘宝:——已购买的宝贝:系统功能的实现都需要依赖大数据技术,需要一个分布式的快速响应的海量数据库系统

3. 大数据技术简介

大数据技术基本上都需要解决两个核心需求:

3.1. 数据存储

一般都是采用分布式存储:
将数据(文件)分散到一个集群上的N多台机器上存储

3.2. 数据运算

什么叫运算:
比如,有一堆用户浏览商品的行为记录,需要统计出:
最热门的top100个商品;
每个人一次访问平均浏览了多少个商品;
每一个商品被人浏览时,同时还会有哪些商品跟随着被浏览;
…….
上述这些数据分析需求,最终都会转化成程序来实现,程序的运行最终又是机器CPU+内存+磁盘等硬件资源的运行;

在海量数据的场景下,单机资源无法满足运算的需要,所以,在大数据体系下,一切数据运算逻辑的实现都得靠:分布式运算系统

4. 什么是hadoop

上文所述,分布式存储、分布式运算,都应该由成熟的框架来提供
Hadoop就是其中的一种框架
Hadoop就能提供分布式存储及分布式运算的功能:
1、HADOOP中有一个组件:HDFS——分布式存储
2、HADOOP中有一个组件:MAPREDUCE——分布式运算
3、HADOOP中有一个组件:YARN——为MAPREDUCE提供硬件资源调度

但是HADOOP的核心组件,极为底层,如果直接基于这个底层框架来开发我们的数据分析逻辑,比较繁琐,开发效率很低,所以,在HADOOP这个底层框架之上,又衍生了大量的快捷开发工具:
1、HIVE : 可以让用户只要写SQL来表达数据处理逻辑即可

hadoop快速入门相关推荐

  1. Hadoop快速入门——入门考试(伪分布式60+编码25+执行jar15)

    Hadoop快速入门--入门考试(伪分布式60+编码25+执行jar15) 目录 一.伪分布式搭建(60分) 1.创建1台Linux虚拟机,并打开对应的网络连接(VMnet8)(5分) 2.通过xsh ...

  2. Hadoop快速入门——第三章、MapReduce案例(字符统计)

    Hadoop快速入门--第三章.MapReduce案例 目录 环境要求: 1.项目创建: 2.修改Maven 3.编码 4.本地文件测试 5.修改[Action]文件(修改测试文件路径) 6.导出ja ...

  3. Hadoop快速入门——第四章、zookeeper安装

    Hadoop快速入门--第四章.zookeeper安装 压缩包下载地址:[https://download.csdn.net/download/feng8403000/85227883] 目录 1.上 ...

  4. 大数据技术之Hadoop(快速入门)

    目录 第一章 Hadoop概述 1.1 什么是Hadoop 1.2  Hadoop 产生背景 Hadoop之父:Doug cutting 1.3  Hadoop 三大发行版本 Hadoop 三大发行版 ...

  5. 【Hadoop快速入门】Hdfs、MapReduce、Yarn

    1. Hahoop概述 1.1 Hodoop是什么 1) Hadoop是一个有Apache基金会所开发的分布式系统基础架构 2) 主要解决海量数据的存储和海量数据的分析计算问题 3) 广义上来说,Ha ...

  6. 4.2.Hadoop快速入门

    python编程快速上手(持续更新中-) 推荐系统基础 文章目录 python编程快速上手(持续更新中-) 推荐系统基础 1 HADOOP概述 1.1 什么是Hadoop Hadoop名字的由来 Ha ...

  7. hadoop快速入门之DKH安装准备

    2019独角兽企业重金招聘Python工程师标准>>> 前几天去参加了一个线下的聚会,参加聚会的基本都是从事互联网工作的.会上有人提到了区块链,从而引发了一场关于大数据方面的探讨.我 ...

  8. Hadoop快速入门——第一章、认识Hadoop

  9. Apache Hive 快速入门 (CentOS 7.3 + Hadoop-2.8 + Hive-2.1.1)

    2019独角兽企业重金招聘Python工程师标准>>> 本文节选自<Netkiller Database 手札> 第 63 章 Apache Hive 目录 63.1. ...

  10. 150页书籍《PyTorch 深度学习快速入门指南》附PDF电子版

    为什么说是极简教程,首先本书只涵盖了150页.内容比较精简,特别适合作为 PyTorch 深度学习的入门书籍.为什么这么说呢?因为很多时候,一份厚重的书籍往往会削弱我们学习的积极性,在学习一门新的语言 ...

最新文章

  1. android4.0浏览器在eclipse中编译的步骤
  2. 《卫生信息基本数据集编制规范》等23项行业标准的通告
  3. python是基于什么语言开发-2.python是什么编程语言。
  4. 关于论文检索的几点知识
  5. Oracle 11g创建Interval分区表
  6. loj 1251(2-sat + 输出一组可行解)
  7. java日志级别的作用_Java系统日志级别对性能的影响性
  8. 使用PostSharp进行AOP框架设计:一个简单的原型
  9. 基于声波的手势识别技术
  10. fn键台式计算机在哪,fn键在哪?老司机教你fn键使用方法
  11. android 视频画面切割,安卓手机如何剪裁视频 手机视频裁剪多余部分
  12. 华南师范大学 计算机学院 赵,罗子颖 计算机学院
  13. 适合c语言初学者的刷题网站
  14. 解决unable to find valid certification path to requested target
  15. 微信小程序实例:开发showToast消息提示接口
  16. poj 1013 模拟 天平问题
  17. linux下swf播放工具
  18. Microsoft CMT 系统
  19. 岭南(含广东广西海南)地形及DEM下载
  20. mysql against 中文_「against的用法」Mysql全文搜索之MATCH...AGAINST的用法介绍 - seo实验室...

热门文章

  1. 最新小浣熊5.0漫画CMS精仿土豪漫画系统源码
  2. php20行代码写小偷程序,PHP100教你20行代码写小偷程序
  3. 机器学习 - 贝叶斯网络
  4. 科普:史上最强单片机
  5. JAVA贪吃蛇(简易版)
  6. cruise软件模型,cruise增程混动仿真模型,功率跟随控制策略,Cruise混动仿真模型,串联混动汽车动力性经济性仿真
  7. 计算机软件专业搞腾讯地图,腾讯地图电脑离线版
  8. 网络安全-应急响应之入侵排查篇及相关工具
  9. 【数字逻辑与EDA技术】数字电子技术基础-期末考试重点总结
  10. hp1008win7驱动问题