Hadoop入门介绍

  • Hadoop背景介绍
    • 发展钱途
    • 什么是Hadoop
    • Hadoop产生背景
    • Hadoop生态圈
  • 国内应用
    • 用户画像
    • HADOOP用于网站点击流日志数据挖掘
    • 大屏展示
  • 离线数据分析
    • 案例需求描述
    • 数据来源
    • 流程解析
    • 项目架构图
    • 项目效果图

Hadoop背景介绍

发展钱途

什么是Hadoop

  1. HADOOP是apache旗下的一套开源软件平台
  2. HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理
  3. HADOOP的核心组件有
    A. HDFS(分布式文件系统)
    B. YARN(运算资源调度系统)
    C. MAPREDUCE(分布式运算编程框架)
  4. 广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈
    Hadoop hive hbase flume kafka sqoop spark flink …….

Hadoop产生背景

  1. HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
  2. 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。
    ——分布式文件系统(GFS),可用于处理海量网页的存储
    ——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。
  3. Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。

Hadoop生态圈

国内应用

用户画像

HADOOP用于网站点击流日志数据挖掘

大屏展示


离线数据分析

web日志数据挖掘

案例需求描述

“Web点击流日志”包含着网站运营很重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值,广告转化率、访客的来源信息,访客的终端信息等。

数据来源

获取方式:在页面预埋一段js程序,为页面上想要监听的标签绑定事件,只要用户点击或移动到标签,即可触发ajax请求到后台servlet程序,用log4j记录下事件信息,从而在web服务器(nginx、tomcat等)上形成不断增长的日志文件。
形如:

58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"

流程解析

  1. 数据采集:定制开发采集程序,或使用开源框架FLUME
  2. 数据预处理:定制开发mapreduce程序运行于hadoop集群
  3. 数据仓库技术:基于hadoop之上的Hive
  4. 数据导出:基于hadoop的sqoop数据导入导出工具
  5. 数据可视化:定制开发web程序或使用kettle等产品
  6. 整个过程的流程调度:hadoop生态圈中的oozie工具或其他类似开源产品

项目架构图

项目效果图

本文由鹏鹏出品
更多文章请访问韩利鹏的博客

Hadoop入门介绍相关推荐

  1. 第五十九课 Hadoop入门介绍

    Hadoop入门 Hadoop入门 Hadoop 2.0介绍 转载于:https://blog.51cto.com/liwenjia/1881373

  2. hadoop入门介绍(一)

    hadoop是什么?(一) hadoop发展史 (二) Hadoop三大发行版本(三) Hadoop三大发行版本:Apache.Cloudera.Hortonworks. Apache版本最原始(最基 ...

  3. hadoop 入门介绍(大数据介绍)

    大数据概论 .1 大数据概念 主要解决,海量存储和海量数据的分析计算问题. 2 大数据特点 1>Volume(大量) 2>Velocity(高速) 3>Variety(多样) 4&g ...

  4. 大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍

    Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...

  5. 大数据介绍、集群环境搭建、Hadoop介绍、HDFS入门介绍

    大数据介绍.集群环境搭建.Hadoop介绍.HDFS入门介绍 文章目录 大数据介绍.集群环境搭建.Hadoop介绍.HDFS入门介绍 1.课前资料 2.课程整体介绍 3.大数据介绍 3.1 什么是大数 ...

  6. Hadoop新手篇:hadoop入门基础教程

    Hadoop新手篇:hadoop入门基础教程 关于hadoop的分享此前一直都是零零散散的想到什么就写什么,整体写的比较乱吧.最近可能还算好的吧,毕竟花了两周的时间详细的写完的了hadoop从规划到环 ...

  7. 一.hadoop入门须知

    目录: 1.hadoop入门须知 2.hadoop环境搭建 3.hadoop mapreduce之WordCount例子 4.idea本地调试hadoop程序 5.hadoop 从mysql中读取数据 ...

  8. Hadoop新手篇:hadoop入门基础教程 1

    Hadoop新手篇:hadoop入门基础教程 关于hadoop的分享此前一直都是零零散散的想到什么就写什么,整体写的比较乱吧.最近可能还算好的吧,毕竟花了两周的时间详细的写完的了hadoop从规划到环 ...

  9. [学习笔记]黑马程序员-Hadoop入门视频教程

    文章目录 参考资料 第一章:大数据导论与Linux基础(p1-p17) 1.1 大数据导论 1.1.1 企业数据分析方向 1.1.2 数据分析基本流程步骤 明确分析的目的和思路 数据收集 数据处理 数 ...

最新文章

  1. 解决Win10下_findnext()异常
  2. javascript中var、let、const声明的区别
  3. 图的基本运算及智能交通中的最佳路径选择问题
  4. 用PHP实现单向链表
  5. 2017年------阿里大神带你详解Dubbo架构设计
  6. python另存为excel_在Python中将Excel另存为HTML
  7. BZOJ 3083: 遥远的国度(树链剖分+DFS序)
  8. aop统计请求数量_使用SpringAOP获取一次请求流经方法的调用次数和调用耗时
  9. Divide Two Integers leetcode java
  10. python安装详细步骤windows10_Windows10系统安装Python教程
  11. 解决Mac App Store下载软件一直转圈无法完成的问题,黑白苹果均有效
  12. 手机的进化,离不开手机行业的“血海狂战”
  13. 网络技术与技术革命周末随想
  14. swift野梦抄袭 taylor_霉霉Taylor Swift今日出新单,歌词甜腻得让我联想到多年前的那位“野梦男主”!...
  15. 嵌入式视频处理基本原理part1
  16. 多模块初始化解决方案
  17. 策略模式与工厂模式的区别
  18. 浅谈 D-Bus、udevd 和 hald
  19. 一文让你彻底会用对象存储OSS的前端直传,不懂就再看一遍(bushi)
  20. php获取prepay_id时报错,微信支付获取prepay_id返回签名错误,官方demo中的签名方法MD5验证有问题...

热门文章

  1. 2021年全国大学生软件测试大赛web应用测试预选赛试题及答案
  2. NY8A051F 6 I/O 8-bit EPROM-Based MCU 台湾九齐单片机
  3. 最大后验概率译码、最大似然译码
  4. SimpleDateFormat替换方案
  5. 民工哥的十年故事续集:杭漂十年,今撤霸都!
  6. Code::Blocks使用教程
  7. Hexo 博客优化之博客美化系列(持续更新)
  8. Linux开发板C语言实现LED闪烁
  9. ig夺冠后服务器不稳定,LOL道歉声明:没有不重视IG 只因夺冠当晚服务器太卡
  10. 建议收藏 | 应用程序无法安装MAC系统或解决的办法