Hadoop入门介绍
Hadoop入门介绍
- Hadoop背景介绍
- 发展钱途
- 什么是Hadoop
- Hadoop产生背景
- Hadoop生态圈
- 国内应用
- 用户画像
- HADOOP用于网站点击流日志数据挖掘
- 大屏展示
- 离线数据分析
- 案例需求描述
- 数据来源
- 流程解析
- 项目架构图
- 项目效果图
Hadoop背景介绍
发展钱途
什么是Hadoop
- HADOOP是apache旗下的一套开源软件平台
- HADOOP提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理
- HADOOP的核心组件有
A. HDFS(分布式文件系统)
B. YARN(运算资源调度系统)
C. MAPREDUCE(分布式运算编程框架) - 广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈
Hadoop hive hbase flume kafka sqoop spark flink …….
Hadoop产生背景
- HADOOP最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
- 2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。
——分布式文件系统(GFS),可用于处理海量网页的存储
——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。 - Nutch的开发人员完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目,迎来了它的快速发展期。
Hadoop生态圈
国内应用
用户画像
HADOOP用于网站点击流日志数据挖掘
大屏展示
离线数据分析
web日志数据挖掘
案例需求描述
“Web点击流日志”包含着网站运营很重要的信息,通过日志分析,我们可以知道网站的访问量,哪个网页访问人数最多,哪个网页最有价值,广告转化率、访客的来源信息,访客的终端信息等。
数据来源
获取方式:在页面预埋一段js程序,为页面上想要监听的标签绑定事件,只要用户点击或移动到标签,即可触发ajax请求到后台servlet程序,用log4j记录下事件信息,从而在web服务器(nginx、tomcat等)上形成不断增长的日志文件。
形如:
58.215.204.118 - - [18/Sep/2013:06:51:35 +0000] "GET /wp-includes/js/jquery/jquery.js?ver=1.10.2 HTTP/1.1" 304 0 "http://blog.fens.me/nodejs-socketio-chat/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0"
流程解析
- 数据采集:定制开发采集程序,或使用开源框架FLUME
- 数据预处理:定制开发mapreduce程序运行于hadoop集群
- 数据仓库技术:基于hadoop之上的Hive
- 数据导出:基于hadoop的sqoop数据导入导出工具
- 数据可视化:定制开发web程序或使用kettle等产品
- 整个过程的流程调度:hadoop生态圈中的oozie工具或其他类似开源产品
项目架构图
项目效果图
Hadoop入门介绍相关推荐
- 第五十九课 Hadoop入门介绍
Hadoop入门 Hadoop入门 Hadoop 2.0介绍 转载于:https://blog.51cto.com/liwenjia/1881373
- hadoop入门介绍(一)
hadoop是什么?(一) hadoop发展史 (二) Hadoop三大发行版本(三) Hadoop三大发行版本:Apache.Cloudera.Hortonworks. Apache版本最原始(最基 ...
- hadoop 入门介绍(大数据介绍)
大数据概论 .1 大数据概念 主要解决,海量存储和海量数据的分析计算问题. 2 大数据特点 1>Volume(大量) 2>Velocity(高速) 3>Variety(多样) 4&g ...
- 大数据技术Hadoop入门理论系列之一----hadoop生态圈介绍
Technorati 标记: hadoop,生态圈,ecosystem,yarn,spark,入门 1. hadoop 生态概况 Hadoop是一个由Apache基金会所开发的分布式系统基础架构. 用 ...
- 大数据介绍、集群环境搭建、Hadoop介绍、HDFS入门介绍
大数据介绍.集群环境搭建.Hadoop介绍.HDFS入门介绍 文章目录 大数据介绍.集群环境搭建.Hadoop介绍.HDFS入门介绍 1.课前资料 2.课程整体介绍 3.大数据介绍 3.1 什么是大数 ...
- Hadoop新手篇:hadoop入门基础教程
Hadoop新手篇:hadoop入门基础教程 关于hadoop的分享此前一直都是零零散散的想到什么就写什么,整体写的比较乱吧.最近可能还算好的吧,毕竟花了两周的时间详细的写完的了hadoop从规划到环 ...
- 一.hadoop入门须知
目录: 1.hadoop入门须知 2.hadoop环境搭建 3.hadoop mapreduce之WordCount例子 4.idea本地调试hadoop程序 5.hadoop 从mysql中读取数据 ...
- Hadoop新手篇:hadoop入门基础教程 1
Hadoop新手篇:hadoop入门基础教程 关于hadoop的分享此前一直都是零零散散的想到什么就写什么,整体写的比较乱吧.最近可能还算好的吧,毕竟花了两周的时间详细的写完的了hadoop从规划到环 ...
- [学习笔记]黑马程序员-Hadoop入门视频教程
文章目录 参考资料 第一章:大数据导论与Linux基础(p1-p17) 1.1 大数据导论 1.1.1 企业数据分析方向 1.1.2 数据分析基本流程步骤 明确分析的目的和思路 数据收集 数据处理 数 ...
最新文章
- 解决Win10下_findnext()异常
- javascript中var、let、const声明的区别
- 图的基本运算及智能交通中的最佳路径选择问题
- 用PHP实现单向链表
- 2017年------阿里大神带你详解Dubbo架构设计
- python另存为excel_在Python中将Excel另存为HTML
- BZOJ 3083: 遥远的国度(树链剖分+DFS序)
- aop统计请求数量_使用SpringAOP获取一次请求流经方法的调用次数和调用耗时
- Divide Two Integers leetcode java
- python安装详细步骤windows10_Windows10系统安装Python教程
- 解决Mac App Store下载软件一直转圈无法完成的问题,黑白苹果均有效
- 手机的进化,离不开手机行业的“血海狂战”
- 网络技术与技术革命周末随想
- swift野梦抄袭 taylor_霉霉Taylor Swift今日出新单,歌词甜腻得让我联想到多年前的那位“野梦男主”!...
- 嵌入式视频处理基本原理part1
- 多模块初始化解决方案
- 策略模式与工厂模式的区别
- 浅谈 D-Bus、udevd 和 hald
- 一文让你彻底会用对象存储OSS的前端直传,不懂就再看一遍(bushi)
- php获取prepay_id时报错,微信支付获取prepay_id返回签名错误,官方demo中的签名方法MD5验证有问题...