Hadoop的应用场景
其实我们要知道大数据的实质特性:针对增量中海量的结构化,非结构化,半结构数据,在这种情况下,如何快速反复计算挖掘出高效益的市场数据?
带着这个问题渗透到业务中去分析,就知道hadoop需要应用到什么业务场景了!!!如果关系型数据库都能应付的工作还需要hadoop吗?
比如
1.银行的信用卡业务,当你正在刷卡完一笔消费的那一瞬间,假如在你当天消费基础上再消费满某个额度,你就可以免费获得某种令你非常满意的利益等等,你可能就会心动再去消费,这样就可能提高银行信用卡业务,那么这个消费额度是如何从海量的业务数据中以秒级的速度计算出该客户的消费记录,并及时反馈这个营销信息到客户手中呢?这时候关系型数据库计算出这个额度或许就需要几分钟甚至更多时间,就需要hadoop了,这就是所谓的“秒级营销”. 针对真正的海量数据,一般不主张多表关联。
2. 在淘宝,当你浏览某个商品的时候,它会及时提示出你感兴趣的同类商品的产品信息和实时销售情况,这或许也需要用到hadoop.
3. 就是报表用到的年度报告或者年度环比数据报告的时候也会用到hadoop去计算.
4.搜索引擎分析的时候应该也会用到。一个网友说过,其实还是看big data能否带来多大的效益!比如银行在躺着都赚钱的情况下,big data不一定是银行的项目. 况且hadoop是新兴技术,银行业对新技术还是相对保守的.
hadoop 主要用于大数据的并行计算 并行计算按计算特征分为:
- 数据密集型并行计算:数据量极大,但是计算相对简单的并行处理
如:大规模Web信息搜索 - 计算密集型并行计算:数据量相对不是很大,但是计算较为复杂的并行计算
如:3-D建模与渲染,气象预报,科学计算 - 数据密集与计算密集混合型的并行计算
如:3-D电影的渲染hadoop比较擅长的是数据密集的并行计算。它主要是对不同的数据做相同的事情,最后再整合。
我知道以及曾经实验过的hadoop的例子有wordCount (相当于hadoop的HelloWorld的程序);文档倒排索引;PageRank;K-Means 算法;这些程序都可以从网上找到相应的解决方案。
hadoop的是根据Google MapReduce 提出的开源版本。但是它的性能不是很好。
hadoop主要应用于数据量大的离线场景。特征为:
1、数据量大。一般真正线上用Hadoop的,集群规模都在上百台到几千台的机器。这种情况下,T级别的数据也是很小的。Coursera上一门课了有句话觉得很不错:Don't use hadoop, your data isn't that big
2、离线。Mapreduce框架下,很难处理实时计算,作业都以日志分析这样的线下作业为主。另外,集群中一般都会有大量作业等待被调度,保证资源充分利用。
3、数据块大。由于HDFS设计的特点,Hadoop适合处理文件块大的文件。大量的小文件使用Hadoop来处理效率会很低。
举个例子,百度每天都会有用户对侧边栏广告进行点击。这些点击都会被记入日志。然后在离线场景下,将大量的日志使用Hadoop进行处理,分析用户习惯等信息。
Hadoop的应用场景相关推荐
- GitChat · 大数据 | 一步一步学习大数据:Hadoop 生态系统与场景
目录(?)[-] Hadoop概要 Hadoop相关组件介绍 HDFS Yarn Hive HBase Spark Other Tools Hadoop集群硬件和拓扑规划 硬件配置 软件配置 Hado ...
- 10个Hadoop的应用场景
谁在用 Hadoop这是个问题.在大数据背景下,Apache Hadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深.但谁才是 Hadoop的最大用户呢?首先想到的当然是它的 ...
- hadoop的应用场景分析
其实我们要知道大数据的实质特性:针对增量中海量的结构化,非结构化,半结构数据,在这种情况下,如何快速反复计算挖掘出高效益的市场数据? 带着这个问题渗透到业务中去分析,就知道hadoop需要应用到什么业 ...
- [Hadoop] 实际应用场景之 - 阿里
Hadoop在淘宝和支付宝的应用从09年开始,用于对海量数据的离线处理,例如对日志的分析,也涉及内容部分,结构化数据等.使用Hadoop主要基于可扩展性的考虑,规模从当初的3-4百节点增长到今天单一集 ...
- hadoop应用场景总结
原文地址 我个人接触hadoop仅仅不到一年,因为是业余时间学习,故进度较慢,看过好多视频,买过好多书,学过基本知识,搭建过伪分布式集群,有过简单的教程式开发,恰逢毕业季,面试过相关岗位,自认为路还很 ...
- hadoop的一些应用场景总结
hadoop的十大应用场景? hadoop到底能做什么? 2012年美国著名科技博客GigaOM的专栏作家Derrick Harris跟踪云计算和Hadoop技术已有多年时间,在一篇文章中总结了10个 ...
- Hadoop的十大应用场景
author:skate time:2012/07/26 谁在用Hadoop?这是个问题.在大数据背景下,Apache Hadoop已经逐渐成为一种标签性,业界对于这一开源分布式技术的了解也在不断加深 ...
- Peter Cnudde谈雅虎如何使用Hadoop、深度学习和大数据平台
\ 本文要点 \ 了解雅虎如何利用Hadoop和大数据平台技术: \ 在类似Flickr和Esports这样的产品中,雅虎如何使用深度学习技术进行场景检测和对象识别: \ 机器学习在图像识别.定向广告 ...
- 高可用Hadoop平台-Oozie工作流
1.概述 在开发Hadoop的相关应用使用,在业务不复杂,任务不多的情况下,我们可以直接使用Crontab去完成相关应用的调度.今天给大家介绍的是统一管理各种调度任务的系统,下面为今天分享的内容目录: ...
最新文章
- iOS App 连接外设的几种方式
- java thread通知_JAVA 多线程(6):等待、通知 (1)
- Spring中@Pattern的使用
- hdu2830 可交换行的最大子矩阵
- 使用nomad部署mysql
- 分分钟带你欣赏ES6语法糖
- ajax 使用 JSONP 时,只能 GET 不能 POST
- PL/SQL - 03
- CentOS6.8下安装memcached并设置开机自启动
- Flask项目--发送短信验证码
- python鸭制作类代码_详细解释ducktyping鸭子类型程序设计与Python的实现
- pycharm引用python_在Python/Pycharm中找不到引用“xxx”
- js将手机号中间四位变成*号
- 一般处理程序里使用session对象为null,未将对象引用到实例化
- 简单使用Jconsole
- 串口程序设计——struct termios结构体
- Ubuntu使用Flux调节色温保护眼睛
- 解决Visio另存为(或者导出)pdf字符间距变化/不均等字母间距的问题
- Qt 开源项目收集大全
- php日志分析,PHP SeasLog实现高性能日志记录
热门文章
- 第三代基因测序技术革新 云计算的应用 1
- 卖家围攻手段变种 韩都衣舍淘宝商城店关闭
- 网上找的战99笔记本信息(惠普HP ZHAN99 G1)(4SA53PA)
- coos.$script 动态插入脚本并执行的方法
- 腾讯csig电话面试
- 自动更新局域网系统补丁[来源网路]
- Golang 具名返回参数 具名返回值 定义方法
- [附源码]计算机毕业设计springboot校园服装租赁系统
- HTML5七夕情人节表白网页(绘制冬季下雪3D相册) HTML+CSS+JS 求婚 html生日快乐祝福代码网页 520情人节告白代码 程序员表白源码 3D旋转相册 js烟花代码 css爱心
- C# CheckListBox控件