许多公司都在为管理海量数据不断努力。以前,他们都使用数据仓库平台,用这种传统架构在处理来自内部和外部数据源的数据时有很大困难,这些数据的结构和内容类型通常非常多样化,但Hadoop可以对此场景提供帮助。Hadoop是一款分布式处理架构,专门用来处理复杂的海量大数据,处理结构化、非结构化和半结构化数据混杂的场景。

Hadoop的部分优势在于,它有许多种开源组件和相关工具,可以完成数据捕获、处理、管理和分析工作。为了帮助用户利用好该框架,许多供应商提供了商业版Hadoop分布式产品,它们在Hadoop基础之上提供了性能和功能方面的扩展,并提供对该框架的维护和支持服务。

Hadoop分布式应用的案例场景

Hadoop运行在商用服务器集群环境中,这种环境通常用来支持数据分析而不是联机事务处理应用。有几种更加通用的分析应用案例可以很好地展示Hadoop分布式数据处理和并行计算模型:

  • 业务智能应用要从事务处理系统和组织资产系统中捕获流式数据,监视性能水平,应用预测分析做预备维护或者处理变更。
  • Web分析本来是为了帮助公司理解站点访问者的在线活动情况,通过检查Web服务器日志来检测系统性能问题,发掘营销信息。
  • 安全和风险管理,例如:运行分析模型把事务数据与欺诈活动模式知识库做比较,利用持续网络安全分析识别新出现的可疑行为。
  • 营销优化,包括利用大量网络点击和在线销售数据,再结合客户档案信息设计形成推荐引擎提供实时产品捆绑销售建议。
  • 物联网应用,例如从制造业设备、管道和所谓智能建筑安置的传感器终端获取数据做分析,这些传感器会持续生成并广播关于状态和性能的信息。
  • 语义分析和品牌保护,可能需要捕获流式社交媒体数据并分析文本,识别出有意见的客户提出的问题并快速解决。
  • 大数据收集、处理和整合场景,例如捕获卫星图像和地理空间数据。
  • 数据暂存,Hadoop用于做第一手数据的存储,然后才会做整合、清洗和转换为更加结构化的格式,未来加载到数据仓库或分析数据库用于分析。

Hadoop分布式应用的实现方式

支持以上这些应用场景的应用都可以基于Hadoop构建,可以使用一些典型的实现方法。说明如下:

数据湖。因为Hadoop提供了线性扩展能力,集群架构中很容易加入新数据节点做处理和存储,因此它提供了非常自然的平台用于捕获和管理原始数据文件。基于这一特性,许多用户把Hadoop系统用作捕获所有数据的平台,创造了数据湖的概念。

增强的数据仓库平台。Hadoop分布式存储还可以用于扩展数据,供数据仓库环境访问用于分析。最频繁使用的“热数据”存储在数据仓库中,而不太频繁的“冷数据”可以提交到更高延时的存储,例如Hadoop分布式文件系统。这种方法依赖于数据仓库与Hadoop集成的紧耦合。

大规模批量计算引擎。如果配置了数据和计算节点,Hadoop就变成了大规模并行处理平台,可以用于批量处理应用做数据操作和分析。数据标准化就是很好的例子,可以对数据集应用转换任务为分析做准备。算法驱动的分析应用(例如数据挖掘、机器学习、模式分析和预测模型)都可以用到Hadoop的批处理能力,因为他们都需要针对海量分布式数据文件并行处理,并叠加并行处理结果后提供最终结果集。

事件流分析处理引擎。Hadoop环境还可以配置为实时或准实时处理收到的数据流。例如,客户感受分析应用可以把多个通讯代理并行运行于Hadoop集群上,每个代理都有一套处理规则。

选择Hadoop的优势:它真的适合你吗?

Hadoop是低成本高性能的计算框架,可以处理各种IT和业务场景中组织对扩展处理能力或者扩展数据管理能力的需求。下面总结一下应用需求的特点以及建议选择的基于Hadoop分布式应用的数据管理平台。

获取和处理大数据规范集、大规模非结构化数据和流式数据。例如,捕获包含数十亿在线事件信息的Web服务器日志;跨不同数据集索引亿级文档;从众多渠道持续拉取数据流(诸如:社交媒体渠道、证券市场数据、新闻发布源和专家团队发布的内容等渠道)。

  • 排除性能障碍的需求。在传统数据仓库系统中,通常会有节流阀控制对数据的访问、延时、可用性或者贷款限制来保障应用性能,这与需要处理的数据量有关。
  • 针对性能的线性可扩展性。随着数据量的增长和用户数增加,环境性能可以随着计算能力和存储资源线性扩展是非常关键的能力,尤其是在应用程序适合并行计算的场景下更是如此。
  • 结构化数据和非结构化数据的混合场景。应用程序需要使用不同数据源的数据,包括结构化、非结构化和半结构化的数据。例如:文本数据或者服务器日志数据。
  • IT成本有效性。不需要花费购买高端服务器或者专门的硬件设备,系统架构师相信使用正常配置就可以达到可接受的性能。

Hadoop应用到企业中

尽管把Hadoop平台整合到企业应用中是完全可行的,但使用Hadoop获益仍然要考虑权衡。因为许多组织已经在传统数据仓库平台上做了巨大投资,因此引入更新的技术可能会遇到一些阻力。在引入Hadoop分布式产品供应商之前,需要先解决潜在的障碍,评估集群规模和配置需求。

例如,要判断Hadoop集群如何与组织的数据仓库和分析策略融合,判断是否可以增强现有数据仓库功能甚至替换它。另外,要判断整合和交互方面需要处理的问题,审查配置可替代物,包括是否可以更有利于实施内部Hadoop生态系统,或者基于云或者托管环境。此外,要确保你已经聘用了具备相应技能的员工或者对现有职员进行再培训。Hadoop应用开发与传统数据库开发差异是很大的。

本文作者:冯昀晖

来源:51CTO

Hadoop真的适合你吗?相关推荐

  1. 想学python编程-想学Python编程?你真的适合吗?

    原标题:想学Python编程?你真的适合吗? 有的人说我想学什么.我想干什么,很多时候都是头脑发热,单凭一腔热血,可是这样的路即便走上去你又能坚持多久呢?所以,每每有人问我学Python编程怎么样,我 ...

  2. aspnet还有人用吗_别盲目跟风!理性分析:超火的小香风外套真的适合你吗?

    别盲目跟风!理性分析:超火的小香风外套真的适合你吗? 要说到小香风的话,其实就是啊老生常谈了.小香风作为香奶奶家最为经典的款式无疑代表着品牌文化魅力特有的优雅和端庄.不管是在上世纪还是现在都是时尚界的 ...

  3. 哪个专业学python语言_想学Python编程?你真的适合吗?

    原标题:想学Python编程?你真的适合吗? 有的人说我想学什么.我想干什么,很多时候都是头脑发热,单凭一腔热血,可是这样的路即便走上去你又能坚持多久呢?所以,每每有人问我学Python编程怎么样,我 ...

  4. 小程序服务器1兆宽带够用,宽带经验 篇一:200M宽带,真的适合你吗?

    宽带经验 篇一:200M宽带,真的适合你吗? 2019-01-13 10:13:24 13点赞 28收藏 4评论 今天有个朋友问我,我家前两天升级宽带套餐,由100M升级为200M,可是怎么感觉网速没 ...

  5. 你真的适合做前端开发吗?

    朋友,你真的适合做前端开发吗?换句话说,在开发这一领域里你适合前端开发吗? 互联网的岗位很多,光是一个前端,就包含:web前端,安卓,ios. 而web前端需要掌握哪些东西呢?随着时间的流逝,互联网越 ...

  6. 直播真的适合金融行业吗?

    随着"直播+"与各行业的相继结合,金融行业也坐不住了,纷纷开展直播+培训.直播+营销.直播+带货,不禁让人产生疑问:直播真的适合金融行业吗? 直播与金融的适配性 随着人们的可支配收 ...

  7. 分库分表真的适合你的系统吗?聊聊分库分表和NewSQL如何选择

    曾几何时,"并发高就分库,数据大就分表"已经成了处理 MySQL 数据增长问题的圣经. 面试官喜欢问,博主喜欢写,候选人也喜欢背,似乎已经形成了一个闭环. 但你有没有思考过,分库分 ...

  8. 分库分表和NewSQL如何选择?分库分表真的适合你的系统吗?

    曾几何时,"并发高就分库,数据大就分表"已经成了处理 MySQL 数据增长问题的圣经. 面试官喜欢问,博主喜欢写,候选人也喜欢背,似乎已经形成了一个闭环. 但你有没有思考过,分库分 ...

  9. 直播带货,真的适合在线教育吗?

    教育直播在年初的疫情环境下,可谓是火了一把,不过现在热度依然不减,直播授课是教育界最普遍的模式,那么在教育直播插入带货这一个模式,会怎样呢?直播带货真的适合在线教育吗? 近段时间,罗永浩在教育直播中带 ...

最新文章

  1. 最简便的清空memcache的方法
  2. 介绍下重绘和回流(Repaint Reflow),以及如何进行优化
  3. 电阻应用电路之指示灯电路的设计
  4. 即将直播:新一代大数据技术构建PB级云端数仓实践
  5. 云计算:容器技术变革云计算,SaaS带动CaaS市场
  6. WCF服务端基于配置的实现——拦截
  7. LG显示将在坡州工厂为iPhone 14 Pro Max生产120Hz刷新率屏幕
  8. request,response传入线程值会变为null
  9. asp.net 母版页使用详解--转
  10. Python——公司又双叒叕更新通讯录了,利用itchat实现微信速查公司通讯录
  11. 编辑手机pad端调试方法
  12. html展开收起样式,前端网页内容实现展开/收起全文的操作(js+css控制高度实现)...
  13. 微信小程序---配置微信商户平台进行微信支付操作指南以及踩坑记录
  14. 深入浅出 CSS 动画
  15. 百度HI QQ,MSN ,阿里旺旺,贸易通,MSN在线客服,线聊天代码
  16. 通俗易懂,unity和c#是什么关系
  17. 三、mongdb 查询
  18. Docker监控远程服务器
  19. 配置EF Core的DbContext
  20. JavaEE——HTTP协议

热门文章

  1. 哈希表和红黑树的对比
  2. 地铁 java_怎么用Java编写一个地铁售票机的程序?
  3. niagara mysql_Niagara AX连接MySQL数据库
  4. combo空间禁止手动输入_国产大空间MPV新选择 上汽大通新款G10国六版本上市
  5. 语言怎么绘画人物肖像_绘画丨毛焰 Mao Yan 作品
  6. header里面加值如何去掉引号_用ods tagsets.rtf 产生的表,怎么去掉页尾处的空白?...
  7. 正则表达式只能写数字_正则表达式真的很骚,可惜你不会写
  8. bash下特殊字符的含义
  9. 进程已不存在,但端口仍被占用
  10. POJ-2151 Check the difficulty of problems 概率DP