导读:本文介绍了Hadoop和MapReduce的概念以及工作原理,并分析了它们在未来的商业智能系统中所扮演的角色。

关键词:Hadoop MapReduce 大数据 商业智能 数据库 NoSQL

【TechTarget中国原创】现在,当人们提到大数据的时候首先想起的技术往往是Hadoop MapReduce,像Hadoop这样的分布式架构在10年之前的运用是非常少的——互联网发展刚刚起步,从地球诞生到2003年的全球数据量一共是5EB,而我们现在每两天就能生成5EB的数据。传统的交易数据库在应对数据激增的挑战时已经显现出不足,企业越来越多地开始部署数据仓库、商业智能系统来进行数据分析等工作。随着Hadoop MapReduce在大数据方面起到了越来越重要的作用,那么我们今天就在这里了解一下什么是Hadoop MapReduce,它们对如今的IT起着怎样的作用。

  什么是Hadoop?

  Hadoop是一个分布式系统架构,它可以用来应对海量数据的存储,而这样的数据量往往是以PB甚至ZB来计算的。Hadoop的存储系统我们称作Hadoop Distributed File System(HDFS),它是由Doug Cutting创建的,其灵感来源于Google的一篇学术论文。Doug Cutting是谁呢?著名Apache开源项目Lucene和Nutch的作者。重要的是Hadoop也是开源的。

Hadoop项目创始人Doug Cutting

  什么是MapReduce?

  拿新浪微博来举个例子,用户每分钟都会生成几万甚至几十万条信息,这个数据量是非常大的。新浪的数据中心有大量的服务器在生成数据,那么我们如何能够快速地访问这些数据?Hadoop使用的就是MapReduce,它的概念第一次出现也是在Google的论文中。MapReduce遵循“分治法”,数据以KeyValue对来组织。它以并行的方式来处理一个计算节点中的数据,这些数据会分布在许多不同的系统当中。对数据进行整理分类之后进行处理。

  Hadoop MapReduce的影响

  针对一个标准PC服务器,Hadoop将连接到所有的服务器然后将数据分布到这些节点当中。它将所有的节点视为一个大的文件系统,对数据进行存储和处理,因此它是一个100%的分布式文件系统。如果数据量增加到之前系统无法承受的情况,我们还可以增加额外的节点,让整个系统的扩展性更好。Hadoop MapReduce在成本方面同商业软硬系统相比具有一定优势,因为其开源的属性。随着Hadoop的逐渐普及,相信技术人员成本也会进一步降低,Hadoop的价值也将凸显出来。此外,Hadoop还是NoSQL数据库的主要部署架构之一。

  目前,Hadoop项目已经由Yahoo公司转移到了Hortonworks,这是一家硅谷风投公司Benchmark Capital与前者合资组建的公司,他们将继续开发该技术。雅虎软件工程副总裁Eric Baldeschwieler将担任Hortonworks公司CEO。而最近,Hadoop的支持者之一社交网站Facebook也迁移了30 PB的Hadoop集群。除了开源社区的支持,Hadoop也得到了商业软件供应商的青睐,据笔者了解,越来越多的传统数据库厂商也在他们的产品中逐渐增加Hadoop特性,其中包括了Oracle、Teradata等。以下厂商的数据仓库和BI产品已经添加了对Hadoop和MapReduce的支持:

  •   Greenplum
  •   Informatica
  •   Teradata(AsterData)
  •   Pentaho
  •   Talend

  总之,如果Hadoop MapReduce以及NoSQL等技术得到广泛运用的话,传统SQL数据库系统不能解决的非结构化数据将不再成为问题。而大数据概念不断推广,Hadoop与商业系统的搭配将成为一种必然的趋势,数据集成软件也将在数据挖掘等场景中扮演重要的角色。

未来商业智能系统:Hadoop来当家相关推荐

  1. 企业如何建设BI商业智能系统

    随着商业智能和大数据价值的不断深入人心,各行各业都对BI商业智能系统有了不同程度的探索.据悉,商业智能的应用每年正以5%~6%的速率增长,中小企业的形势尤为迅猛,其应用范围大到全面布局,小到具体业务, ...

  2. 如何规划农商行商业智能系统中的决策分析系统?

    农商行中,商业智能系统中的决策分析系统一般有如下建设要求: 1.建立统一.长效数据平台实现对历史数据进行趋势.环比.同比等情况分析: 2.根据主题要求有效加工分析数据管理部门要求的分析报表: 3.通过 ...

  3. 政府信息化与电子政务、企业信息化与电子商务、数据库和数据仓库的区别、商业智能系统处理过程、数据仓库结构图、数据挖掘、数据仓库和数据湖的对比

    政府信息化与电子政务.企业信息化与电子商务.数据库和数据仓库的区别.商业智能系统处理过程.数据仓库结构图.数据挖掘.数据仓库和数据湖的对比 政府信息化与电子政务 企业信息化与电子商务 1.企业资源计划 ...

  4. 【电子书分享】决战大数据-驾驭未来商业的利器.pdf(附下载链接)

    今天给大家分享一本实用的图书<决战大数据-驾驭未来商业的利器.pdf>,该书由大数据实践的先行者.阿里巴巴集团副总裁.数据委员会会长车品觉所著,全书由两大部分十一个章节组成,第一部分为从数 ...

  5. CCF C³-19@航天宏图:星链互联,创新未来——商业卫星互联网时代的思考丨开始报名...

    CCF C³活动第十九期主题是:星链互联,创新未来--商业卫星互联网时代的思考,将于2023年4月25日周二(13:30-16:30),在航天宏图北京总部举行,报名从速. 卫星互联网是基于卫星通信的互 ...

  6. 自从有了BI商业智能系统,再也不用担心我的作图了!!!(图文)

    最近使用spotview商业智能系统,简单的一点体验分享一下. 这是一个金蝶公司合作的产品,纯B/S架构,设计页面和展示端,现在这已经是不可抵挡的趋势了.只有后台设计模型是需要在服务器上做,类似于数据 ...

  7. 迎风破局·守正创新,2021未来商业生态链接大会暨第六届金陀螺奖颁奖典礼成功举办!...

    2021 年 12 月 10 日,由广东省游戏产业协会.广东省虚拟现实产业技术创新联盟.深圳市科学技术协会.深圳市互联网文化市场协会指导,陀螺科技主办,深圳市科技开发交流中心.恒悦创客魔方协办,行业头 ...

  8. 青云QingCloud Insight 2017: 云计算支撑未来商业图景

    北京,2017年7月28日-- 7月28日-29日,青云QingCloud Insight 2017云计算峰会在北京举行,有超过2000名来自不同行业的重量级嘉宾.CIO/CTO.工程师.开发者.技术 ...

  9. 产品读书《共享经济:重构未来商业新模式》

    作者简介 罗宾·蔡斯,共享经济鼻祖,汽车共享公司Zipcar.无线网络连接公司Veniam.点对点汽车租赁公司Buzzcar以及拼车网站GoLoco的联合创始人.<时代周刊>"全 ...

最新文章

  1. 突围 2020!程序员这样学 AI !
  2. MySQL命令及使用技巧以及当前时间字段默认值设置
  3. 【OpenCV3】级联分类器目标检测——cv::CascadeClassifier简介
  4. pandas.get_dummies
  5. MongoDB 基础浅谈
  6. 网络流--最大流--HDU 3549 Flow Problem
  7. IScroll5中文API整理,用法与参考
  8. win7系统屏幕键盘打开教程
  9. ble l2cap 工作过程_BLE 链路层报文详解
  10. TestComplete使用关键字测试的数据驱动测试(上)
  11. 二叉堆(binary heap)—— 优先队列的实现
  12. HTML页面在iPhone中电话号码自动检测带来的布局问题
  13. CSS案例2:用定位是实现三级导航
  14. SciPyCon 2018 sklearn 教程(下)
  15. 微信小程序中使用Less
  16. springboot自带的线程池ThreadPoolTaskExecutor、ThreadPoolTaskScheduler的深入应用——异步任务监听回调,任务中断案例
  17. 修复iPhone系统故障导致的黑屏
  18. Proteus 8 Source Code 字体设置问题 光标于选中的字不对应
  19. DataWarehouse 数据仓库
  20. 剑客vs刀客 Java vs .NET

热门文章

  1. [ACM] 2017 SCNUPC
  2. PHP json_decode 用法
  3. 设置备份计划后,不能执行自动备份
  4. 《动手学深度学习》学习笔记(一)
  5. 靠谱的人,事事有回应
  6. 中兴新支点嵌入式系统技术成物联网发展的驱动力
  7. 薪酬福利管理太复杂?有实在RPA就够了
  8. 以色列公司Forter在中国:跨境电商欺诈的陷阱与解药
  9. (附源码)用Python做了个图片识别系统
  10. servlet的运行原理