Hadoop怎么了,大数据路在何方?
导读:近期Hadoop消息不断,众说纷纭。本文以Hadoop的盛衰变化为楔子聊下大数据分析的发展现状和未来趋势。
- 巅峰已过,正在成为遗留系统
- Hadoop和分布式数据库在同一个赛道上,Hadoop在这个赛道上目前并无优势
- 大数据市场是 SQL市场,是分布式数据库市场
- 基础分析如BI、交互查询等技术已经成熟
- 高级分析(机器学习)下沉,向数据库内嵌分析方向发展
- 高级分析(机器学习)主要问题不在分析而在数据本身
- Hadoop 栈过于复杂,组件众多,集成困难,玩转代价过高
- Hadoop 创新速度不够(或者说起点过低),且缺乏统一的理念和管控,使得其众多组件之间的集成非常复杂
- 受到Cloud技术的冲击,特别是类S3对象存储提供了比HDFS更廉价、更易用、更可伸缩的存储,撬动了Hadoop的根基HDFS
- 对 Hadoop 期望过高,Hadoop发迹于廉价存储和批处理,而人们期望Hadoop搞定大数据所有问题,期望不匹配造成满意度很低
- 人才昂贵,且人才匮乏
- Hadoop还有没有前途?Hadoop发展历史和未来方向解读
- Hadoop 气数已尽:逃离复杂性,拥抱云计算
- 超越云计算:对数据库管理系统未来的思考
- Big Data Is Still Hard. Here’s Why
- Big Data Will Get By (but>Cloudera and Hortonworks merger means Hadoop’s influence is declining
- From data ingestion to insight prediction: Google Cloud smart analytics accelerates your business transformation
- Hadoop is Dead. Long live Hadoop (中文翻译:Hadoop已死,Hadoop万岁)
- Hadoop Has Failed Us, Tech Experts Say
- Hadoop Past, Present, and Future
- Hadoop: Past, present and future(又一个)
- Hadoop runs out of gas
- Hadoop Struggles and BI Deals: What’s Going On?
- Hitting the Reset Button>Is Hadoop officially dead
- Mike Olson>More turbulence is coming to the big-data analytics market in 2019
- Object and Scale-Out File Systems Fill Hadoop Storage Void
- The Decline of HADOOP and Ushering An Era of Cloud
- The elephant’s dilemma: What does the future of databases really look like?
- The Future of Database Management Systems is Cloud!
- The history of Hadoop
- Why is Hadoop dying?
The old way of thinking about Hadoop is dead — done, and dusted. Hadoop as a philosophy to drive an ever-evolving ecosystem of open source technologies and open data standards that empower people to turn data into insights is alive and enduring.译文:你所认为的传统的Hadoop已经死了,确实如此。但Hadoop作为一门哲学,推动不断发展的开源技术生态系统和开放数据标准,使人们能够将数据转化为洞察力,这门哲学是充满活力和持久的。——Arun C Murthy
- Apache Nutch是Hadoop一哥Doug Cutting 写的开源网页爬虫。为了存储海量网页,Nutch需要一个分布式存储层。受Google GFS论文的启发,Doug 设计了一个开源GFS实现,成为后来的 HDFS。相比于当时昂贵的磁盘阵列和SAN,HDFS提供了廉价、高可靠且可扩展的存储;
- 分布式存储层解决后,Nutch需要能适应分布式环境的并行计算模型。受Google MapReduce 论文的启发,Doug 设计了开源版的MapReduce。HDFS和MapReduce解决了大数据的存储和计算问题,受到当时受困于大数据问题的大型互联网公司的追捧,很快 Hadoop 吸引了大量的开发者,成为 Apache 顶级项目;
- Hadoop解决了有无问题。很快人们发现MapReduce复杂度很高,即使技术实力强大如Facebook都很难写出高效正确的MapReduce程序。此外除了解决批处理问题,人们需要Hadoop能解决其遇到的交互式查询任务。为此,Facebook 开发了Hive,该项目快速流行起来,到现在还有很多用户。Facebook当时更是高达95%的用户使用Hive而不是裸写MapReduce程序。
- 由于Hadoop 不是为交互式处理而设计,Hive 效率低,并发度也低。此外Hive不支持标准SQL,使得和其他产品的集成困难重重。为此Cloudera开发了Impala。Impala 实际上是一款分布式 MPP(大规模并行处理) 数据库。
For several years now, Cloudera has stopped marketing itself as a Hadoop company, but instead as an enterprise data company.
延伸阅读《Greenplum:从大数据战略到实现》
![](/assets/blank.gif)
![](/assets/blank.gif)
![](/assets/blank.gif)
![](/assets/blank.gif)
Hadoop怎么了,大数据路在何方?相关推荐
- mega x_[MEGA DEAL]通过Hadoop Bundle掌握大数据(91%的折扣)
mega x 通过44个小时的广泛Hadoop培训来驯服海量数据集 嘿,怪胎, 本周,在我们的JCG Deals商店中 ,我们提供了另一个超值优惠 . 通过Hadoop Bundle,我们可以提供91 ...
- 专访童小军:Hadoop是未来大数据的标准
2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团 ...
- 二、大数据技术之Hadoop --从Hadoop框架讨论大数据生态
目录 1.从Hadoop框架讨论大数据生态 1.1 Hadoop是什么 1.2 Hadoop发展历史 1.3 Hadoop三大发行版本 1.3.1 Apache Hadoop 1.3.2 Cloude ...
- 《Python Spark 2.0 Hadoop机器学习与大数据实战_林大贵(著)》pdf
<Python+Spark 2.0+Hadoop机器学习与大数据实战> 五星好评+强烈推荐的一本书,虽然内容可能没有很深入,但作者非常用心的把每一步操作详细的列出来并给出说明,让我们跟着做 ...
- Hadoop集群大数据解决方案之MapReduce 程序实战进阶(自定义partitionsortgroup)(六)
准 备 在上一篇博客举了个简单的word count,重在说明mapreduce的流程,但是针对mapreduce的编程,程序员能控制的,远远不止map和reduce,还有诸如partition, ...
- spark python教程_Python Spark 2.0 Hadoop机器学习与大数据实战 完整pdf_IT教程网
资源名称:Python Spark 2.0 Hadoop机器学习与大数据实战 完整pdf 第1章 Python Spark机器学习与Hadoop大数据 1 第2章 VirtualBox虚拟机软件的安装 ...
- SQL on Hadoop在快手大数据平台的实践与优化 | 分享实录
快手大数据架构工程师钟靓 本文是根据快手大数据架构工程师钟靓于 5月18-19日在A2M人工智能与机器学习创新峰会<SQL on Hadoop在快手大数据平台的实践与优化>演讲中的分享内容 ...
- 从Hadoop框架讨论大数据生态
文章目录 从Hadoop框架讨论大数据生态 Hadoop 是什么(一是) Hadoop发展史(二知) Hadoop三大版本(三版) Hadoop的优势(4高) Hadoop的组成(关于吾的自身) Ha ...
- “后 Hadoop 时代”,大数据从业者如何应对新技术趋势带来的挑战?
作者 | 蔡芳芳 采访嘉宾 | 刘京娟.贾扬清.王峰 作为开源大数据项目的发端,Hadoop 兴起至今已经超过十五年.在过去这十数年里,开源大数据领域飞速发展,我们见证了多元化技术的兴起和变迁. 为了 ...
最新文章
- React | Expected an assignment or function call and instead saw.....
- 解决ubuntu打开windows中txt文件出现乱码现象
- sqlserver 集群_云数据库最优成本方案,阿里云数据库新形态专属集群
- RTSP协议分析(二)
- 如何成为一个成功的 Java 开发人员?
- java添加主类包_java – Maven bundle插件 – 如何添加主类
- java分布式商城项目环境搭建1-CentOS7.6-安装JDK1.8
- 交互式反汇编器 linux,Carbon:交互式反汇编工具
- IE11 js导出excel提示Automation 服务器不能创建对象
- 产业安全专家谈丨企业如何应用“联邦学习”打破数据孤岛,助力业务创新?
- Failed to introspect Class [org.springframework.cloud.gateway.config.GatewayAutoConfiguration$NettyC
- JS判断pc mobile几种方式
- 给广大在电脑前工作的同胞们的一点健康建议
- 物联网开发笔记(54)- 使用Micropython开发ESP32开发板之控制MG90S舵机
- vb.net与vb的区别
- python编程无师自通专业程序员的养成_正版 Python编程无师自通——专业程序员的养成 算机与互联网 编程语言与程序设计 计算机 网络...
- ubuntu解决root登陆报stdin:is not tty
- java怎么连发子弹_JAVA之坦克子弹连发以及敌人坦克死亡
- 不小心删除了文件能恢复吗 误删除文件怎么找回
- 实现一个 微信小程序 模板生成脚手架
热门文章
- Qt工作笔记-使用Qt中QProcess与iostream中system调用外部进程
- C/C++ OpenCV之Laplacian边缘检测
- linux添加定时器防抖,linux驱动2.3按键中断-定时器防抖
- 如何选择漏电保护器规格型号_老师傅告诉你:电路跳闸如何解决
- 在c语言中文件的指针是什么,C语言中文件描述符和文件指针的本质区别
- matlab出错及解决办法,Linux下使用Matlab符号函数出错的解决办法
- Java游戏触屏处理,非触屏java游戏转换为触屏游戏工具使用方法
- 网页设计个人主页源码_WebSSH - 网页上的SSH终端
- python 三维曲线拟合_基于三维数据和参数的Scipy曲线拟合
- 二十一、osi七层模型