Hadoop怎么了,大数据路在何方?
导读:近期Hadoop消息不断,众说纷纭。本文以Hadoop的盛衰变化为楔子聊下大数据分析的发展现状和未来趋势。
- 巅峰已过,正在成为遗留系统
- Hadoop和分布式数据库在同一个赛道上,Hadoop在这个赛道上目前并无优势
- 大数据市场是 SQL市场,是分布式数据库市场
- 基础分析如BI、交互查询等技术已经成熟
- 高级分析(机器学习)下沉,向数据库内嵌分析方向发展
- 高级分析(机器学习)主要问题不在分析而在数据本身
- Hadoop 栈过于复杂,组件众多,集成困难,玩转代价过高
- Hadoop 创新速度不够(或者说起点过低),且缺乏统一的理念和管控,使得其众多组件之间的集成非常复杂
- 受到Cloud技术的冲击,特别是类S3对象存储提供了比HDFS更廉价、更易用、更可伸缩的存储,撬动了Hadoop的根基HDFS
- 对 Hadoop 期望过高,Hadoop发迹于廉价存储和批处理,而人们期望Hadoop搞定大数据所有问题,期望不匹配造成满意度很低
- 人才昂贵,且人才匮乏
- Hadoop还有没有前途?Hadoop发展历史和未来方向解读
- Hadoop 气数已尽:逃离复杂性,拥抱云计算
- 超越云计算:对数据库管理系统未来的思考
- Big Data Is Still Hard. Here’s Why
- Big Data Will Get By (but>Cloudera and Hortonworks merger means Hadoop’s influence is declining
- From data ingestion to insight prediction: Google Cloud smart analytics accelerates your business transformation
- Hadoop is Dead. Long live Hadoop (中文翻译:Hadoop已死,Hadoop万岁)
- Hadoop Has Failed Us, Tech Experts Say
- Hadoop Past, Present, and Future
- Hadoop: Past, present and future(又一个)
- Hadoop runs out of gas
- Hadoop Struggles and BI Deals: What’s Going On?
- Hitting the Reset Button>Is Hadoop officially dead
- Mike Olson>More turbulence is coming to the big-data analytics market in 2019
- Object and Scale-Out File Systems Fill Hadoop Storage Void
- The Decline of HADOOP and Ushering An Era of Cloud
- The elephant’s dilemma: What does the future of databases really look like?
- The Future of Database Management Systems is Cloud!
- The history of Hadoop
- Why is Hadoop dying?
The old way of thinking about Hadoop is dead — done, and dusted. Hadoop as a philosophy to drive an ever-evolving ecosystem of open source technologies and open data standards that empower people to turn data into insights is alive and enduring.译文:你所认为的传统的Hadoop已经死了,确实如此。但Hadoop作为一门哲学,推动不断发展的开源技术生态系统和开放数据标准,使人们能够将数据转化为洞察力,这门哲学是充满活力和持久的。——Arun C Murthy
- Apache Nutch是Hadoop一哥Doug Cutting 写的开源网页爬虫。为了存储海量网页,Nutch需要一个分布式存储层。受Google GFS论文的启发,Doug 设计了一个开源GFS实现,成为后来的 HDFS。相比于当时昂贵的磁盘阵列和SAN,HDFS提供了廉价、高可靠且可扩展的存储;
- 分布式存储层解决后,Nutch需要能适应分布式环境的并行计算模型。受Google MapReduce 论文的启发,Doug 设计了开源版的MapReduce。HDFS和MapReduce解决了大数据的存储和计算问题,受到当时受困于大数据问题的大型互联网公司的追捧,很快 Hadoop 吸引了大量的开发者,成为 Apache 顶级项目;
- Hadoop解决了有无问题。很快人们发现MapReduce复杂度很高,即使技术实力强大如Facebook都很难写出高效正确的MapReduce程序。此外除了解决批处理问题,人们需要Hadoop能解决其遇到的交互式查询任务。为此,Facebook 开发了Hive,该项目快速流行起来,到现在还有很多用户。Facebook当时更是高达95%的用户使用Hive而不是裸写MapReduce程序。
- 由于Hadoop 不是为交互式处理而设计,Hive 效率低,并发度也低。此外Hive不支持标准SQL,使得和其他产品的集成困难重重。为此Cloudera开发了Impala。Impala 实际上是一款分布式 MPP(大规模并行处理) 数据库。
For several years now, Cloudera has stopped marketing itself as a Hadoop company, but instead as an enterprise data company.
延伸阅读《Greenplum:从大数据战略到实现》
![](/assets/blank.gif)
![](/assets/blank.gif)
![](/assets/blank.gif)
![](/assets/blank.gif)
Hadoop怎么了,大数据路在何方?相关推荐
- mega x_[MEGA DEAL]通过Hadoop Bundle掌握大数据(91%的折扣)
mega x 通过44个小时的广泛Hadoop培训来驯服海量数据集 嘿,怪胎, 本周,在我们的JCG Deals商店中 ,我们提供了另一个超值优惠 . 通过Hadoop Bundle,我们可以提供91 ...
- 专访童小军:Hadoop是未来大数据的标准
2013年11月22-23日,作为国内唯一专注于Hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团 ...
- 二、大数据技术之Hadoop --从Hadoop框架讨论大数据生态
目录 1.从Hadoop框架讨论大数据生态 1.1 Hadoop是什么 1.2 Hadoop发展历史 1.3 Hadoop三大发行版本 1.3.1 Apache Hadoop 1.3.2 Cloude ...
- 《Python Spark 2.0 Hadoop机器学习与大数据实战_林大贵(著)》pdf
<Python+Spark 2.0+Hadoop机器学习与大数据实战> 五星好评+强烈推荐的一本书,虽然内容可能没有很深入,但作者非常用心的把每一步操作详细的列出来并给出说明,让我们跟着做 ...
- Hadoop集群大数据解决方案之MapReduce 程序实战进阶(自定义partitionsortgroup)(六)
准 备 在上一篇博客举了个简单的word count,重在说明mapreduce的流程,但是针对mapreduce的编程,程序员能控制的,远远不止map和reduce,还有诸如partition, ...
- spark python教程_Python Spark 2.0 Hadoop机器学习与大数据实战 完整pdf_IT教程网
资源名称:Python Spark 2.0 Hadoop机器学习与大数据实战 完整pdf 第1章 Python Spark机器学习与Hadoop大数据 1 第2章 VirtualBox虚拟机软件的安装 ...
- SQL on Hadoop在快手大数据平台的实践与优化 | 分享实录
快手大数据架构工程师钟靓 本文是根据快手大数据架构工程师钟靓于 5月18-19日在A2M人工智能与机器学习创新峰会<SQL on Hadoop在快手大数据平台的实践与优化>演讲中的分享内容 ...
- 从Hadoop框架讨论大数据生态
文章目录 从Hadoop框架讨论大数据生态 Hadoop 是什么(一是) Hadoop发展史(二知) Hadoop三大版本(三版) Hadoop的优势(4高) Hadoop的组成(关于吾的自身) Ha ...
- “后 Hadoop 时代”,大数据从业者如何应对新技术趋势带来的挑战?
作者 | 蔡芳芳 采访嘉宾 | 刘京娟.贾扬清.王峰 作为开源大数据项目的发端,Hadoop 兴起至今已经超过十五年.在过去这十数年里,开源大数据领域飞速发展,我们见证了多元化技术的兴起和变迁. 为了 ...
最新文章
- ArrayList add(int index,E element)
- Linux Kernel中的同步机制的介绍
- nginx文件服务器修改根目录,nginx修改配置文件更改网站根目录无效?
- Spring MVC 基于URL的拦截和映射规则
- django 按天水平分表并插入数据
- keyCode键码值对照表
- java仔_Java基础语法吐血整理
- 数字电视发射机行业调研报告 - 市场现状分析与发展前景预测
- 微型计算机常常采用三种线结构,2016年河海大学929地理信息系统之地理信息系统概论考研复试题库...
- 电气工程计算机网络基础知识大全,2018年注册电气工程师考试(电气与信息技术公共基础)知识点复习:计算机基础[网络体系结构与协议]...
- ARTPI(STM32H750XBH) + ALIENTEK 7‘ RGB TFTLCD + LVGL8.2.0成功
- 阿里巴巴高级算法专家威视:组建技术团队的一些思考
- keil中断函数的写法_keil中怎样定义外部中断函数原型?
- 科技大停滞--过去已逝,未来未来
- python高德地图api调用实例_Python玩转高德地图API(二)
- docker实现nginx反向代理、负载均衡
- iOS 3DTouch 代码实现
- java定义一个eat方法_Java继承概念详细解读
- Python遍历目录下的文件(os.walk 、os.listdir的用法)
- matlab random 均匀分布,Matlab 的随机函数(高斯分布 均匀分布 其它分布)
热门文章
- RabbitMQ笔记-使用rabbitmq-c实现Fair dispatch(公平分发)
- Spring Boot笔记-echarts的使用及数据的修改
- C++ STL string的构造函数
- c form画直线_新手教程跟我一起画儿童裤子裁剪图
- 单值二叉树:如果二叉树每个节点都具有相同的值,那么该二叉树就是单值二叉树。 只有给定的树是单值二叉树时,才返回 true;否则返回 false。
- Jenkins-CI 远程代码执行漏洞复现(CVE-2017-1000353)
- msf:Known bug in WMI query, try migrating to another process
- yum提示Another app is currently holding the yum lock; waiting for it to exit...
- Python 16进制与字符串的转换、二进制 to 十进制、十六进制 to 十进制、十进制 to 二进制
- Python subprocess.Popen 实时输出 stdout(正确管道写法)