大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作,但是未必是最佳选择。

大数据,首先你要能存的下大数据。

传统的文件系统是单机的,不能横跨不同的机器。HDFS(Hadoop Distributed FileSystem)的设计本质上是为了大量的数据能横跨成百上千台机器,但是你看到的是一个文件系统而不是很多文件系统。比如你说我要获取/hdfs/tmp/file1的数据,你引用的是一个文件路径,但是实际的数据存放在很多不同的机器上。你作为用户,不需要知道这些,就好比在单机上你不关心文件分散在什么磁道什么扇区一样。HDFS为你管理这些数据。

存的下数据之后,你就开始考虑怎么处理数据。虽然HDFS可以为你整体管理不同机器上的数据,但是这些数据太大了。一台机器读取成T上P的数据(很大的数据哦,比如整个东京热有史以来所有高清电影的大小甚至更大),一台机器慢慢跑也许需要好几天甚至好几周。对于很多公司来说,单机处理是不可忍受的&#x

一文看懂大数据的技术生态圈,Hadoop,hive,spar相关推荐

  1. 一文看懂大数据生态圈完整知识体系【大数据技术及架构图解实战派】

    一文看懂大数据生态圈完整知识体系 徐葳 随着大数据行业的发展,大数据生态圈中相关的技术也在一直迭代进步,作者有幸亲身经历了国内大数据行业从零到一的发展历程,通过本文希望能够帮助大家快速构建大数据生态圈 ...

  2. 超级干货,一文看懂大数据的前世今生

    "不参与大数据建设,10年后一定后悔".早在几年前,马云就在某次峰会中提到,未来30年,是从IT时代到DT时代的变革.  大数据发展态势 从上世纪60年代到现在,我们对数据的处理能 ...

  3. 一文看懂大数据领域的六年巨变

    在过去的6年里,本文的作者一直在关注Data Eng Weekly(前身是Hadoop Weekly),它是与大数据和数据工程相关内容的重要来源,涵盖了非常广泛的技术文章.产品公告和行业新闻. 今年, ...

  4. 一文看懂大数据矩阵运算利器-Spark Distributed Matrix

    如今是大数据的时代,数据呈指数型增长,那么如何利用这些数据?离不开大数据计算,今天小普给大家介绍的是:Spark的分布式计算框架,它能很好地适配大数据场景下的计算任务. [相似度计算]是金融领域或商品 ...

  5. 一文读懂大数据平台——写给大数据开发初学者的话!

     一文读懂大数据平台--写给大数据开发初学者的话! 文|miao君 导读: 第一章:初识Hadoop 第二章:更高效的WordCount 第三章:把别处的数据搞到Hadoop上 第四章:把Hado ...

  6. 如何用形象的比喻大数据的技术生态Hadoop、Hive、Spark 之间是什么关系?

    最近我的同学给我发了一篇特别有意思的关于大数据的技术生态Hadoop.Hive.Spark 关系的解读文章.个人觉得非常有意思,通俗易懂,我转载到这里,希望大家一起学习. Luis 大数据 255 人 ...

  7. 一篇文章看懂大数据的5大关键技术

    大数据技术,就是从各种类型的数据中快速获得有价值信息的技术.大数据领域已经涌现出了大量新的技术,它们成为大数据采集.存储.处理和呈现的有力武器.大数据处理关键技术一般包括:大数据采集.大数据预处理.大 ...

  8. 一文搞懂大数据开发,大数据开发体系详解

    前言 不知道大家有没有过在搜索引擎搜索过旅游的关键字,不久就可能收到机票的推销的经验.如今是大数据的时代,数据的价值越来越重要.数据即资产,想必大家都听说过.最近公司的项目中也用到了一些大数据的技术, ...

  9. 一文读懂大数据及大数据产业

    随着"云计算"."互联网"."物联网"的快速发展,大数据(Big Data)也吸引了越来越多的人关注,成为社会热点之一.大街小巷不论是技术人 ...

最新文章

  1. 250相当于什么显卡_GTX1660Ti显卡搭配知识:GTX1660Ti配什么CPU和主板?
  2. CSDN:因博主近期注重写专栏文章(已超过150篇),订阅博主专栏人数在突增,近期很有可能提高专栏价格(已订阅的不受影响),提前声明,敬请理解!
  3. CodeForces - 570E(dp------------- Codeforces Round #316 (Div. 2)E
  4. virtualenv创建独立的Python环境
  5. Redis数据类型及使用场景
  6. idea 搜索不到gsonformat_IDEA开发工具插件之GsonFormat
  7. Python菜鸟教程-笔记
  8. 查询linux信号量命令,Linux信号量动作和说明列表
  9. comsol 低频电磁场案例(PDF版本)
  10. 云课堂智慧职教答案python_云课堂智慧职教答案python
  11. Java+Swing实现自助取款机(ATM)系统-TXT存储数据
  12. matplotlib 绘图可视化知识点整理
  13. STM32——LCD液晶显示
  14. UI入门必读!完整的UI设计学习流程是怎样的?
  15. JAVA范例 - Applet小应用程序
  16. 利用PE安装ISO镜像(以及精简版镜像)/安装忍术渗透系统
  17. VMware虚拟化数据中心更改ESXI主机IP地址测试
  18. XILINX FPGA时钟资源
  19. 空间转录组学(Spatial Transcriptomics)
  20. html手指动图,推荐10款gif动态图片特效(收藏)

热门文章

  1. Linux—tar打包命令
  2. 客户成功是一种思维模式 | ONES 人物
  3. linux环境下,普通用户使用service httpd restart 重启Apache失败
  4. Windows安全模式应用技巧介绍
  5. Succi - 用元气骑士学习python的列表
  6. vivo 2020:沉默中寻求突围
  7. 12306 购票小助手
  8. 想学习SharePoint,需要准备哪些方面的准备?--写给SharePoint新人
  9. 怎么在网吧计算机查找游戏,网吧电脑可以边玩游戏边录视频吗?这样的方法很少人知道...
  10. 高中毕业屌丝程序员的逆袭之旅