一、Hdfs 架构

访问   (1)  ----nameNode
(2) 
|
|
|
dataNode
每隔一段时间secondaryNameNode会将fsimage和edits进行合并产生心得fsimage;
1、Hdfs 适用场景
数据密集型并行计算
计算密集并行计算
2、不适合的场景
HDFS不合适大量小文件的储存
HDFS适用于高吞吐量,不适合低时间延迟的访问
流式读取的方式、不适合多用户写入一个文件(一个文件同时只能被一个客户端写),以及任意位置写入(不支持随机写);
不适合用mapreduce方式进行计算的场景;

二、MapReduce    编程
MapReduce借用的函数式编程的概念,google发明的一种分布式的数据处理模型。Hadoop的坐着Doug Cutting 根据这篇论文复制了google的分布式文件系统gfs和mapReduce,
对应的hadoop的hdfs和mapreduce。
MapReduce模型是整个大数据技术的核心思想,hdfs的架构是为了方便mapreduce而设计,hive、pig等软件最后总是通过调用mapreduce运行
三、Hive体系结构
Hive不是数据库、仅仅是数据仓库。是建立在hadoop上的数据仓库基础框架,它提供了一系列的工具,可以用来进行数据提取转化加载(ETL)

转载于:https://www.cnblogs.com/wuyuxiang/p/5166768.html

大数据--循序渐进的大数据(2)相关推荐

  1. 数据治理资深大咖分享:一文详解数据标准管理

    分享"谈数据"公众号主理人石秀峰在帆软<决胜数字化转型>直播上的演讲内容~ 今天我给大家分享的主题是数据治理之数据标准管理.数据标准管理是数据治理的偏向落地的话题.我自 ...

  2. 视频教程-大数据搜索技术-大数据

    大数据搜索技术 软通动力教育集团简称软通大学,依托软通动力在技术服务领域的多方位解决方案能力,采用先进的教学理念和模式,直通高校和城市,开展干部培养,文化落地,初级资源培训,培训需求对接,专业项目课程 ...

  3. 视频教程-企业级电商大数据推荐系统实战-大数据

    企业级电商大数据推荐系统实战 张长志技术全才.擅长领域:区块链.大数据.Java等.10余年软件研发及企业培训经验,曾为多家大型企业提供企业内训如中石化,中国联通,中国移动等知名企业.拥有丰富的企业应 ...

  4. 企业级大数据项目建设之数据仓库搭建与数据治理概况版

    本文分为数据仓库建设和数据治理,篇幅比较长,耐心看完. 数据模型 不管是从计算成本,易用性,复用性,还是一致性等方面,我们都必须避免烟囱式的开发模式,而是以中间层的方式去建设实时数仓,烟囱式架构有很大 ...

  5. 第二篇:智能电网(Smart Grid)中的数据工程与大数据案例分析

    前言 上篇文章中讲到,在智能电网的控制与管理侧中,数据的分析和挖掘.可视化等工作属于核心环节.除此之外,二次侧中需要对数据进行采集,数据共享平台的搭建显然也涉及到数据的管理.那么在智能电网领域中,数据 ...

  6. SparkSQL和Hadoop(面向数据科学家和大数据分析师)

    了解HDFS命令.Hadoop.Spark SQL.SQL查询.ETL和数据分析| Spark Hadoop集群虚拟机|完全解决的问题 你会学到什么 作为本课程的一部分,学生将获得在Spark Had ...

  7. 大数据的两面性_大数据,多大的数据才是大数据?

    大数据的本质是统计学,是通过统计分析得出最终结果.比如我们经常会使用到的图像识别,为什么手机能识别出来那些可能你也不知道的东西,因为那是建立在海量数据资料的基础之上的.就连如今人人都会用到的手机美颜也 ...

  8. 什么是大数据口子_大数据分析师年薪几十万,学什么专业才能从事大数据?

    近几年,大数据为各个领域带来了全新的变革,大数据的重要性越来越被企业和国家所看到,大数据工作者的需求再次被无限放大,他们的薪资和社会地位也在不断上涨.马云在演讲中就提到,未来的时代将不是IT时代,而是 ...

  9. 华为云大数据存储的冗余方式是三副本_大数据入门:HDFS数据副本存放策略

    大数据处理当中,数据储存始终是一个重要的环节,从现阶段的市场现状来说,以Hadoop为首的大数据技术框架,仍然占据主流地位,而Hadoop的HDFS,在数据存储方面,仍然得到重用.今天的大数据入门分享 ...

最新文章

  1. 台式计算机,笔记本电脑如何查看自己的电池损耗情况!
  2. 量子计算机个人化时间,科学家发现量子算法可以停止时间
  3. 百度网盘的速度又又又又又又被黑了...侮辱性极强...
  4. git fetch 和git pull 的差别
  5. Kafka—简明教程
  6. php date 毫秒_swoole+PHP自动取消订单he还原库存
  7. 帅呆了!微软即将发布 Visual Studio for Mac 预览版
  8. Linux下如何自己编译源代码(制作成可以安装的.deb文件)
  9. 学习Java编程-Java Timezone类常见问题
  10. 剑指offer-JZ30 包含min函数的栈(C++,附自己的分析)
  11. pythonassert关键字_Python assert 关键字
  12. babel-preset-env
  13. 送起来oracle,十一,送你 51 个 Oracle 常用语句~
  14. ViewPager Kotlin 教程入门
  15. 机器人电焊电流电压怎么调_焊电焊电流怎么调节,调多少合适?
  16. 如何衡量开发人员生产力的 10 个技巧
  17. PHP操作MongoDB技術總結
  18. html canvas画背景图片,HTML5 canvas画布
  19. 键盘连不上计算机,电脑键盘连接不上电脑是怎么回事
  20. MySQL+Java 图书管理系统

热门文章

  1. 求解决方法_解决方法
  2. FPGA嵌入式处理器的选择策略
  3. 贷款,别相信这些人!
  4. Cloudstreams: 云间整合的下一个挑战
  5. 北京国际图书博览会暨2007 BIBF
  6. python3 console input_Python3 tkinter基础 Button command 单击按钮 在console中打印文本
  7. qpython3怎样安notebook_Windows下基于Python3安装Ipython Notebook(即Jupyter)。python –m pip install XXX...
  8. python查找输出文字_Python基础练习,查询文本内容并输出;
  9. mysql导入数据比原来多_Oracle和MySQL的数据导入,差别为什么这么大
  10. kafka学习-环境搭建