大数据

1、什么是大数据

简单说就是身边的一切,你看到的是,听到的是,闻到的感觉到的触摸到的都是

2、具体一点

天猫淘宝的购物数据,你的聊天记录,医疗记录,看书或者挑东西时候的推荐物品
大数据的问题

1、生活中的种种数据数量如此之多,如何存储

2、要让数据有意义,又该怎么去处理海量的数据
Google对大数据问题的思想

1、GFS:Google File System

对数据进行分布式文件系统的存储,解决的大数据的存储问题

2、MapReduce

最初是因为Google要去爬取全球的网页然后对其进行排名(PageRank)而衍生出的问题,一种用于大数据计算的模型,核心思想是大事化小处理,最后在合并结果,先拆分再合并

3、BigTable

采用NoSQL数据库将数据存在一张大表之中,通过牺牲存储的空间来换取性能
实现思想 -> Hadoop
    主要结构

1、HDFS:Hadoop Distributed File System

1. 采用主从式的结构

2. 主节点: NameNode名称节点

3. 从节点: DataNode数据节点

4. SecondaryNameNode: 第二名称节点

这里有两张网上的图可供参考

需要注意的是:NameNode 和 SecondaryNameNode 之间没有关系,前者管理和维护整个HDFS,后者用来日志的合并,两者在同一个节点上(同一个机器),共同的组成了整个HDFS的主从式结构,硬盘需要两个(两台机器)所以HDFS环境至少需要三台机器

2、Yarn:MapReduce 的运行容器

Yarn 的结构,NodeMarager和DataNode在一个节点上,有一个DataNode就有一个NodeMarager

1. 主从式结构

2. 主节点: ResourceManager -> 资源管理器

3. 从节点: NodeManager -> 节点管理器

3、HBase: NoSQL数据库(需要单独安装)

1. 主从式结构

2. 主节点: HMaster

3. 从节点: RegionServer
---------------------

Google的三篇大数据思想论文相关推荐

  1. 谷歌三篇大数据论文之mapreduce读后感

    ** 谷歌三篇大数据论文之mapreduce读后感** 天气预报.城市外来人口统计等很多现实问题都需要处理以TB计算的大量数据集,用一台高性能的电脑处理不仅成本高,出错率高及速度慢这些问题都令人头疼. ...

  2. Google大数据三大论文读后感

    一.简述         Google在2003年开始陆续公布了关于GFS.MapReduce 和BigTable三篇技术论文,这也成为后来云计算发展的重要基石,为数据领域工作者开启了大数据算法之门. ...

  3. 33篇大数据治理文章打包送,技术+案例一应俱全!大数据

    一.元数据 1.90后美女程序员:元数据什么鬼? 近几年,90后这个群体开始迈入职场,逐渐出现在社会大众的视野当中,他们是极具个性的一代,他们这代技术人的新奇想法,正是现代企业需要的创新源泉- 2.轻 ...

  4. 大数据技术原理与应用 第一篇 大数据基础

    目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...

  5. 收藏 | 100+篇大数据学习资讯,带你玩转大数据分析!

    2019独角兽企业重金招聘Python工程师标准>>> 深度解析如何挑选适合自己的Hadoop平台 什么是Hadoop,怎样学习Hadoop 分布式文件系统HDFS解析 Hadoop ...

  6. 大数据人工智能物联网论文_物联网学报“大数据”相关论文汇总

    戳上面的蓝字关注我们哦! <物联网学报>"大数据"相关论文汇总  (点击题目即可跳转至指定论文) [1]龚淑蕾, 李堃, 童恩, 等. 基于蜂窝工业物联网的智能工厂解决 ...

  7. 第三课 大数据技术之Fink1.13的实战学习-时间和窗口

    第三课 大数据技术之Fink1.13的实战学习-时间和窗口 文章目录 第三课 大数据技术之Fink1.13的实战学习-时间和窗口 第一节 时间定义 1.1 Flink中的时间语义 1.2 两种时间语义 ...

  8. 视频教程-直通企业的数据仓库处理术—启动篇-大数据

    直通企业的数据仓库处理术-启动篇 数据架构与处理方向咨询师. 某高等教育职业技术学院特约讲师. 12年银行金融和保险业项目经验. 熟悉项目管理,数据建模,ETL数据处理和报表展现.在数据建模,数据仓库 ...

  9. 第三课 大数据技术之Spark-RDD介绍和转换算子

    第三课 大数据技术之Spark-RDD介绍和转换算子 文章目录 第三课 大数据技术之Spark-RDD介绍和转换算子 第一节 RDD相关介绍 1.1 什么是 RDD 1.2 核心属性 1.3 执行原理 ...

最新文章

  1. hexo定制个人博客matery主体打开公式渲染
  2. leetcode算法题--解码方法★
  3. javascript中创建对象的几种方式
  4. 启动项目后,FileItemFactory 错误
  5. 数据库常用增删改查记录等语句
  6. 纯css改变下拉列表select框的默认样式
  7. 佛山市南海技师学校计算机类,佛山南海信息技术学校2021年有哪些专业
  8. Spring Boot多数据源配置与使用
  9. 【Python】我的第一个EXE程序
  10. mysql查询当月数据_MySQL百万数据,你如何用分页来查询数据
  11. 为了搞懂什么是区块链,我都快抑郁了(转)
  12. spring整合redis问题
  13. codeforces 665A Buses Between Cities
  14. 服务器文件夹变成自读,服务器终端改文件读写权限
  15. 说你玻璃心的就想免费耍流氓
  16. web前端开发工程师的三种级别,技术决定你能拿5K,还是15K,还是25K
  17. html div区域划分、居中各种前端技巧笔记
  18. 考研英语长难句(刘晓燕)笔记 第五课 接近尾声的凯旋——状语和状语从句
  19. 【小程序】微信小程序重复循环平移动画
  20. springboot配置内置tomcat的日志

热门文章

  1. 小师妹学JVM之:Dirty cards和PLAB
  2. hi3516配置wifi_HISI 3516A移植mt7601u的wifi驱动
  3. 01. elastcsearch-monitor (es 监控)
  4. 22行代码AC,三种解法——例题3-6_环状序列(UVa-1584)
  5. HashMap方法源码
  6. 两个条件一个为false就运行_设置一个自动运行网格条件单
  7. linux安装joomla,安装Joomla
  8. msdn windows server 按电源事件api_【tornado源码分析】I/O事件循环机制与多进程
  9. 世界上有三样东西不能相信(引用)心胸狭窄的男人勿看
  10. python excel操作xlrd_python操作Excel读写--使用xlrd