Google的三篇大数据思想论文
大数据
1、什么是大数据
简单说就是身边的一切,你看到的是,听到的是,闻到的感觉到的触摸到的都是
2、具体一点
天猫淘宝的购物数据,你的聊天记录,医疗记录,看书或者挑东西时候的推荐物品
大数据的问题
1、生活中的种种数据数量如此之多,如何存储
2、要让数据有意义,又该怎么去处理海量的数据
Google对大数据问题的思想
1、GFS:Google File System
对数据进行分布式文件系统的存储,解决的大数据的存储问题
2、MapReduce
最初是因为Google要去爬取全球的网页然后对其进行排名(PageRank)而衍生出的问题,一种用于大数据计算的模型,核心思想是大事化小处理,最后在合并结果,先拆分再合并
3、BigTable
采用NoSQL数据库将数据存在一张大表之中,通过牺牲存储的空间来换取性能
实现思想 -> Hadoop
主要结构
1、HDFS:Hadoop Distributed File System
1. 采用主从式的结构
2. 主节点: NameNode名称节点
3. 从节点: DataNode数据节点
4. SecondaryNameNode: 第二名称节点
这里有两张网上的图可供参考
需要注意的是:NameNode 和 SecondaryNameNode 之间没有关系,前者管理和维护整个HDFS,后者用来日志的合并,两者在同一个节点上(同一个机器),共同的组成了整个HDFS的主从式结构,硬盘需要两个(两台机器)所以HDFS环境至少需要三台机器
2、Yarn:MapReduce 的运行容器
Yarn 的结构,NodeMarager和DataNode在一个节点上,有一个DataNode就有一个NodeMarager
1. 主从式结构
2. 主节点: ResourceManager -> 资源管理器
3. 从节点: NodeManager -> 节点管理器
3、HBase: NoSQL数据库(需要单独安装)
1. 主从式结构
2. 主节点: HMaster
3. 从节点: RegionServer
---------------------
Google的三篇大数据思想论文相关推荐
- 谷歌三篇大数据论文之mapreduce读后感
** 谷歌三篇大数据论文之mapreduce读后感** 天气预报.城市外来人口统计等很多现实问题都需要处理以TB计算的大量数据集,用一台高性能的电脑处理不仅成本高,出错率高及速度慢这些问题都令人头疼. ...
- Google大数据三大论文读后感
一.简述 Google在2003年开始陆续公布了关于GFS.MapReduce 和BigTable三篇技术论文,这也成为后来云计算发展的重要基石,为数据领域工作者开启了大数据算法之门. ...
- 33篇大数据治理文章打包送,技术+案例一应俱全!大数据
一.元数据 1.90后美女程序员:元数据什么鬼? 近几年,90后这个群体开始迈入职场,逐渐出现在社会大众的视野当中,他们是极具个性的一代,他们这代技术人的新奇想法,正是现代企业需要的创新源泉- 2.轻 ...
- 大数据技术原理与应用 第一篇 大数据基础
目录 第一章 大数据概述 一. 大数据时代 1.1 三次信息化浪潮 1.2 信息科技发展 1.3 数据产生方式的变革 1.4 大数据的影响 二. 大数据的概念 2.1 大数据的特征 2.2 大数据关键 ...
- 收藏 | 100+篇大数据学习资讯,带你玩转大数据分析!
2019独角兽企业重金招聘Python工程师标准>>> 深度解析如何挑选适合自己的Hadoop平台 什么是Hadoop,怎样学习Hadoop 分布式文件系统HDFS解析 Hadoop ...
- 大数据人工智能物联网论文_物联网学报“大数据”相关论文汇总
戳上面的蓝字关注我们哦! <物联网学报>"大数据"相关论文汇总 (点击题目即可跳转至指定论文) [1]龚淑蕾, 李堃, 童恩, 等. 基于蜂窝工业物联网的智能工厂解决 ...
- 第三课 大数据技术之Fink1.13的实战学习-时间和窗口
第三课 大数据技术之Fink1.13的实战学习-时间和窗口 文章目录 第三课 大数据技术之Fink1.13的实战学习-时间和窗口 第一节 时间定义 1.1 Flink中的时间语义 1.2 两种时间语义 ...
- 视频教程-直通企业的数据仓库处理术—启动篇-大数据
直通企业的数据仓库处理术-启动篇 数据架构与处理方向咨询师. 某高等教育职业技术学院特约讲师. 12年银行金融和保险业项目经验. 熟悉项目管理,数据建模,ETL数据处理和报表展现.在数据建模,数据仓库 ...
- 第三课 大数据技术之Spark-RDD介绍和转换算子
第三课 大数据技术之Spark-RDD介绍和转换算子 文章目录 第三课 大数据技术之Spark-RDD介绍和转换算子 第一节 RDD相关介绍 1.1 什么是 RDD 1.2 核心属性 1.3 执行原理 ...
最新文章
- hexo定制个人博客matery主体打开公式渲染
- leetcode算法题--解码方法★
- javascript中创建对象的几种方式
- 启动项目后,FileItemFactory 错误
- 数据库常用增删改查记录等语句
- 纯css改变下拉列表select框的默认样式
- 佛山市南海技师学校计算机类,佛山南海信息技术学校2021年有哪些专业
- Spring Boot多数据源配置与使用
- 【Python】我的第一个EXE程序
- mysql查询当月数据_MySQL百万数据,你如何用分页来查询数据
- 为了搞懂什么是区块链,我都快抑郁了(转)
- spring整合redis问题
- codeforces 665A Buses Between Cities
- 服务器文件夹变成自读,服务器终端改文件读写权限
- 说你玻璃心的就想免费耍流氓
- web前端开发工程师的三种级别,技术决定你能拿5K,还是15K,还是25K
- html div区域划分、居中各种前端技巧笔记
- 考研英语长难句(刘晓燕)笔记 第五课 接近尾声的凯旋——状语和状语从句
- 【小程序】微信小程序重复循环平移动画
- springboot配置内置tomcat的日志
热门文章
- 小师妹学JVM之:Dirty cards和PLAB
- hi3516配置wifi_HISI 3516A移植mt7601u的wifi驱动
- 01. elastcsearch-monitor (es 监控)
- 22行代码AC,三种解法——例题3-6_环状序列(UVa-1584)
- HashMap方法源码
- 两个条件一个为false就运行_设置一个自动运行网格条件单
- linux安装joomla,安装Joomla
- msdn windows server 按电源事件api_【tornado源码分析】I/O事件循环机制与多进程
- 世界上有三样东西不能相信(引用)心胸狭窄的男人勿看
- python excel操作xlrd_python操作Excel读写--使用xlrd