刚开始看老师推荐的三篇Google的技术论文(分别是GFS,Mapreduce,Bigtable)时,基本上是云里雾里,摸不着头尾。于是我结合网上查询的资料,对于这些论文讲述的一些知识有了一定的了解。最后,我不得不佩服谷歌的开发人员,佩服他们的思维,佩服他们的逻辑,佩服他们的智慧。其中,最感兴趣的便是Google文件系统的产生。

Google文件系统(GFS):

       Google文件系统(GFS)是由 Google Inc.创建的可扩展分布式文件系统(DFS),旨在满足 Google 不断扩展的数据处理要求。 GFS 为大型网络和连接节点提供容错,可靠性,可扩展性,可用性和性能。

GFS 由几个由低成本商用硬件组件构建的存储系统组成。它经过优化,可以满足谷歌不同的数据使用和存储需求,例如搜索引擎,它可以生成大量必须存储的数据。谷歌文件系统充分利用了现成的优势服务器同时最大限度地减少了硬件缺陷。

GFS 也称为 GoogleFS。

GFS 节点集群是一个拥有多个块服务器的主服务器不断的客户端系统不断访问。块服务器将数据作为 Linux 文件存储在本地磁盘上。存储的数据分为大块(64 MB),这些块在网络中至少复制三次。大块大小减少了网络开销。

GFS 旨在满足 Google 的大型集群需求,而不会给应用程序带来负担。文件存储在由路径名标识的分层目录中。元数据 – 例如命名空间,访问控制数据和映射信息 – 由主控制器控制,主控制器通过定时心跳消息与每个块服务器的状态更新进行交互并监视它们的状态更新。

GFS 功能包括:

最大的 GFS 集群拥有 1,000 多个节点,300 TB 磁盘存储容量。数百名客户可以连续访问。

Google MapReduce:

Google在2003年和2004年提出一篇论文,面向大数据的并行处理的框架模型--MapReduce.

单个计算机无论再好的设备处理能力终究有限,而MapReduce通过简单的接口来实现自动的并行化和大规模的分布式计算,在大量普通的PC机上实现高性能运算,他可以很简单粗暴的通过不断增加pc机数目来提高性能.将此难题迎刃而解,同时促进了大数据时代的到来MapReduce的主要思想概括说来就是四个字,”化整为零”,通过Map(映射)和Reduce(规约)来实现.面对一个复杂的问题,将其分解成若干个map任务和reduce任务,一个map任务即所一个复杂问题分解的一个小问题,reduce任务即将所有已解决的map任务总结汇总最后得出该复杂问题的答案.而这些一个任务的承担者即是一台普通的pc机,叫他worker,执行map任务的叫map worker,当然执行reduce任务的就叫reduce worker了.那么这些任务由谁来分配?也是这些pc机中的一台,他叫做master,他的任务就像他的名字一样,解决这个问题不是他的事儿,他负责分配任务下去,同时管理好这些这些map worker和reduce worker,每一个worker的详细信息都在他的数据内.由于一个问题是由成百上千的机器集群来解决的,如果其中一台机器故障怎么办?Worker故障就由master再集群中再选一个空闲状态的机器出来代替他.

Google Bigtable:

Bigtable是一个为管理大规模结构化数据而设计的分布式存储系统,可以扩展到PB级数据和上千台服务器。很多google的项目使用Bigtable存储数据,这些应用对Bigtable提出了不同的挑战,比如数据规模的要求、延迟的要求。Bigtable能满足这些多变的要求,为这些产品成功地提供了灵活、高性能的存储解决方案。

Bigtable看起来像一个数据库,采用了很多数据库的实现策略。但是Bigtable并不支持完整的关系型数据模型;而是为客户端提供了一种简单的数据模型,客户端可以动态地控制数据的布局和格式,并且利用底层数据存储的局部性特征。Bigtable将数据统统看成无意义的字节串,客户端需要将结构化和非结构化数据串行化再存入Bigtable

以上就是通过阅读google三篇论文所了解到的知识与感悟

看google三篇论文的感触相关推荐

  1. 读Google三篇论文有感

    读Google三篇论文有感 在这一个星期内,我认真读了谷歌的三篇重要论文,下面是我的读后感.这三篇论文分别是Google FS.MapReduce.Bigtable.Google没有公布这三个产品的源 ...

  2. google三篇论文之GFS

    Google在03至06年发表了著名的三大论文--GFS.BigTable.MapReduce,用来实现一个大规模的管理计算系统. 今天先来谈谈GFS.因为论文里大段大段的文字加上专业术语读起来对我来 ...

  3. 2020年11月总结(自动驾驶测试三篇论文介绍)

    "你觉得,在未来的多久之内,我们的生活可以看到有明显的改变呢?"在地铁上,F.W.H问他的一位同学. "你是指说我们在事业和家庭上有一定成就?" "我 ...

  4. 分布式系统与 Google 早期的三篇论文

    版本号 修改时间 修订人 修改备注 1.0 2019-10-30 汐雪池间 初稿 Google 在 2003~2006 年间发表的三篇论文为今天 Hadoop 大数据生态的发展奠定了技术基础,工程师利 ...

  5. Google引爆大数据时代的三篇论文

    Google引爆大数据时代的三篇论文 谈到Hadoop的起源,就不得不提Google的三驾马车:Google FS.MapReduce.BigTable.虽然Google没有公布这三个产品的源码,但是 ...

  6. 一文看完澜舟科技被EMNLP'22录用的三篇论文

    每天给你送来NLP技术干货! 来自:澜舟科技 作为NLP领域的新创企业,澜舟科技非常注重对核心技术的研究和实习生的培养.自 2021 年成立以来,澜舟已培养了来自国内外知名高校的 120 名余位实习生 ...

  7. NLP能否像人脑一样工作?CMU、MIT三篇论文详解机器和大脑范畴下NLP的关系

    本文转载自公众号机器之心 作为计算机科学领域与人工智能领域的重要研究课题,自然语言处理已经在各领域展开了广泛的研究与探讨.随着研究的深入,一些学者开始探讨机器中的自然语言处理和大脑中的自然语言处理是否 ...

  8. 人工智能必看的 45 篇论文(附下载地址)

    点击上方"小詹学Python",选择"星标"公众号 重磅干货,第一时间送达 [导读]今天介绍下做人工智能必看的45篇论文,并附上下载地址,以及一本提到这45篇论 ...

  9. 提气!阿里平头哥三篇论文入选 ISCA

    作者 | 马超 责编 | 胡巍巍 出品 | CSDN(CSDNnew) 近日计算机体系结构方面的顶级学术会议ISCA2020公布了论文入选结果(http://iscaconf.org/isca2020 ...

最新文章

  1. StaticFactoryMethod_Level4
  2. 误差向量幅度(EVM)介绍
  3. Android studio听云接入另外一种方式
  4. 点击别的地方隐藏下拉列表
  5. 纯干货!文字识别在高德地图数据生产中的演进
  6. BZOJ4573:[ZJOI2016]大森林——题解
  7. extjs ajax 遮罩层,[Ext JS 4] 实战之Load Mask(加载遮罩)的显示与隐藏
  8. Linux之使用网络
  9. 机器视觉:偏振片应用
  10. 55个javascript经典用法
  11. WordPress: 使用 wp_insert_attachment 上传附件
  12. pandas练习题二
  13. 写给非网工的CCNA教程(8)跨LAN的通信
  14. 量表类问卷影响关系研究(精读笔记1)SPSS
  15. picgo图片上传踩坑
  16. VMware虚拟机在Windows10下不兼容解决办法
  17. html5画布获取位置,html5画布绘制位置不正确(html5 canvas drawing position not correct)
  18. 理解IaaS、SaaS、paas的含义及区别
  19. java卡牌游戏详解
  20. [APIO2010] 特别行动队

热门文章

  1. final cut pro编辑的时候
  2. Apache PDFBox 存在高危 XXE 漏洞,建议升级至 2.0.15
  3. Spotify开源其Cassandra编排工具cstar
  4. Java动态绑定机制的内幕
  5. linux软件包管理之rpm 、yum基本使用
  6. FOJ 2105 Digits Count
  7. 屏幕编程 F4的帮组用法
  8. E-mail 标准 SMTP POP3
  9. [转]毕业五年决定你的命运-----值得所有不甘平庸的人看看
  10. nyoj1311勤奋的涟漪