笑谈技术,轻松才能不掉头发。

在这个人人都谈大数据的时代,生活中处处开始被大数据影响的时代,作为一名合格的程序猿(猴子),不了解什么是BigData,什么是AI,以后怎么在动物园里立足,大象不嘲笑你,你让其他猴子怎么看。开个小玩笑。话又说回来,什么是大数据?你去google,baidu,toutiao搜,你会发现没有一个重样的答案,这时候你会对这些搜索引擎的AI能力产生了深深的怀疑。其实这是盲人摸象,回答的都没有错,不同工种对大数据的理解是不一样的。所以本主题文章只站在程序员的角度去谈谈什么是大数据技术?

知识点:

  • 大数据解决了什么问题?
  • 大数据怎么解决的?

大数据解决了什么问题

咱们先说说传统数据库系统遇到什么问题?

通常我们的系统运行的数据都存储在关系型数据库中,数据库的数据是以文件的形式存储在数据库服务的本地磁盘上,单机磁盘的扩展能力决定了无法存储TB甚至PB级的数据。存储系统的性能瓶颈一般在于IO,单机磁盘的性能问题也是无法避免的问题。

这就暴露了第一个问题:大数据存储问题。

假设单机数据库存储无比强悍了,忽略存储的问题,一个访问记录表存储了存储了上亿条数据,我们来分析一下某个页面的访问情况,拿出我们的看家用本领SQL,so easy的去查一下这个表,这个时候尴尬的问题出现了,你的数据库客户端工具为何一直在转圈圈,这是咋了嘛?于是我请来了我们的高级数据库专家来优化一下我这充满自信的SQL,又是分区又是索引的,尽管DBA使出了看家本领,一顿操作猛如虎,数据怎么还没有!

这就暴露了第二个问题:大数据计算问题。

大数据技术主要解决就是这两个问题:存储和计算。

分布式存储

单机的存储不足,相信各位看官在生活中都有所体会,比如博主本人这台笔记本256G的硬盘,博主从上大学积累了大量的“学习”视频,显然是存不了的,怎么办?

像博主这么聪明的IT男,硬盘不足这种小问题,解决不了是不存在的。博主每年双十一都会固态移动硬盘,为什么每年都买,你们细品。其实这种方案就是单机扩容,这种方案的缺点比较明显,博主比较穷,使用的是低配的mac,只有两个type-c接口,不能同时插很多个「停顿」硬盘。这种方案(DAS)缺点是:存储和计算直连,扩展性差,灵活性差。

那还有没有别的方案呢,贫穷使人进步,于是楼主低价买了一个云主机,可以将云主机的硬盘挂载到我的电脑上,这样博主就不用每年都买移动硬盘了,空间不足,升级一下云主机的硬盘空间就好了。这种方案其实就是集中存储(NAS、SAN),数据都存储在一个专用的存储服务器,那这种方案是不是就完美了呢,显然不是,虽然存储是网络挂载,但是我电脑的IO能力依然受控于控制器和总线,扩展能力也是有限的。

有一天楼主收到一个短信,内容大概是这样的:”恭喜您获得免费空间1TB,速来领取,点击xxx.com“。那一刻博主仿佛收到的不是一个营销短信,而是一个中奖短信,瞬间点进去领取了。于是楼主的大量“学习”视频资料,都传到了这个网盘里,当然1TB怎么能满足博主的需求,某网盘显然低估了我的“学习”数据量,于是博主花费了一天的饭钱买了个超级会员。

其实这种方案就是利用的分布式存储,某网盘背后肯定是有上万台服务器用于存储用户的文件的,用户使用某网盘这个软件,将我的大量数据存储到服务器的磁盘里,至于存在哪台服务我是不关心的,我只需要知道存在哪个目录就能看到我的文件,而且网盘背后肯定不会只存了一份我的“学习”资料的啊,因为如果服务磁盘坏了,我肯定是要找他们公司赔偿的,毕竟博主的“学习”资料肯定是值好多钱的。这种方案的优点是:使用了一个软件作为文件上传下载的入口,对外作为一个整体的服务,服务器的扩容对用户是透明的,可扩展性高,有备份,容灾能力强。

GFS,HDFS,TFS,S3等都是当下主流大数据分布式存储系统,它们的功能可以类比楼主使用的某网盘,本质上都是使用软件作为中间层,替代了OS文件系统,提供统一的API来操作文件。分布式存储系统主要有如下几个特性:可扩展性,低成本,高性能,易用。

那么这种分布式存储是不是就是完美的呢?有没有缺点?各位可以留言。

下篇接着聊分布式计算。

博主致力于,5分钟轻松学习技术,欢迎关注转发评论支持,感谢。

作者:Jam

什么是大数据,猴子怎么看大象(1)相关推荐

  1. python查看数据大小_科多大数据带你看Python可以列为最值得学习的编程语言

    原标题:科多大数据带你看Python可以列为最值得学习的编程语言 不知道从什么时候开始,这句话开始流行.不过也从侧面反映出 Python 语言的特点:简单.高效. 从近期代表技术趋势的业界报告以及编程 ...

  2. 漫谈阿里那些大数据技术,大数据学习者必看

    目前人人都在谈大数据,谈DT时代,但是,大数据是什么,每个人都有自己的一个看法,好比盲人摸象,每个都认为自己摸到是真正的大象.我也担心我所看到的,只是大数据的冰山一角,毕竟,将引领整个人类下一次变革的 ...

  3. 大数据风控必看,挖掘学历数据中暗藏的还款意愿及还款能力

    市场上80%以上的信贷产品或信用卡,在申请人填写基本信息时都会需要填写学历情况,银行信用卡部门还会根据学历等级来设置进件门槛及额度标准. 那学历情况对于消费金融行业风控部门设置进件门槛或风控规则权重处 ...

  4. 什么是大数据开发?看完我终于懂了......

    一.大数据开发工作内容 从大数据开发的工作内容来看大数据开发主要负责大数据的大数据挖掘,数据清洗的发展,数据建模工作. 主要负责处理和大数据应用,结合大数据可视化分析工程师,挖掘出价值的数据,为企业提 ...

  5. Apache Spark处理大数据入门,看这一篇就够了

    作者 Srini Penchikala ,译者 丛一 什么是Spark Apache Spark是一个围绕速度.易用性和复杂分析构建的大数据处理框架.最初在2009年由加州大学伯克利分校的AMPLab ...

  6. 想了解工业大数据,不得不看的一篇

    工业大数据是互联网.大数据和工业产业相结合的产物.它是2025年中国制造.工业互联网.工业4.0等国家战略的立足点. 对企业而言,了解工业大数据生成的背景,总结工业企业大数据的分类和特征,从数据流的角 ...

  7. 大数据带你看《爱情公寓》如何十年情怀变“公墓”

    最近一场爱情公寓大电影,真的是狠狠刷了一波存在感,从2009年第一部播出至今可谓是赚足了观众的笑点,几位主演也因此大红大紫.然而,第四季结束,并没有给这个故事画上一个完美的结局,这也不禁观众对爱五蒙生 ...

  8. Hadoop HDFS完全分布式环境搭建以及技术详解(保证没接触过大数据的小白看完就能独自把集群搭起来,并对HDFS有详细的认知)

    **读懂本篇文章,能让小白快速入门,并且能够搭建完全分布式的集群,以及能对hadoop hdfs产生详细的认知,对以后的学习有很大的帮助** 我们先来了解hadoop的hdfs基本概念,熟知基本概念, ...

  9. 想学大数据?先看完这几本书再说

    真正的数据爱好者有很多需要阅读的内容:大数据,机器学习,数据科学,数据挖掘等.除了这些技术领域,还有一些特定的技术和语言需要你继续研究:Hadoop,Spark,Python,和R等等,还有无数实现自 ...

最新文章

  1. 图灵2010.11书讯
  2. cyico收集的关于utf8转换gb2312,以及关于javascript实现urlencode和urldecode的一些方法...
  3. 一文读懂tomcat组件--一个web服务器的架构演化史
  4. sqlserver全文索引问题
  5. docker-compose 实战案例
  6. Luogu1979 NOIP2013D2T3 华容道 搜索、最短路
  7. Hiberate中Update和Merge的一个小的区别
  8. 关于分辨率和地图打印的一些问题
  9. 继承基础概念与公有继承
  10. [转载] QT中的connect用法总结
  11. http请求过程:一,DNS域名解析系统详解
  12. SpringCloud Gateway gatewayRequestUrl is missing
  13. vue-pdf插件实现PDF预览功能
  14. 谷歌软件工程师是怎样写设计文档的?
  15. 瑞数5维普期刊js逆向
  16. 用微PE工具箱安装系统
  17. 64位系统的Detours
  18. 【语音隐藏】基于matlab小波变换DWT结合离散余弦变换DCT音频数字水印嵌入提取【含Matlab源码 2131期】
  19. node安装详细步骤
  20. unity大量较高尺寸的序列帧图片出包画面马赛克问题

热门文章

  1. 21 根火柴游戏(常胜将军)
  2. 手机只是前菜,YunOS为何还要瞄准“家里、车里、路上和娱乐”?
  3. Server U 的使用
  4. STM32使用GSM模块发送中英文短信(TEXT模式到PDU模式的转换)
  5. APP自动化测试---adb常用命令+monkey自动化
  6. 苏州大学9月计算机考试试题,2016年9月计算机一级考试试题含答案
  7. C++ Problems
  8. 解决dotnetfx35和dotnetfx35SP1在线安装慢的问题
  9. 如何把Community project导入到Aras Innovator 11R9
  10. 高姿态下的面部表情识别系统