百万大数据架构师学习笔记
什么是大数据技术?
对于一个从事大数据行业人来说,一切数据都是有意义的。因为通过数据采集、数据存储、数据管理、数据分析与挖掘、数据展现等,我们可以发现很多有用的或有意思的规律和结论。
比如,北京公交一卡通每天产生4千万条刷卡记录,分析这些刷卡记录,可以清晰了解北京市民的出行规律,来有效改善城市交通。
但这4千万条刷卡数据 ,不是想用就能用的,需要通过“存储”“计算”“智能”来对数据进行加工和支撑,从而实现数据的增值。
而在这其中,最关键的问题不在于数据技术本身,而在于是否实现两个标准:第一,这4千万条记录,是否足够多,足够有价值;第二,是否找到适合的数据技术的业务应用。
下面就来简单说说上述提到的一些和“大数据“”形影不离的“小伙伴们”——
云计算
由于大数据的采集、存储和计算的量都非常大,所以大数据需要特殊的技术,以有效地处理大量的数据。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
可以说,大数据相当于海量数据的“数据库”,云计算相当于计算机和操作系统,将大量的硬件资源虚拟化后再进行分配使用。
整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力, “动一下鼠标就可以在秒级操作PB级别的数据”。
Hadoop/HDFS /Mapreduce/Spark
除了云计算,分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光。
Hadoop是Apache软件基金会旗下的一个分布式计算平台,为用户提供了系统底层细节透明的开源分部式基础架构。它是一款用Java编写的开源软件框架,用于分布式存储,并对非常大的数据集进行分布式处理,用户可以在不了解分布式底层细节的情况下,开发分布式程序,现在Hadoop被公认为行业大数据标准开源软件。
而HDFS为海量的数据提供了存储;Mapreduce则为海量的数据提供了并行计算,从而大大提高计算效率。它是一种编程模型,用于大规模数据集(大于1TB)的并行运算,能允许开发者在不具备开发经验的前提下也能够开发出分布式的并行程序,并让其运行在数百台机器上,在短时间完成海量数据的计算。
在使用了一段时间的 MapReduce 以后,程序员发现 MapReduce 的程序写起来太麻烦,希望能够封装出一种更简单的方式去完成 MapReduce 程序,于是就有了 Pig 和 Hive。
同时Spark/storm/impala等各种各样的技术也相继进入数据科学的视野。比如Spark是Apache Software Foundation中最活跃的项目,是一个开源集群计算框架,也是一个非常看重速度的大数据处理平台。
打个比方,如果我们把上面提到的4千万条记录比喻成“米”,那么,我们可以用“HDFS”储存更多的米,更丰富的食材;如果我们有了“Spark”这些组件(包括深度学习框架Tensorflow),就相当于有了“锅碗瓢盆”,基本上就能做出一顿可口的饭菜了。
链接:https://pan.baidu.com/s/1_4PIUb-Yl68aTW9Bw95iJA
提取码:tnav
百万大数据架构师学习笔记相关推荐
- 进阶大数据架构师学习路线
![在这里插入图片描述](https://img-blog.csdnimg.cn/25b820fe1d054f53bab70310694faffe.jpeg#pic_center 文末有惊喜 大数据架 ...
- 大数据架构师学习方向---加油。
曾经有人这样对工说:"针对计算机这个行业,我们要有敬重的态度",说的一点不错,大家好好学习吧,加油. 针对大数据,以下列了一些必须要掌握的知识,希望能够为迷茫中的小伙伴,指明个方向 ...
- 这可能是程序员学习大数据架构师的最佳之路!另附送1024G学习资料!
随着大数据时代的到来,[这次国家教育部的改革要动真格了],JAVA程序员们仅有的一点点竞争力很快就不复存在,为什么这么说呢? 人生别只顾低头拉车,更要抬头看路! 国家教育部全面改革:大数据领衔 所有高 ...
- 大数据架构师深入学习视频教程
大数据架构师深入学习视频教程 大数据分析你要掌握概率统计学的知识,学会数据分析工具的使用.比如MATLAB,这个工具非常强大,掌握起来有些难度.但不是说你掌握了这个工具就能胜任数据分析师的工作了.你还 ...
- 大数据架构师进阶之路-技术学习路线
大数据架构师进阶之路 自大学毕业从事IT行业已有两年有余,虽在这两年一直没有停止学习的脚步,但总是感觉,不成体系,再就是学过的技术长时间不用,也忘记了,写篇博客的目的,是想在工作之余,一是充实自己,将 ...
- 大数据第一阶段学习笔记
开始:2022年11月6日 以下内容仅为个人笔记整理.(第一阶段的内容并不完全.硬件上有点问题,暂时无法解决,空着的部分后续补上.) 第0章 大数据介绍 大数据可以从事的职位有: 大数据工程师 数据分 ...
- 数据中台已成气候!大数据架构师如何站上风口?
你被大数据杀过熟吗?当今企业对数据的重视度越来越高,在大数据系统架构设计层面,大数据架构师需要完成技术决策.技术选型,还需要根据不同时期的业务场景,不断优化和演进软件架构,最终攻克技术难点.化解技术风 ...
- 系统架构师学习笔记_第六章(下)_连载
系统架构师学习笔记_第六章(下)_连载 6.3 基于 UML 的软件开发过程 6.3.1 开发过程概述 UML 是独立于软件开发过程的,能够在几乎任何一种软件开发过程中使用.迭代的渐进式软件开发过程 ...
- BATJ大数据架构师带你领略实时计算框架Flink的魅力!
你是不是经常体验或看到以下这些场景? "小张,你看能不能做个监控大屏实时查看促销活动销售额(GMV)?" "小王,我们现在搞促销活动能不能实时统计销量 Top3 啊?&q ...
最新文章
- C/C++中作用域详解(转)
- IT创业光技术好,谋略定位不好,你很可能会死得很惨,丢钱、丢客户、丢成果、丢商机、丢思路...
- [剑指offer] 跳台阶
- (笔记)Linux Root下的.gvfs出现异常解决办法
- 基于 Ubuntu 系统安装 CUDA 和 cuDNN
- [部署]CentOS安装PHP环境
- 从零开始学习Sencha Touch MVC应用之十九
- 云计算:企业商业模式创新的新战线
- 将一个数组中的值按逆序重新排放。_六十五、下一个更大的数系列,单调栈解决方法...
- 钢条分割 动态规划java_【动态规划】初识,钢条切割问题
- 记录——《C Primer Plus (第五版)》第九章编程练习第六题
- 64位Java开发平台的选择,如何区分JDK,Tomcat,eclipse的32位与64版本
- 计算机体系结构五大部分组成
- jQuery—$ is not a function
- [引]构造文法时表达式中算符优先级的问题
- Android App 免杀教程
- 现在的小程序,商家凭什么入驻你!
- 毕业论文页码及目录设置方法
- mysql富文本_mysql模糊查询富文本的文本内容
- element-ui表格列排序错乱问题解决方案
热门文章
- html 窗口大小改变,html – 调整窗口大小时缩放整个身体
- linux刻录光盘空间不足,linux下刻录光盘所发生的问题及解决办法
- python json模块
- Windows如何查看端口占用
- Linux:如何获取打开文件和文件描述符数量
- 【解决方案】如何实现在HTML页面加载完毕后运行某个js
- WPF中实现验证码功能
- python request url 转义_Python多线程抓取Google搜索链接网页
- 编程判断某个数为素数_【每日编程233期】素数对猜想
- webgl 基础渲染demo_游戏引擎养成《二》 引入跨平台渲染库