前言

今天新开了一个 【大数据】分类,在整个的运维体系中,你稍微努力下,拿到12K-14k还是蛮容易的,但是想要拿到18k就稍微有些困难。 想要冲刺20K,就几乎成了个梦想。

在以往的授课中,的确有人学历,年龄,都不够的情况下拿到了20K, 但这种情况已经与技术 无关了,完全是靠沟通能力和运气。

如果你想在现有的运维体系中突破20K的薪资,在不考虑副业的情况下,只有通过继续深造,比如学学大数据的内容, 不是因为你会了大数据的知识,薪资才提高的,而是因为大数据公司的薪资相对较高。

这就和你作为普通专科只能去小企业一样,你有了211本科就增加了去大公司的机会,相对来说大公司给的薪资高,与你是不是211有一定关系,但并不是因为你有了211本科就一定能去大公司。

大数据的定义

提到大数据,很多人会想起一些国外的电影,比如在《斯诺登》中就有一个识别恐怖分子的桥段,用的就是大数据手段,通过分析公民电话和社交软件的数据,最终定位恐怖分子。

当然我们生活中也有很多地方,比如电商平台,广告投放系统,导航系统,共享单车系统,旅行推荐系统等。

说个题外话,最近发现平时跟人聊天,手机也会根据你的聊天内容来推送你想要的商品。 比如上次在办公室聊到了信用卡,第二天就有银行推荐办卡的短信发过来。

那什么是大数据呢?
维基百科有个定义: 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取,管理和处理的数据集合。

  • 数据量大,不管是采集,存储,计算的数据都很大,以PB,EB ,ZB为单位
  • 类型繁多,比如日志,音频,图片,视频,地理位置
  • 速度极快,时效高。 比如推荐系统
  • 价值密度低,商业价值高,比如数据挖掘
    想想抖音每天有多少视频上传,微博,微信每天有多少人转发小视频,发图片。

传统的数据处理和大数据技术互为补充

服务器的三大体系

从系统架构来看,目前商用服务器大体可以分为三类:

  • SMP :对称多处理器结构
  • NUMA: 非一致性存储访问结构
  • MPP 海量并行处理结构
1. SMP (Symmetric Multi-processor)

称多处理器结构,是指服务器中多个CPU对称工作,无主次或从属关系。各CPU共享相同的物理内存,每个 CPU访问内存中的任何地址所需时间是相同的,对SMP服务器进行扩展的方式包括增加内存、使用更快的CPU、增加CPU、扩充I/O或者添加磁盘存储

SMP 的CPU利用率最好的情况是2-4个CPU

2. NUMA(Non-Uniform Memory Access)

由于SMP在扩展能力上的限制,人们开始探究如何进行有效地扩展从而构建大型系统的技术,NUMA就是这种努力下的结果之一。利用NUMA技术,可以把几十个CPU(甚至上百个CPU)组合在一个服务器内

NUMA使用cpu模块,每个cpu模块通常由4个组成,并且有独立的本地内存及IO槽口,使性能更佳。 但缺点是访问远地内存所造成的延迟远远大于本地内存,增加CPU,并不能线性增加系统性能。

3. MPP (Massive Parallel Processing)

MPP 由多个SMP服务器通过一定的节点互联网络进行连接,协同工作,完成相同的任务,从用户的角度来看是一个服务器系统
目前的技术可实现512个节点互联,数千个CPU ,每个节点都可以运行自己的操作系统和数据库。

数据处理系统架构的演进

SMP --SMP+MPP混合 --MPP – hadoop

大数据时代需要关注的几个点:

  • 容量: 海量数据不可能单机存储,为确保数据稳定和安全,还需要存多个副本,所以需要分布式存储
  • 性能: 数据量大,单机很难完成单独运算,只能使用分而治之的思想,大量的计算节点来分担运算量
  • 成本: 使用分布式系统,可以使用通用硬件来解决线性扩展,同时性能接近线性提升。

大数据运维工作职责

  • 集群管理: hadoop,hbase ,spark kafak,redis
  • 故障处理: 商用硬件故障及其他故障
  • 变更处理,配置管理和发布管理
  • 容量管理: 存储空间,运行链接数等
  • 性能调优: 不同的组件,性能的概念不一样,比如kafka注重的是吞吐量,hbase注重实时性可用性。
  • 架构优化: 优化大数据平台架构,支持平台能力和产品的不断迭代

大数据运维需要的能力

  1. 硬件,OS,网络,安全等相关知识
  2. 脚本能力: SHELL ,sql ,python,go
  3. 大数据组件知识: 设计思想,适用范围,底层架构,常用命令,常用配置或者参数,常见问题处理方法
  4. 工具能力: zabbix,ELK,企业自己研发的工具
  5. 解决问题的能力: 搜索能力(谷歌,百度,stackoverflow),java能力(根据代码异常分析问题产生的原因),英语阅读能力

运维的核心能力

  • 重启: 重启有问题的机器或者进程,使其正常工作,但是重启前一定要通知到正在用机器的所有人员,并确定自己知道机器上所有服务以及这些服务的启动方式,如有可能先设置开机自启动
  • 切换 : 主备切换,主主切换,逐点排查
  • 查杀: 杀死有问题的进程或者不正常的连接

这三个方法可以处理90%以上的故障,但大多数时候治标不治本。

大多数公司的大数据系统使用廉价的二手机器,甚至虚拟机,硬件故障是常态,通过告警,日志,维护命令去识别故障,组织硬件更换,比如HADOOP 常见的故障就是硬盘损坏。

一般出现问题,都是集中在资源问题,权限问题,代码问题中的一种。

总结

工作就是娱乐,用娱乐的心态去工作,你将飞速进步。 很多人玩游戏遇到困难从未想过放弃,学习遇到困难就很容易放弃,这是典型的本末倒置。

当人们在说大数据的时候到底在说什么?相关推荐

  1. 大数据思维,到底是什么?

    大数据思维,到底是什么? 目录 大数据思维,到底是什么? 1. 大数据本质 2. 大数据思维 3. 应用领域 4. 思维转变 1. 大数据本质 大数据实际上是营销的科学导向的自然演化,将不同行业或者说 ...

  2. 大数据在职研究生哪个好_各种大数据在职研究生到底有什么不同之处

    现在是互联网时代,大数据越来越受到关注,所以很多院校现在开设了大数据在职研究生,不过这种专业的在职研究生有三种方向,很多人对于他们之间的区别不太了解.那么,各种大数据在职研究生到底有什么不同之处呢?下 ...

  3. 大数据运维到底是什么 又需要做些什么

    疫情期间,大数据的广泛应用发挥了巨大的作用,作为新兴的IT领域技术,大数据行业受到越来越多的人关注,于是想要入行的.转行的纷纷选择大数据学习,那么大数据运维到底是什么?又需要做些什么? 直白的解释大数 ...

  4. 大数据可视化设计到底是啥,该怎么用

    大数据可视化是个热门话题,在信息安全领域,也由于很多企业希望将大数据转化为信息可视化呈现的各种形式,以便获得更深的洞察力.更好的决策力以及更强的自动化处理能力,数据可视化已经成为网络安全技术的一个重要 ...

  5. 大数据和人工智能到底是什么关系

    大数据和人工智能的关系,首先要说什么是大数据.这些年来,大数据先是被神化,继而又被妖魔化,到了今天,其实谁也不知道别人所谓的大数据指的是什么.有时候大数据的定义里既有平台(硬件)又有分析技术.但为了说 ...

  6. 大数据开发工程师到底是干嘛的?日常做什么呢?

    最近后台收到很多私信,内容大都差不多,总结下来就是: 目前在学习大数据专业,想提前了解一下大数据开发工程师的工作职责是怎么的?需要提前准备些什么?大数据分了哪些岗位? 笔者已从事数据开发工作三年有余, ...

  7. 未来大数据发展和就业前景:大数据人才缺口到底有多大?

    高考试卷已经结束,大多数考生将面临与高考同等重要的问题:填报志愿.今年,一个被认可的新专业吸引了许多人的注意--数据科学和大数据技术."大数据"的概念再次流行起来.学生和家长在填写 ...

  8. 一分钟搞懂云计算和大数据对人到底有啥用?

    都2019年了,大数据和云计算居然还有人不知道到底是干啥的,今天马小哥就来个大家讲一下云计算和大数据是做什么的,保证你能会! 首先,云计算是什么. 以前呢,一家公司要做网站,必须得有服务器.普通电脑做 ...

  9. 【大数据】当人们在说大数据的时候到底在说什么?

    前言 今天新开了一个 [大数据]分类,在整个的运维体系中,你稍微努力下,拿到12K-14k还是蛮容易的,但是想要拿到18k就稍微有些困难. 想要冲刺20K,就几乎成了个梦想. 在以往的授课中,的确有人 ...

最新文章

  1. c语言utc时间转换北京时间_C/C++标准库之转换UTC时间到local本地时间详解
  2. 一个Quake2的世界浏览器DEMO(附源码)
  3. 突然记起我也遇到过一个麻花姐
  4. POJ - 1190 生日蛋糕(dfs+剪枝)
  5. 迁移学习 迁移参数_迁移学习简介
  6. 1117. H2O 生成
  7. 基于JavaWeb SSM mybatis 学生信息管理系统设计和实现以及文档报告
  8. 算法小讲堂之你真的会双指针吗?
  9. 计算机操作系统-设备驱动实现实验报告
  10. 数字图像处理基本知识点1(冈萨雷斯)
  11. Ubuntu12.04解决集成HD3000显卡安装后系统详情显示图形 驱动 未知的方法
  12. OpenCV-直方图
  13. 怎么判断私网地址_判断本机IP地址是公网地址还是私网地址
  14. golang 数组组合成最小的整数_整数数组拼成一个最小或最大的数
  15. SQL语句如何精准查找某一时间段的数据
  16. iOS开发三方资源 - 欲先攻其事必先利其器
  17. 大学计算机二级必考,计算机二级大学生必考吗
  18. 《解忧杂货店》—— 读后总结
  19. 贷后催收评分模型中的数据清洗与数据治理细节介绍
  20. 打造新型产教融合平台,开放原子校源行引领开源人才培养迈入新高地

热门文章

  1. 初学Java多线程:线程简介
  2. 薅羊毛拼团商城2.5.3小程序源码
  3. 基于MATLAB的模拟信号AM、FM等调制与解调
  4. spyder pyecharts不显示_微星PAG272QRZ显示器好不好用 微星PAG272QRZ显示器全面评测_显示器_硬件教程...
  5. 成大事,赚大钱,都要有股永不服输的精神
  6. PHP时间差七个小时怎么回事,php 怎么解决8小时时间差的问题
  7. 【工具】-10 UML时序图(Sequence Diagram)学习笔记
  8. STM32生成bin文件
  9. python计算等额本金_等额本金-逆推 - tedzheng的个人空间 - OSCHINA - 中文开源技术交流社区...
  10. latex 论文致谢