点击上方 "大数据肌肉猿"关注, 星标一起成长

后台回复【加群】,进入高质量学习交流群

2021年大数据肌肉猿公众号奖励制度

今天分享学习经历的是一位学习群的小伙伴,他毕业之后做过微商、服务员、销售、外卖小哥等,后面去培训机构培训运维,最后转的大数据开发。薪资也从最开始的4K,到现在的年薪40W。

部分offer

一、不堪回首的奋斗往事

2016年6月从湖南某二本文科专业毕业之后在老家做了半年的微商

2017年2月南下深圳,先是做过维也纳酒店的前台服务员,贷款中介公司的电话销售,自如友家的服务管家,后来还去跑过美团外卖,以及在乐凯撒餐厅做过披萨,在这一年多的时间里,平均月收入只有4K。

2018年9月参加某机构线下Python培训半年。

2019年3月入职深圳某A公司从事Python运维工作,月薪9.7K。

2020年1月离职在家自学大数据,在此非常感谢@无精疯 峰哥当时的耐心指导和帮忙规划学习路线,三个月后成功转型大数据,入职深圳某B公司从事数据仓库开发工作,月薪17K。

2020年10月离职后入职深圳某C公司从事大数据开发工作,月薪21K

2021年4月经峰哥再次指导,成功入职深圳某世界500强企业,担任高级大数据工程师职位,月薪27K,总包40W。

二、大数据转型时期的学习路线

第一阶段:学完第一阶段就可以开始找数据仓库开发相关的岗位了(市场上40%的岗位可以投了)

1、Java基础:JavaSE

2、SQL课程:MySQL【重点】

3、Linux基础

4、Hadoop框架:HDFS、MapReduce、Yarn【重点】

5、Hive【重点】

6、HBase

7、辅助框架:Flume、Sqoop、Azkaban

8、大数据项目实战(一):基于Hive的离线数仓项目【重点中的重点】

第二阶段:学完第二阶段就可以找大数据开发相关的岗位了(市场上75%的岗位都可以投了)

1、Scala基础

2、Spark框架:SparkSQL、SparkStreaming【重点】

3、Kafka消息队列

4、大数据项目实战(二):基于Spark的实时+数仓项目【重点中的重点】

第三阶段:学完第三阶段就可以找所有和数据开发相关的岗位了(市场上90%的岗位都可以投了)

1、Flink【重点】

2、Redis

3、大数据一些其它的辅助框架(Kylin、Druid、Presto、Impala、ClickHouse等)

4、大数据项目实战(三):基于Flink的实时ETL和数仓项目【重点中的重点】

第四阶段:(进一线互联网大厂必备的技能)

1、计算机基础和数据结构算法

2、Java底层和部分框架源码

三、企业面试真题

1、请详细描述下hive中shuffle的优化?

2、hive在集群过程中怎么解决数据倾斜?

3、hive导致数据倾斜的可能性(哪些操作会导致)-->分桶 join key 分布不均匀的大量空值导致如何解决?

4、悲观锁和乐观锁的区别以及CAS乐观锁怎么实现,或者有哪些其他方式?

5、编程的设计模式举例一下,用过哪些,什么场景下使用的?

6、你对实时计算这块的理解是怎么样的?

7、Sparkstreaming突然断掉了怎么办?怎么保证数据消费至少一次和精确一次?

8、Sparkstreaming消费kafka数据怎么手动维护offset ?Offset保存到什么数据库?处理的顺序是什么?以及程序刚上线第一次从kafka消费这是怎样的流程?

9、Spark解决了哪些问题让你很有成就感?

10、Spark发生了数据倾斜你会怎么做?

11、Sparkstreaming的背压机制,除了设置背压参数为true之外还需要做什么?

12、Spark性能调优?

13、跑spark作业的时候,给到executor的个数是10个,每个executor的核数是2个,请问跑这个作业时并行度设置为多大比较合适?

14、这么做是为了避免shuffle操作,shuffle为什么会存在数据倾斜?

15、为什么会有shuffle的存在?shuffle操作的意义又是什么?

16、Java中的ArrayList的底层数据结构?LinkedList?

17、创建一个ArrayList里面的空间有多大?

18、让你设计一个容器类,比如ArrayList,你怎么去实现?

19、HashMap的数据结构是什么?为什么要这么设计?

20、数组和链表的区别是什么?

21、你们每天需要同步的数据量有多大?

22、Druid的工作原理?

23、每天集群的数据增量有多大?

24、业务数据量有多大?每日订单量有多少?

25、各大数据组件在各机器上是怎么分配的?

26、离线和实时分别是怎么分层设计的?

27、维表数据的加载和更新?

28、生产环境中Kafka要增加topic分区的时候怎么操作?

29、数仓中每层用的数据存储格式分别是什么?

30、Hive中两个大表进行join的时候有什么优化方法?

31、JVM的垃圾回收器有哪些?你们用的哪种?

32、项目架构流程图:手画+讲解

33、Druid和Kylin做一个技术选型你会考虑哪些因素?

34、现有一个n*m的方格,每个格子里有一个100以内的随机数字,现在需要从方格的最左上角走到最右下角,只能往下和往右走,如何计算出数字之和最大的一条路线?

35、流处理:用户如果在10s内,同时连续输入同样一句话超过5次,就认为是恶意刷屏,请您写出检测刷屏用户的代码?

四、总结

在大学毕业之后,我花了足足3年的时间仅仅才实现月薪从4K到9.7K,而后面仅仅花了3个月的时间就实现了月薪从9.7K到17K,以及最近1年的时间已经实现从17K到27K,对此,我最想说的四句话就是:

1、选择大于努力,知识改变命运;

2、找准自己的赛道,然后努力奔跑,做到足够自律,在这个过程中你可能会很痛苦,但是不要轻言放弃;

3、想获得更快速的成功,还得需要高人的指点和贵人的相助;

4、越努力,越幸运!

--end--

扫描下方二维码添加好友,备注【交流】
可私聊交流,也可进资源丰富学习群更文不易,点个“在看”支持一下????

从酒店服务员到世界500强大数据工程师,月薪4K到年薪40W,我经历了什么?相关推荐

  1. 大数据工程师入职京东年薪37w(附:面试真题分享)

    总结:引导面试官到自己擅长的领域,掌握主动权,问题回答不一定完整,说出关键点即可. 1.项目规模,一天/月数据量,各组件版本? 数据规模:一般100M数据由300万条数据:数据量:上百G:条数:达到几 ...

  2. hive 插入数据映射到hbase_年薪50万都难招的大数据工程师,凭什么?

    回顾2018年,降薪.裁员.互联网寒冬似乎成为主旋律,那实际上资本市场萎缩了吗? 其实不然,2018年6月,蚂蚁金服还获得140亿融资,而热度较高的大数据行业,在2018年的融资额达到1273.1亿元 ...

  3. 《财富》杂志发布世界500强排名,其中有63家IT企业(附公司数据)

    近日,美国<财富>杂志发布新一期世界500强排行榜,其中有63家IT企业.按照行业整理出以下数据,这些企业主要与IT.云.互联网息息相关: 互联网服务和零售 亚马逊 2018年排名:18 ...

  4. 爬取2016年世界500强的数据,进行分析

    时间:2017-3-20 作者:MingWei 起源是在查找苹果公司的收入和利润的时候,发现苹果公司的利润率远高于旁边的公司,就萌生了一个想法,想看看苹果公司的利润率能够排名第几? 想到了,就行动起来 ...

  5. 爬虫小实战(selenium) 数据小分析(pywebio、pyecharts)python分析写在网页 爬取2021年世界500强企业

     爬取数据 通过selenium爬取2021年世界500强企业数据 import time import requests import csv from selenium import webdri ...

  6. 2022年财富世界500强研究报告

    第一章 排行榜概况 1.1 榜单简介 <财富>(Fortune Magazine)是一本由美国人亨利·卢斯创办于1930年(庚午年),主要刊登经济问题研究文章的杂志.现隶属时代华纳集团旗下 ...

  7. 恒大通关世界500强:一家房企的进阶路与中国民营企业的边界探索

    "我们大力呼唤立足中国.走向全球的伟大公司和世界级公司的出现." 民企在这方面可以大有所为,也必须有所为.曾经,许家印把恒大的历史划分为两个十一年:从1996年到2006年是打基础 ...

  8. 众多世界500强企业集聚第二届数博会,数字产业大幕即将开启!

    作为数字中国建设峰会的重要组成部分和数字产品展示窗口,第二届中国国际数字产品博览会(以下简称"数博会")将于7月22日-26日(其中,7月22日-7月23日为专业观众日,7月23日 ...

  9. 低代码开发平台到底是何方圣神? 居然可以虏获世界500强等企业的芳心!

    随着大数据.人工智能.互联网的快速发展,传统的软件定制开发模式已经无法满足企业高速发展的需求.既要满足个性化定制又要实现快速开发,用传统的编写代码是很难突破,一方面企业应用开发人力成本过高,后期维护及 ...

  10. 「鲸准△创新季」项目投递正式开启 9家500强大企业虚位以待

    鲸准作为国内唯一的一级市场金融数据和产业大数据平台,拥有超过73万家创新企业数据和产业研究院.历经3年的时间,我们用数据发现.读懂.链接创业者与资本.与大企业合作等需求. 即便现阶段环境是冷的,但心是 ...

最新文章

  1. 概率论中高斯分布(正态分布)介绍及C++11中std::normal_distribution的使用
  2. Github 高赞的 YOLOv5 引发争议?Roboflow 和开发者这样说...
  3. 关于IOS给我的启发
  4. 一款IDEA插件神器,帮你一键转换DTO、VO、BO、PO、DO
  5. MySQL过滤相同binlog_通过Linux命令过滤出binlog中完整的SQL语句
  6. Java中如何实现线程的超时中断
  7. Exchange ActiveSyn身份验证类型
  8. android滑动开关框架,Android之实现滑动开关组件
  9. LeetCode 1022. 从根到叶的二进制数之和(递归)
  10. 二十三种设计模式详解
  11. 计算实际例子_【科普】机器学习的核心计算:距离+统计?
  12. WPF MVVM设计模式的ViewModelBase和CommandBase代码
  13. 吴昊品游戏核心算法 Round 18 —— 吴昊教你玩Zen Puzzle Garden
  14. 基于比较的排序算法集
  15. python中调用shell命令
  16. VC++内存泄漏检测工具VLD使用方法
  17. mysql too long_mysql中data too long for column错误的一种解决办法
  18. 使用obi fluid进行洪水模拟,持续更新~
  19. 供水为民振兴乡村 国稻种芯-慈利县:抗旱保收盛德村在行动
  20. MySQL——主从复制

热门文章

  1. 3分钟下载好网易云付费音乐
  2. 安装WINCC6.0的步骤
  3. GB28181协议简介及实践
  4. nexus下载 通过官网下载
  5. 结构风荷载理论与matlab计算公式,结构风荷载理论与MATLAB计算
  6. VISSIM二次开发(Python)大作业总结2
  7. 计算机学院支部委员会会议记录,第七周班长支书例会会议记录
  8. html带圈的数字号码,html – 带有数字的CSS圈子
  9. Django框架详解
  10. S7-200SMART编程软件在符号绝对模式下变量符号名显示不全的解决办法