刚面完阿里蚂蚁金服的大数据工程师,有话说
蚂蚁金服,嗯,996 的岗位。
老读者可能很吃惊,小编不是纯做 SQL 吗,跑蚂蚁去做什么大数据工程师呢,SQL 能管用吗!很负责的告诉你,管用。Hive 与 SQL 本是同根生,语法相似,捧上 10 天半月的 《Programming Hive 》,边看边练,你也可以,前提是受得了 996. 我是受不了的,因为我有很多可爱的读者,想读我的文章啊,996 了哪有时间。
用 10 万块换自由,咱不干!
其实那是一年多前的事情了。还记得我有个团,里面都是 Architect 级别的人物嘛。老朋友约谈,必须赴约啊。技术人在一起,三句离不开老本行,不是数据,就是性能。单机,主从,副本,分布式,嗨了天的吹。但不可不说,大数据已经进入下半场了,有些朋友可能还以为是个噱头。该出去看看了!
谁知道,约谈,本是面基,结果变成了现场面试。
//大数据入门//
之前我写过 L 参加拉斯维加斯的 GIIS (Global Information Industry Summit)峰会系列小说。其实那时我正在操练着 Hadoop 以及 Spark, 写的就是自己。
在朋友的指引下,对着岗位要求一路买书看了下来。前两天有读者问我是不是有大数据入门的书可以推荐,这里总结整理出来,算是有个交代。当然这些书都是我看过的,或者正在看的,给大家一份参考。
我们先来看看大数据技术栈,有哪些构成。
以上图来自 李智慧 老师的极客专栏《从0开始学大数据》。
(BTW,专栏已经写完了,现有拼团价 79,需要的入手,请勿冲动消费)
大数据真正火起来,是在 2013 年,该年被称为 “大数据元年”。
此前其实大数据已经真真实实的存在了,而那时还没有大数据(Big Data)这一说辞。2004年 Google 先后发表了三篇论文,著名的“三驾马车”:
分布式文件系统 GFS
分布式计算框架 MapReduce
NoSQL 数据库 BigTable
建议从头看这三篇论文,了解大数据的前史。
而是谁把大数据这门技术带到了世人面前呢,Doug Cutting , Lucene 全文搜索项目创始人。此人阅读完 Google 的三驾马车后,用纯 Java 实现了 HDFS 和 MapReduce. 此后,Yahoo, 阿里,Facebook 等先后部署了大数据 Hadoop 集群,继而发明了 Pig, Hive 等基于 Hadoop 的生态组件。
到此为止,要读的资料就开始多起来了:
《Hadoop Definitive Guide》
《Hive Definitive Guide》
《Practical Hive》
但前提至少, Java 你要通吧!
《Java 核心技术》
《Java 并发编程实践》
《深入理解 Java 虚拟机》
《Thinking In Java》
从上面的历史知道,大数据其实是 Google 率先提出来的,Google 是搜索公司,自然造就这么大的一个轮子是为了搜索用的。所以大数据的第一个应用就是为了搜索。此时外界对于大数据技术,还尚属于吃瓜群众系列,除了 Yahoo, Doug Cutting, 以及 Cloudera, Hortonworks 等一小众公司痴迷之外,大家都很保守。
但平静之下暗流涌动,直到 Facebook 做出了 Hive , 将数据仓库项目的 90% 任务都推向 Hive 的时候,大家才幡然醒悟,原来巨兽已经屹立很久了。纷纷跟进。这个阶段,大数据被应用最多的地方在数据仓库技术上。而且 Hive 对于 SQL 工程师特别友好,这也促使了 SQL 技术人员对于大数据的热忱。
说起数仓项目,大家耳熟能详的是 Kimball 和 Inmon. 他俩的书必看:
《The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling》(《数据仓库工具箱》)
《Data Architecture A Primer for the Data Scientist:Big Data,Data Warehouse and Data Vault》(《数据架构 大数据、数据仓库以及 Data Vault》)
至此为止,开发人员的作用是帮助企业完成一些大规模数据的统计,核算工作,提高了效率。但还仅仅是公司的“成本中心”,与“利润中心”格格不入。作为有追求的技术人肯定不愿意,既然数据在自己手里,为什么不能发挥他们的价值呢。所以数据应用进入了数据挖掘时代。此时的挖掘因有了大数据技术,与以往的抽样挖掘完全不一样,基本可以做到全量数据挖掘。所以有关挖掘的技术栈,也可以了解下。
这个阶段可以参考的数目有:
《概率论与数理统计》
《数据挖掘:使用机器学习工具与技术》
前提是计算机基础必须牢靠:
《数据结构与算法分析》
《算法》
也是跑不掉的。
数据挖掘在大数据之前就已经存在了,常规的算法有决策树,分类,关联,线性回归,贝叶斯,聚类等。但都是基于抽样的不完整数据。而现在大数据来了之后,数据喂得更多,模型就更加有效了。依靠人规定的算法已经不能满足机器的胃口,机器可以自己吃进数据,调节参数,产生更多模型,得到更精确的预测。所以大数据应用直接将传统的数据挖掘带入了机器学习时代。
《机器学习》(周志华的西瓜书,必读)
《机器学习实战》
《推荐系统实战》
《计算广告》(洞悉互联网最原始的变现方式)
《集体智慧编程》
《深度学习》
这个领域就要看你研究什么方向了,自然语言处理,视觉识别,无人驾驶等等,都有各自的专业书和技巧需要阅读和掌握。
值得一说的是,数据仓库类的应用涉及到最多的还是离线应用,通过一段时间的数据同步,将计算生成的聚合数据、挖掘模型同步到存储中,方便 UI 调用。但有些实时性很高的应用,比如金融风控,无人驾驶,量化交易等,对数据模型有很高的高频要求,此时再用 Hadoop MapReduce, Spark 就会不达标了。因此更多的实时分布式计算引擎就被发明出来了,比如 Spark Streaming, Flink, Storm 等。
关于这些流式计算引擎,参考书目有:
《Learning Spark: Lighting-fast Data Analysis》(《Spark 快速大数据分析》
《Advanced Analytics With Spark 》(《Spark 高级数据分析》)
《Real-Time Big Data Analysics》(《实时大数据分析,基于 Storm、Spark 技术的实时应用》
《Storm 分布式实时计算模式》
《Learning Apache Flink 》
《Introduction to Apache Flink》
以上都是主流生态组件的参考数目,有些框架粘合剂的组件,比如 Kafka, Zookeeper, MongoDB 等NoSQL 书籍,也需要适当看看:
《MongoDB :The Definitive Guide》(《MogoDB 权威指南》
《Kafka: The Definitive Guide》(《Kafka 权威指南》
《从 Paxos 到 Zookeeper 分布式一致性原理与实践》
//总结//
如果你开始进入细节化的学习了,强烈建议不要只看书,一定要多动手!Code 不写出来,那就等于书白看。类似于粘合剂的技术,其实完全可以参考官方资料,在动手实现中,通过搜索引擎帮你解决。
最后,一定别忘了看看 Martin 的《Designing Data-Intenstive Applications》, 此书将所有前面提到的应用都总结成方法论,让你有种一览众山小的感觉。
以上都是工程类的基建入门书。
祝你眼光远大,心狠手辣。
———— e n d ————
猜你喜欢:
回忆当年阿里的一道 SQL 面试题,亿级表合并
金三银四,谈谈职业规划与发展
本号精华合集
添我个人微信,欢迎入群探讨!
刚面完阿里蚂蚁金服的大数据工程师,有话说相关推荐
- 参加完阿里蚂蚁金服Java中间件6轮面试题!6点血泪总结~
蚂蚁金服一面:分布式架构 50分钟 1.个人介绍加项目介绍20分钟 2.微服务架构是什么,它的优缺点? 3.ACID CAP BASE理论 4.分布式一致性协议,二段.三段.TCC,优缺点 5.RPC ...
- 冒充java诈骗_天下代码一大抄,整个案例的搬是什么鬼!疑似冒充蚂蚁金服高级Java开发工程师?你大爷...
写在开始 上班前的第一件事,就是码云看看有什么消息,回复下网友的问题.如果看到喜欢的项目会点进去瞅瞅,然后就开始一天的工作. 然而,这一天的工作并不开心,一个今日热门项目让自己很恼火,一开始感觉并没有 ...
- 大数据可视化html模板开源_让数据栩栩如生,蚂蚁金服新一代开源数据可视化解决方案——AntV...
介绍 AntV 是蚂蚁金服全新一代数据可视化解决方案,致力于提供一套简单.方便.专业可靠.无限可能的数据可视化最佳实践. 分类 G2 使用文档:https://www.yuque.com/antv/g ...
- 腾讯CSIG、阿里(蚂蚁金服,支付宝,搜索引擎)、网易互娱、字节跳动面经
说在前面的话 本人之前有面过腾讯天美工作室,奈何凉凉,有需要的朋友给传送门2021腾讯互娱天美工作室一面凉经 后来又被腾讯CSIG捞了,可惜挂在了二面上,期间有阿里三个部门的面试,也都凉凉(没办法,自 ...
- 阿里蚂蚁金服、蘑菇街、腾讯、去哪儿等实习面试
说在前面的话 今天收到了自己满意的第一个offer也是第二个offer(第一个太low了不好意思说,BAT牛叉不在意,没赶上华为面试可惜了),每次面试都有收获,不愧于自己这段时间的小小努力.其实也没什 ...
- 阿里蚂蚁金服4面面经(已拿Offer)附答案!突如其来的意外之喜
由于作者面试过程中高度紧张,本文中只列出了自己还记得的部分题目. 经历了漫长一个月的等待,终于在前几天通过面试官获悉已被蚂蚁金服录取,这期间的焦虑.痛苦自不必说,直到被录取的那一刻,一整年的阴霾都一扫 ...
- 阿里-蚂蚁金服社招面经
首先介绍一下自己,18年本科(末流985,电子信息工程专业)毕业,两年多工作经验,毕业第一年在一个国企,之后在杭州一个创业公司,这次面试的是蚂蚁金服.在这先申明,介绍这么详细只是为了大家方便参考,大家 ...
- 阿里蚂蚁金服4面面经(已拿Offer)附答案。突如其来的意外之喜
由于作者面试过程中高度紧张,本文中只列出了自己还记得的部分题目. 经历了漫长一个月的等待,终于在前几天通过面试官获悉已被蚂蚁金服录取,这期间的焦虑.痛苦自不必说,直到被录取的那一刻,一整年的阴霾都一扫 ...
- 阿里蚂蚁金服中间件(Java 4轮面试题含答案):Redis缓存+线程锁+微服务等
第一轮 说说HaspMap底层原理?再说说它跟HaspTable和ConcurrentHashMap他们之间的相同点和不同点? 讲讲jdk1.7和1.8的区别? 几种内置的线程池 MySQL事务隔离级 ...
最新文章
- 打印零与奇偶数(多线程)
- 设计模式第七讲-责任链模式
- Oracle-数据字典解读
- 实车采集的数据重建场景_SIGGRAPH | 多机器人协同三维场景重建
- JavaScript之引用类型介绍
- 购买女装摩托车(踏板车)
- Navicat 连接 Oracle数据库并,导入数据泵(.dmp)
- 最近在搞react redux react-router等,
- 计算机二进制拨码,二进制拨码
- C语言:查找打印质数(素数)
- C#修改MAC地址类及操作网卡类
- java min函数_Java Math min()用法及代码示例
- php添加页脚,WordPress网站页脚footer.php修改图文教程
- 3D建模游戏动漫模型制作软件都有哪些?最全解析,工具免费领
- 最详细的虚拟机安装教程
- 大数据晋级之路(4)Hadoop生态系统体系架构及基本概念
- 鼠标悬停物体上时,出现一个跟随光标的标签
- 织梦系统(DEDECMS)后台模板修改一
- 半导体中载流子的统计分布
- 【实验五 一维数组】7-11 sdut-C语言实验- 数列有序!
热门文章
- 《智慧社区建设运营指南》(2021)发布,为智慧社区落地指明方向
- 计算机辅助系统中 cad是,基于Open CASCADE的三维机电集成计算机辅助设计系统-MECAD...
- Unity定时重复调用方法--Invoke方法
- 计算机绘图实训日志通用篇,cad制图实习日记范文:
- 计算机专业 中职学校顶岗实习学校总结,中职毕业生自我总结范文
- 《信息简史》读书笔记
- 【渝粤教育】广东开放大学 广告创意与表现 形成性考核 (1)
- 创宇区块链|千里之堤毁于蚁穴,Fortress Protocol 惨遭攻击。
- 文通尹总和华南区小伙伴的合照
- C语言程序设计I—第九周教学