来自 小小挖掘机

作者 石晓文

研究生三年,作为一名非计算机专业的学生,能够从一名纯小白(Python不会,机器学习没听说过)到最后校招拿到几个不错的offer,个人感觉可以给自己打个及格分吧。写本文的目的,一是对自己研究生阶段所学习的知识做一个总结,二是希望对那些刚接触机器学习,准备往这个方向发展的同学们提供一些可借鉴的经验。

1、入门Python,掌握数据分析常用工具

第一次接触Python是在2016年4月,本科阶段的工作差不多完成,就开始联系研究生阶段的导师,希望能够跟他做一些项目。他给我安排的第一个工作便是使用Python爬取空气质量数据,并告诉我可以使用scrapy这个库。我与Python的邂逅,便从这个爬虫开始了。

由于上来就写的是爬虫,所以关于Python的基础我也没有系统的学习,不过还是推荐给大家廖雪峰老师的免费教程:https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000

如果想要深入了解一些Python的知识,推荐大家学习《流畅的Python》一书,封面如下。这本书我看了前面的九章,讲的十分不错,加深了自己对于Python里面内存管理、常用函数、类等的认识。

除了Python的基础知识,想要往数据分析、机器学习方向发展的话,还需要掌握一些常用的库,包括Pandas、Numpy、Matplotlib、Sklearn等等。

关于前三个,推荐的书是《利用Python进行数据分析》:

关于Sklearn的使用,包括调用常见的机器学习算法、使用网格搜索寻找最优的参数,可以参考的一本书是《Python机器学习及实践 从零开始通往Kaggle竞赛之路》

如果上面的书你都看完了,我觉得算是入门Python数据分析了。

2、初识机器学习,反复读反复看

第一次听说机器学习这个名词,大概是在2016年8月份,是我现在的舍友向我提到的,当时并没有太在意,直到研究生阶段开始,才慢慢有所接触。当时身边的人的普遍反应是,这家伙大家都在学,特别能挣钱。也许当时自己也是想着能多挣钱,才会开始入门机器学习的吧。不过现在,已经开始慢慢把机器学习当做一种兴趣,一种爱好去看待了。

想必大家都知道,入门机器学习,不得不看的三本书是吴军老师的《数学之美》、李航博士的《统计学习方法》和周志华老师的《机器学习》,也就是所谓的西瓜书。

但是有时候,有些算法比如SVM,说实话两本书讲的都不是最好的,还是得结合网上比较流行的帖子进行学习,整理了几个我看过的一些比较好的帖子,分享给大家:

SVM:http://blog.pluskid.org/?page_id=683
Word2Vec:https://blog.csdn.net/itplus/article/details/37969519
EM算法:https://blog.csdn.net/randy_01/article/details/88407432

其他的算法,大家结合两本书进行学习就可以了。值得一提的是,Xgboost和LightGBM是在面试阶段比较常考的两个机器学习方法,但是在上面的几本书中都没有涉及,我之前整理了一个简单的帖子,希望对大家有所帮助(最后的参考资料里面会有)。

除了书籍资料外,视频资料推荐的主要是吴恩达老师和李宏毅老师的机器学习入门课,地址如下:

吴恩达机器学习:https://www.bilibili.com/video/av50747658?from=search&seid=9310704140991725193
李宏毅机器学习:https://www.bilibili.com/video/av35932863?from=search&seid=16150707490146939986

如果你是刚入门机器学习的话,我的建议就是反复看,反复读,直到你能不依靠书本将模型的原理解释清楚为止。

3、面试不断碰壁,Leetcode得刷,得多刷

理想很丰满,现实很残酷,在自己刚学了点机器学习知识的时候,就出去面试闯荡,结果却是不断的碰壁,机器学习理论和经验少是一方面,数据结构题也是一问三不知,能想到的,只有时间或者空间复杂度最差的那种解法。所以我说啊,Leetcode不仅得刷,还得多刷。

不过咱也没必要着急,你得有一个计划,比如每天做三道五道,日积月累才行。尽管我现在在面试的过程中还是有一些问题写不出来,但大部分情况下,还是能够得到一个比较优的解。

关于刷leetcode这事,你可以往两个方向上走。一是按照从easy到medium到hard的方向。二是按照分类走,比如先刷树相关的,再刷数组相关的,依次类推。我自己是用的第一种方式啦,不过从校招面试的经验看,面试官关注的题主要集中在数组、链表、二叉树和动态规划上面,可以先把这几部分的弄明白。

在语言选择上,建议还是不要用Python吧,Python的小trick还是有点多的,就比如字符串表达式的值,我们用eval函数就可以得到,但是在真正面试的时候,这样是绝对不行的,所以建议还是Java或者C++吧。毕竟这两门语言,你总要掌握一门的。

除了在Leetcode上面刷题外,有两本书可以给大家参考,一是《剑指offer》,二是《程序员代码面试指南:IT名企算法与数据结构题目最优解》,封面如下:

4、相遇深度学习,论文积累是关键

关于深度学习,也是研一下才开始慢慢学习的,当时主要接触的是CNN、LSTM这些个算法,对于一些比较深入的如GAN、Seq2Seq、Transformer之类的,还没有接触。真正带我相遇深度学习的,可以说是李宏毅老师的深度学习课:https://www.bilibili.com/video/av9770302?from=search&seid=6099263941108862254

当然,吴恩达老师的课也十分精彩:https://mooc.study.163.com/university/deeplearning_ai#/c

除此之外,不得不提的一本书是我们所谓的深度学习圣经,不过说实话,我觉得这本书虽然写得好,但还是有一定阅读难度的:

个人感觉,深度学习这东西,重在不断积累和反思吧,多读论文,多写代码。论文的话大家平常可以多关注PaperWeekly这个公众号,代码的话我建议如果论文给出了参考代码,大家可以尝试着去敲一敲,不仅加深自己对于论文思路的认识,还可以提升自己的动手实践能力。

5、推荐与计算广告,广度优先VS深度优先

在整个研究生阶段,我其实并没有形成一个主要的研究方向,大家可能看我平时的公众号推荐系统相关的东西比较多,但我并不是研究这个的,主要还是自己对这个东西比较感兴趣,所以看的多了些。推荐系统的两本入门书籍是《推荐系统实践》和《推荐系统与深度学习》:

深度学习领域还是挺多的,如推荐系统和计算广告、CV、NLP等等,这就引出了广度优先VS深度优先的问题。个人感觉还是深度优先为主吧,确定好自己的一个研究方向,然后在这个领域进行深挖。不过同时,也要兼顾广度,深度学习的东西都是相通的,比如Transformer最开始主要应用于文本领域,GAN主要应用于图像领域,这两种方法现在也都开始在推荐系统中使用。

最近自己要开始研究计算广告方面的知识了,因为自己入职之后可能从事这一方面的工作,那还是给大家推荐两本书吧,一本是大家所熟知的《计算广告》,另一本是黄皮书《互联网广告的市场设计》,想要入门这个方向的同学,建议先看黄皮书,再看《计算广告》一书。

6、Hive和Spark,数据处理的标配

Hive和Spark大家还是要学一下的,使用Hive来存储数据,使用spark sql和Hive sql来处理数据,感觉是互联网里面的主流方式。关于hive,掌握一些常用的函数的使用方法,如concat_ws,row_number,case..when,if,get_json_object等等,对于spark sql,掌握其运行的基本原理,以及一些常见问题的处理方法。首先,学会如何处理数据倾斜,有时候因为一个数据倾斜问题,一整天都浪费在调试一个spark代码中了,其次,学习如何尽量减少spark任务的空间占用,同时加速spark任务运行速度,spark作业在线上调用时,会占用公共资源,你的任务占用的资源越多,别人占用的资源就越少,同时,如果你的任务运行的快,也可以给别人的任务更多的空间。spark可以通过很多语言来实现,不过我建议还是学习一下scala吧,毕竟可以和java无缝衔接。除了spark和hive,掌握一定的excel知识也是必要的。

那么这里有两本书推荐给大家,《Hive编程指南》和《Spark内核机制解析及性能调优》:

推荐阅读:

一大批历史精彩文章啦

详解Transition-based Dependency parser基于转移的依存句法解析器

干货 | 找工作的经验总结(一)

经验 | 初入NLP领域的一些小建议

学术 | 如何写一篇合格的NLP论文

干货 | 那些高产的学者都是怎样工作的?

是时候研读一波导师的论文--一个简单有效的联合模型

近年来NLP在法律领域的相关研究工作


好文!我在看!

经验分享 | 我是如何从小白到收获几个不错的offer!相关推荐

  1. 多年心路历程见证从技术小白到收获BAT等大厂研发offer,分享一些经验和感悟...

    写在最前 写过很多篇面试总结,这篇文章应该是最后一篇总结,当然也是最完整,最详细的一篇总结.算是人生中一段宝贵的经历,不仅是我研究生生涯交出的一份答卷,也是未来职业生涯的开端.仅以此文,献给自己,以及 ...

  2. 多年心路历程见证从技术小白到收获BAT等大厂研发offer,分享一些经验和感悟

    写在最前 写过很多篇面试总结,这篇文章应该是最后一篇总结,当然也是最完整,最详细的一篇总结.算是人生中一段宝贵的经历,不仅是我研究生生涯交出的一份答卷,也是未来职业生涯的开端.仅以此文,献给自己,以及 ...

  3. 14年的面试官经验分享,看完必有收获

    面试,是找到好工作的过程中,最最重要的一环. 在我14年的职业生涯中,亲自面试的人应该不下1000人了. 看过的简历还要更多,尤其是微软上海早期扩张的时候. 所以今天,我就从自身经历出发,给你分享一些 ...

  4. 实战分享|作为AI小白,如何争取AI产品经理offer

    作为AI小白,他经过4个月的转型学习,争取到几份offer,最终入职AI创业公司"追一科技",负责核心产品.本文重点分享的过程体会,强调以小白身份去争取offer时所需要的节奏和状 ...

  5. 面试经验:我是如何得到谷歌、脸书和亚马逊offer的?

    全文共6949字,预计学习时长12分钟 在两个月的时间里,本文作者面试了亚马逊.苹果.Facebook和谷歌的设计岗.如果对这些公司的设计岗感兴趣,就不要错过这篇干货攻略. 2019年,在Osmo领导 ...

  6. 北京航空航天大学软件学院2021年保研复试流程介绍+经验分享

    北航软院2021年保研复试流程介绍+经验分享 我是北航软院2018级的本科学生,有幸获得了保研的名额,并且参加了本系的保研复试,现在简单地介绍一下复试的流程和一些复试的经验,希望对学弟学妹有所帮助~ ...

  7. 武汉大学计算机学院考研心得,2018年武汉大学计算机学院考研复试经验分享

    初试要讲的就是专业课问题,今年专业课改革,只考两门专业课.一门是数据结构,分值为90分,只有选择题和代码题,大概24个选择题,一个两分,还有3个代码题.计算机网络是60分,也只有选择题和三个大题.下面 ...

  8. 【小白】【大学】一名嵌入式软件开发小白的单片机学习历程、心路历程、经验分享

    我的嵌入式学习之路 我为什么写这篇文章 先简单介绍一下我自己 与每一个技术小白共勉 这篇文章写给谁 我的学习经验分享 我的成长之路 我的单片机学习历程分享 51系列单片机学习历程 预备知识:(可以查百 ...

  9. 【百度点石(WSDM)】 Retention Rate of Baidu Hao Kan APP Users 小白经验分享

    先说结论 线上 AUC:0.7466 这是我正儿八经参加的第一个数据科学竞赛,心路历程也是十分艰辛,队友经历几次更换,自己也是经常游走在崩溃的边缘,同门都说我头发又见秃,总之不是很顺利的,最后结果不是 ...

  10. 川大计算机综合设计范文,双非小白成功逆袭川大中文研究生,学姐经验分享

    原标题:双非小白成功逆袭川大中文研究生,学姐经验分享 这篇文章来自今年考上四川大学古代文学专业研究生的象罔学姐,学姐6月11号晚会开免费公开课,本文文末有报名方法. 象罔学姐古代文学考研初试经验 首先 ...

最新文章

  1. 2022-2028年中国XPS挤塑板行业市场全景评估及产业前景规划报告
  2. 关于学习Python的一点学习总结(24->列表推导)
  3. 早上起来收到两个消息
  4. 商业航天:通往太空旅程的新门票
  5. matlab 向量模量,有限元分析简单实例之平面矩形薄板(matlab)
  6. html线条绕圆旋转,js围绕圆旋转
  7. Windows下怎样使用bat设置Redis和Nginx开机自启动
  8. 面向对象编程(OOP)特性 类和对象
  9. SLAM Cartographer(17)分支定界闭环检测
  10. yum方式安装android_Android-x86尝鲜续 系统详细安装教程
  11. 使用ztree展示树形菜单结构
  12. 替代传统C/S和B/S技术的下一代客户/服务器编程技术
  13. VMware workstation 16 pro下载、安装(官网)
  14. access怎么做批注_怎样做批注
  15. Python-docx库设置word页眉页脚
  16. 计算机图形学一:变换矩阵-Transformation Matrices
  17. AAAI2019论文
  18. Java核心技术卷一基础知识第10版demo实例
  19. `算法知识` 字符串相同前后缀
  20. 携程实时用户数据采集与分析系统

热门文章

  1. 深度神经网络:特点、问题及解决
  2. JavaScript中函数式编程的原理
  3. 《新浪微博用户兴趣建模系统架构》阅读笔记
  4. 1005. Maximize Sum Of Array After K Negations
  5. Hyperledger Fabric 实战(十): Fabric node SDK 样例 - 投票DAPP
  6. WebSphere报错指南
  7. 80 行代码爬取豆瓣 Top250 电影信息并导出到 CSV 及数据库
  8. String.format(%03d, i)在数字前面补零
  9. codevs 1388 砍树
  10. [Objective-C]用Block实现链式编程