大家好,我是chris,入行前5年在一家上市游戏公司做算法,从数据挖掘算法在业务线落地开始,涉及机器学习、深度学习,后来逐步负责整个算法团队建设。

现在在阿里,也是负责算法方面的工作,涉及到的领域涵盖CV、NLP、架构等,业务线也扩展到广告、运营、客服、风控等各个方面。

在外行人眼中,算法工程师可能拿到最近某大神新发的Paper,或者自己钻研理论推公式产出理论成果,通过并行编程实现其支持大规模数据训练,然后打败现有模型,ctr提升200%,收入提高200%。然而实际情况是:

理想中的算法工程师:提出假设->收集数据->训练模型->解释结果。
实际中的算法工程师:提出假设->收集数据->预处理->预处理->训练模型->调试->调试->重新收集数据->预处理->收集更多数据->调试->调试->调试->…->放弃

作为算法部门负责人,我曾经面试过很多候选人,一般我通常从逻辑思维、基础算法与数据结构、数学、深度学习、表达能力和工程经验等几个方面考察。

我发现其实很多人只是自认为懂得算法,刷了一遍西瓜书就敢出来面试了,另外有数理基础的应届生,算法掌握得也不错,但实际3年可能写了不到1000行代码,实操能力极差。

在面试了好几个简历优秀的年轻人后,我惊讶得发现原来很多初学者对数据挖掘/算法工程师实际上的工作流都不是很了解,导致职业技能偏差。这就是为什么,企业收到的简历越来越多,但公司实际可用的就那么一两个,而且开价不菲,忍痛签下还可能被同行挖走了。

那么算法岗位具体的工作流程是怎样的?我们先来用一个小型NLP项目流程来举例,让大家了解机器学习项目有哪些大的环节:

  • 1.了解需求,获取数据。与产品和运营开会,了解需求,然后提取公司积累大量的数据和自己网上下载、爬取的数据。
  • 2.数据预处理。数据处理大概会占到整个50%-70%的工作量,通过数据洗清、分词、词性标注、去停用词四个大的方面来完成语料的预处理工作。
  • 3.特征工程。做完语料预处理之后,接下来需要考虑如何把分词之后的字和词语表示成计算机能够计算的类型。把中文分词的字符串转换成数字,有两种常用的表示模型分别是词袋模型和词向量。
  • 4.特征选择。构造好的特征向量,是要选择合适的、表达能力强的特征。特征选择是一个很有挑战的过程,更多的依赖于经验和专业知识,并且有很多现成的算法来进行特征的选择。
  • 5.模型训练。对于不同的应用需求,我们使用不同的模型,传统的有监督和无监督等机器学习模型,如 KNN、SVM、Naive Bayes、决策树、GBDT、K-means 等模型;深度学习模型比如 CNN、RNN、LSTM、 Seq2Seq、FastText、TextCNN 等。
  • 6.评价指标。训练好的模型,上线之前要对模型进行必要的评估,目的让模型对语料具备较好的泛化能力。
  • 7.模型上线应用。模型线上应用,线下训练模型,然后将模型做线上部署,发布成接口服务以供业务系统使用。

以上流程从业务流程来看,机器学习项目基本就是了解业务需求 ->调研业界方案 -> 查看是否适用 -> 上线效果。不难发现,在对待具体业务上,算法工程师如何通过“实践”提升自己的机器学习水平,以及如何通过机器学习/深度学习实际应用来改善企业的业务等级和营收能力至关重要。

我经常说算法只是工具,重要的是在正确的行业和产品认知上,实现业务目标。

所以有人恐慌算法工程师会被自己的算法替代,这是极其可笑的。机器可以做的虽然很多,但是无法代替人对数据的理解,这是算法工程师存在的价值。而Deep Learning虽然在某种程度上代替人提取特征,但是它最多只能解决特征变换问题,仍然处理不了数据清洗和预处理中需要用到领域知识的情况。

在我的经历里,我倾向于算法工程师是技术+产品经理为一体的综合型人才。

而对于跨专业的学生/从业者来说,跨界反而是优势,不是障碍。特别是如果你作为本身是一个其他行业(物理,工程,化学,医学,农业,卫星地图识别,网络安全领域,社会科学)的普通程序员,在本行业有比较深的理论和实验背景,能接触到海量数据,那么你完全可以做一些创新性和交叉性的工作,这就是人工智能+的人才。

现在有很多的机器学习课程和教科书,它们大都是关于如何从零开始制造烤箱,而不是如何烹饪和创新配方。但对大多数企业而言,其实他们需要的只是烹饪方法——即解决他们业务问题的方法。

为了能让更多初学者了解机器学习/数据分析/数据挖掘等岗位的工作流程,找到入门的切入点,我特地邀请了两位人工智能不同领域的专家,**一位BAT的数据挖掘工程师@熊猫酱,一位计算机视觉方向的专家@Angela,**还有我阿里高级算法工程师@Chris,以自身具体的工作流为核心,举办连续四场人工智能入门分享会。


我们将分别从各自擅长的领域:python数据分析、机器学习理论、机器学习数学、算法工作流,以我们在大厂具体工作流逆向指导理论学习,规划学习路线,是不可多得的入门级课程,旨在为广大的AI爱好者和跨行学习者提供坚实的基础。

福利一:
《人工智能入门分享会》
适合人群:入门、初中级学员

  1. 6月11日 20:30
    一线大厂算法工作流讲解及机器学习路线
  2. 6月13日 20:30
    机器学习常见算法推导中的数学基础
  3. 6月16日 20:30
    从零开始,90分钟入门python数据分析
  4. 6月18日 20:30
    阿里专家:神经网络原理与人工智能就业指南
    (*可领取录播,添加助教:BT474849领取)

本次分享会将为你解答以下疑问:
我适不适合学习人工智能?我是医学生,现在AI医疗就业情况怎么样?数据分析/数据挖掘/算法工程师的区别是什么?算法工程师对算法需要理解到何种程度?模型选择和参数调优技术,是否是通用的?深度学习算法的应用场景……(~你的所有疑惑,在这里将全部解决!)

千万不要在本该快速成长的时候错过机会。参加本期训练营,一线导师将尽心为你在线解答疑问,更有同伴一起相互监督鼓励!本期更是免费帮你分析具体职业进阶方向!

第一期300名试学学员获得一致好评!

福利二:学习资料
机器学习从入门到实战视频课程

另外同学们,都可以获得由这份由上海北大、清华、交大等名校导师以及大厂一线工程师联合组写价值1388元的《机器学习从入门到实战视频课程》,包含python基础、数据分析、大数据、机器学习、实战等五大类目的精华干货视频,课件和源码都能下载,以下是目录。


当然任何资料都只是辅助,分享会最重要的是能跟着老师们一起动手实操,学习一线开发的人工智能思维,了解大厂具体工作流,迈出人工智能的最坚实的一步!

福利领取:
扫码添加助教小姐姐微信
回复“人工智能”即可领取
福利1:人工智能入门训练营资格
福利2:人工智能入门与进阶视频资源

7 年算法工程师的工作总结,太精辟了!相关推荐

  1. python算法工程师简历_7 年算法工程师的工作总结,太精辟了!

    原标题:7 年算法工程师的工作总结,太精辟了! 大家好,我是chris,入行前5年在一家上市游戏公司做算法,从数据挖掘算法在业务线落地开始,涉及机器学习.深度学习,后来逐步负责整个算法团队建设. 现在 ...

  2. CV算法工程师:工作一年的小反思

    今天是正式工作后的第一年,打算做一件事,以后要持续记录自己的工作感想和生活状态.人这一辈子那么有限,作为一个普通人,也许我穷极一生也不会有什么大的成就可以让外人为我写下一个传记.但是我可以用自己的手记 ...

  3. 在非互联网公司?!算法工程师的工作内容及心得建议

    [导语]网上已经有很多在互联网公司工作的算法工程师的日常了,那么小编便来说说在咨询公司,身为算法工程师,工作是一种什么样子的体验,同时也为对咨询感兴趣的小伙伴指明点方向. 具体内容: 工作内容详解 对 ...

  4. 算法工程师找工作经验

    总体流程:简单介绍下自己.各个公司面经.总结.薪资 1.简单介绍 面试岗位:机器学习 | 数据挖掘 | 算法工程师 | 基础研究 比赛经历:天池比赛Top 10,滴滴算法大赛Top 5,京东算法大赛T ...

  5. 一年级算法工程师的工作总结

    在知乎看到一篇算法工程师工作总结,深有感触,分享给大家~ 作者 | shane miao 来源 | 文末『阅读原文』处 20年5月到现在入职阿里已经快一年了,一年之中也做了几个项目,期间趟过了不少坑, ...

  6. 一年级阿里算法工程师的工作总结

    来源:知乎@shane miao.20年5月到现在入职阿里已经快一年了,一年之中也做了几个项目,期间趟过了不少坑,以往的年度总结都是闭门造车,写完了扔印象笔记之中给自己看,今年学习了很多大佬们的文章, ...

  7. 初阶算法工程师的工作感悟

    文章目录 1.工作感悟 1.1.对比大公司和小公司 1.2.各岗位女生占比 2.找工作看什么 2.1.职业发展规划 2.2.办公环境 3.面试 3.1.面试准备 3.2.面试提问 3.2.1.问HR ...

  8. 算法工程师找工作笔试题总结1(达达-京东)

    1.进程与线程是什么?区别与联系 答:进程:具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位. 线程:线程是进程的一个实体,是CPU调度和分派的基本单 ...

  9. 推荐算法工程师学习路线及工作指南

    干货!推荐算法工程师学习路线及工作指南 以下文章来源于大数据与人工智能 ,作者gongyouliu 本文从我自己的学习成长经历.如何判断自己是否适合从事推荐算法.推荐算法工程师需要的知识储备.怎么找一 ...

最新文章

  1. Varnish使用小结
  2. python爬虫工程师-记录一下自己找“python爬虫工程师实习生”岗位的经历
  3. TongJI Online Judge预赛(2): LOVE LETTER
  4. poj1018 Communication System (有道翻译完全拯救不了)
  5. requests + BeautifulSoup + json
  6. 055_Descriptions描述列表
  7. MySQL常用存储引擎之Federated
  8. python累加求和_python中的变量和数据类型(一)
  9. 第三次学JAVA再学不好就吃翔(part102)--拷贝图片
  10. 关于关闭office 2010中的OSPPSVC服务的方法
  11. IBM推出可加快响应跨云网络威胁的开放技术 业界首次实现跨安全工具和跨云的搜索威胁功能,无需移动数据
  12. 导出Oracle数据库字典
  13. LeetCode —— 532. 数组中的K-diff数对(Python)
  14. 利用分析函数改写范围判断自关联查询
  15. android关于okhttp中对于onFailure回调的异常捕获
  16. imageNamed和dataWithContentsOfFile的区别(1)
  17. 交通路标识别(毕业设计)
  18. 【零基础】一文读懂CPU(从二极管到超大规模集成电路)
  19. 2020最新最稳微信公众号爬虫
  20. PPT/Word中神奇的快捷键F4(重复上次操作)失效的解决办法

热门文章

  1. python用户画像_1st Place Solution for【2016CCF大数据竞赛 客户画像赛题(用户画像)】...
  2. 【内网学习笔记】20、Hashcat 的使用
  3. pyautogui 滑动页面_PyAutoGui 鼠标控制文档
  4. 供应链结构、信用与融资
  5. IHE-C(2013.9)
  6. 手机连接电脑可以看到便签吗,电脑和手机同步的便签怎么找到
  7. 客快物流大数据项目(一百零八):Spring Cloud 技术栈
  8. 泛微OA单点登录帆软报表
  9. 乔姆斯基生成语法_乔姆斯基与生成语法重点分析.ppt
  10. Dubbo 支持哪些序列化协议? Hessian 的数据结构?什么是PB ?为什么 PB 的效率是最高的?