这位是广东仲恺毕业算法工程师。

曾在广州棒谷(跨境电商)工作,近期入职环球易购(跨境电商)

还记得上一篇文章中提及到当算法工程师发现导航的时间和实际时间有差异时会做什么吗?

没错,就是要调整其算法中的参数。

算法工程师都自嘲自己为调参师、调参狗、特征猪、指标奴。

这就和我们常常说的产品汪、运营喵、程序猿,是一样一样的。

算法工程师的工作流水帐

下面这部分的流水帐,不建议你们看,可直接路过看图。

  1. 接到一个项目之后心潮澎湃,脑子里马上闪现出faster rcnn、resnet、mask rcnn等各种牛逼的算法。
  2. 结果发现图片都不知道存在哪……于是反馈给产品经理,开了一通会议,确定图片数据库在某个位置,准备读表爬虫!
  3. 结果发现表的信息是乱七八糟的,一张表里面有图片链接,但没有这个图片的标签信息;另一张表里面有标签信息,但又没有图片链接。找了许久才发现两张表可以用图片id来结合,行吧,不就是查表的事情,写一堆代码把这些信息整理起来吧!
  4. 花了一天终于整理出图片链接的csv了,交给爬虫组爬了三天三夜,期间在YY到时图片下下来之后可以用什么算法。
  5. 拿到图片了,发现类别有了,但是bbox、关键点坐标信息都没有啊!咋整,上网找了个labelme自己整个1000张用着先呗,然后花了两天整了少量图片出来,期间还要劝服同事帮忙。
  6. 剩下的图片交给标注员去标注。接着就是根据前两天YY到的算法,上github找找有没有现成的模型,然后git clone。修改了一点输入输出,用公共数据集顺利跑通!看来还是不错的嘛!
  7. 回头把自己的数据放进去试试,简直一塌糊涂,那是当然的。现在就得回去仔细研究论文,看看作者的各种实现细节,然后魔改模型finetune。再次测试,咦,有点效果喔
  8. 这时候领导紧急开了个会议,说现在目标有点改变,我们往另一个方向走吧。
  9. 开始研究这个领域的所有经典论文,每篇论文都看上好几次,看到最后几乎把整个领域的主要脉络摸清了,然后磨刀霍霍向模型!
  10. 国际惯例先找github,但是很不幸我想要的算法并没有开源实现,那我来做第一个吧!
  11. 马上照着菜单(论文),啪啪啪构建proposal模型,各种自定义层结构,特殊的loss function,菜单中提到的weight decay、learning rate decrease,几乎把论文所有角落的细节都翻遍了,目前为止进度还行,但是慢着!论文里提到的一个层,作者只是一笔带过了,没详细说明这是怎么实现的!
  12. 都到这地步了还能放弃?开玩笑,立刻照着related work那一章提到的所有论文寻找线索,于是各种谷歌github知乎stackoverflow,终于弄懂了这个层的数学原理!
  13. 好不容易把模型复现出来了,好家伙,开始用标注员准备好的数据来训练。
  14. 慢着,这loss曲线不对劲啊?为啥会是直线,而且一轮收敛?不不不,肯定哪里出了错误,我得把代码重头检查一遍!
  15. 费好大劲终于找出bug,代码也顺利跑通了,然后进入各种调参无限死循环。
  16. 老板:那个,我们决定还是换个方向吧,需求变了

从土黄色的Justin Ho开始,到黄色的数据异常及调参,则是整个算法工作的闭环。

这基本上是整个图像识别算法工程师,大致的工作流。

一句话:

定义问题-数据预处理(ETL/特征工程/特征筛选等)-模型评估-模型训练及优化-应用

举2个例子

假设

Eno想要买一个杯子

它是长成这样

打开淘宝拍照搜商品

哇!!!

有没有发现

发现11个点星星

组成星座图

自动识别出:相似马克杯/杯子

点击查看

一模一样

黑外壳

白内衬

大耳朵

Eno选了一家商店进行购买

交易新增量为1


过两天Eno老婆生日,之前其老婆在商场里看中了一条皮裤,大约是这样的。

淘宝扫描之后,是这样的

商品却是这样的

于是,Eno就默默的关闭了淘宝

交易新增量为0

交易新增量为0


这个背后,算法工程师们做了什么呢?

  • 定义问题:提高以图搜商品交易量5%
  • 数据预处理:提取1亿张杯子或皮裤的图片数据,完成特征工程及特征筛选
  • 模型评估:自己开发算法模型或使用开源算法模型
  • 模型训练及优化:看最终是否得出那个星座图
  • 应用:直接上线到淘宝上面

从上面可以看出,显然杯子的算法模型训练得非常杯,而皮裤的算法模型可能还需要进一步优化,是不是特征的筛选有问题,不过至少黑色这个特征是没有问题的。

本期内容就到这里,此次是以图像识别算法来举例,下期我们进行到第三个问题:算法工程师的分类等交易新增量为0


这个背后,算法工程师们做了什么呢?

  • 定义问题:提高以图搜商品交易量5%
  • 数据预处理:提取1亿张杯子或皮裤的图片数据,完成特征工程及特征筛选
  • 模型评估:自己开发算法模型或使用开源算法模型
  • 模型训练及优化:看最终是否得出那个星座图
  • 应用:直接上线到淘宝上面

从上面可以看出,显然杯子的算法模型训练得非常杯,而皮裤的算法模型可能还需要进一步优化,是不是特征的筛选有问题,不过至少黑色这个特征是没有问题的。

本期内容就到这里,此次是以图像识别算法来举例,下期我们进行到第三个问题:算法工程师的分类等

名词通俗解释

CV:

Compute Vision,计算机视觉,(这可不是HR眼中的那个CV哦)

关键节点信息:

还记得马克杯上的星座图式的点吗?其实我们知道整个图片都是由一个又一个图素组成,每个相素都是有坐标的。这些坐标,就是关键节点信息的一种。

RGB的色系,也是关键节点信息

特征工程:

获取关键节点信息的过程,就是特征工程

特征筛选:

将无关的关键节点信息删除,以免影响算法的结果。比如马克杯,如果其扫描出背景颜色的信息作为特征,可能会出现灰色的马克杯。

RCNN 目标检测技术

我们只要理解,将图片切割成不同的区域,然后将区域中的关键节点信息放入到CNN(卷积网络),再通过CNN进行判定,哪个部分是人。

CNN:

简单理解为,假设我们使用Photoshop做设计时,我们需要把不同的图片放在不同的图层。这样,我们可以把不相关的图层进行隐藏,做好目标图层的设计,再放其他部分放出来,这样我们可以更专注设计,而不会受其他图层的干扰。CNN,大致的意思也是类似的吧。

RESNET(CNN)残差网络

用一张图解释会比较好,柱状图是误差值。

ResNet 层次是152层,而之前的GoogleNet 才22 层,VGG才19层。(只是个名字)

一种误差更小的CNN模型。

1080P的视频为什么更清晰,480P的视频为什么会差一些,大致是因为像素差一些。

题外话

提出ResNet模型的人是一个中国人,何凯明。

2003年广东省高考理科状元,2007年清华本科,2011年香港中文大学博士。

其导师孙剑博士,旷视科技(Face++)首席科学家。

题目

特征工程和特征筛选,与HR领域的什么工作最相似?

为什么算法工程师也叫调参狗?相关推荐

  1. 人工智能从业者:大牛,工程师和调参狗

    2019-11-19 11:23:00 你眼中的他和他眼中的他是不是同一个人. 今天准备来点儿干货. 你要问这两天什么火,每个产品经理都会告诉你人工智能和区块链.很多人都还没搞明白这些东西是什么,能解 ...

  2. 一份来自贾扬清的AI修炼指南:不存在算法工程师,调参侠没有市场

    作者 | 陈彩娴.蒋宝尚 编辑 | 青 暮 算法工程师不仅需要具备牛逼的算法能力,还要精通业务.善于沟通?(小本子赶紧记下来!) 8月23日晚,知乎直播"AI时代听大咖聊"邀请到A ...

  3. 一份来自贾扬清的AI青年修炼指南:不存在算法工程师、调参侠没有市场

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者 | 陈彩娴.蒋宝尚 编辑 | 青 暮 算法工程师不仅需要具备牛逼的算法能力,还要精通业务.善于沟 ...

  4. 深度学习博士发出灵魂拷问:我是在做算法还是在调参?

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 转自 | 新智元 来源 | Reddit 编辑 | LRS 深度学习 ...

  5. 深度学习博士灵魂拷问:我们在做算法还是在调参?

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 深度 ...

  6. ML之xgboost:利用xgboost算法(sklearn+3Split+调参曲线+EarlyStop)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测)

    ML之xgboost:利用xgboost算法(sklearn+3Spli+调参曲线+EarlyStop)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测) ...

  7. ML之xgboost:利用xgboost算法(sklearn+3Split+调参曲线)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测)

    ML之xgboost:利用xgboost算法(sklearn+3Split+调参曲线)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测) 目录 输出结果 设 ...

  8. python 随机森林调参_Python机器学习实践:随机森林算法训练及调参-附代码

    原标题:Python机器学习实践:随机森林算法训练及调参-附代码 文章发布于公号[数智物语] (ID:decision_engine),关注公号不错过每一篇干货. 来源 | 博客园 作者 | 战争热诚 ...

  9. 【机器学习基础】XGBoost、LightGBM与CatBoost算法对比与调参

    机器学习 Author:louwill Machine Learning Lab 虽然现在深度学习大行其道,但以XGBoost.LightGBM和CatBoost为代表的Boosting算法仍有其广阔 ...

  10. XGBoost、LightGBM与CatBoost算法对比与调参

    虽然现在深度学习大行其道,但以XGBoost.LightGBM和CatBoost为代表的Boosting算法仍有其广阔的用武之地.抛开深度学习适用的图像.文本.语音和视频等非结构化的数据应用,Boos ...

最新文章

  1. C++ primer学习方法
  2. springmvc十六:九大组件
  3. C#设计模式之:抽象工厂模式与反射
  4. 机器学习 集成学习篇——python实现Bagging和AdaBOOST算法
  5. CodeForces - 468B Two Sets(并查集+思维)
  6. [JavaWeb-Servlet]IDEA与Tomcat的相关配置
  7. java 封装结果集_java封装结果集
  8. 图层上下_「只要功夫深 不用关键帧」之图层序号的玩法
  9. ExtJs学习笔记(2)_Basic GridPanel[基本网格]
  10. Android单选中listview中的一项
  11. 如何使用github和git进行团队合作开发(队友和owner的仓库连接)
  12. php api 在线编辑导出,api在线管理,调试,文档生成工具之Apizza
  13. 你知道有哪些超级好用的网盘存储吗?
  14. html5手机端页面布局,移动端H5常见的布局方式有哪些
  15. Meson构建系统(二)
  16. 计算机键盘静音键咋不亮,键盘上的声音开关键不能用为什么
  17. 服务器直接ip登录显示令牌错误,SSL 配置动态令牌认证,令牌同步失败提示获取认证服务器配置失败或本地IP与认证服务器IP地址不匹配...
  18. Linux中使用宝塔面板部署tipask3.*超详细教程,吐血两天部署成功,把过程整理出来,送给被官方文档折磨的小白们~~~~
  19. 北京工商银行业务分析
  20. Java的Random练习~~生成1~n之间的随机数

热门文章

  1. matlab矩阵运算程序,matlab矩阵运算
  2. 2022年最新全国各省五级行政区划代码及mysql数据库代码(省市区县乡镇村)
  3. 如何使用Apple Watch控制Apple TV
  4. 飞思卡尔单片机学习记录(一)
  5. SPSS16 视频教程 共17章全
  6. java opencv 人脸相似度_java实现OpenCV 4.1.0人脸相似度对比
  7. 软件杯参赛【学习记录】
  8. 脱不花,如何成为高效学习的人
  9. 过来领你的Bug之“缺陷分析“篇
  10. 网络安全|墨者学院在线靶场|投票系统程序设计缺陷分析