2021年5月10日,我转行到互联网做算法工作,离开了工作接近8年的机械设计工作,还是要在这里感谢军哥对我的帮助和指点!

换工作后,陆续学了《流畅的python》,FastAPI框架学了点皮毛,python web 编程学了点,LeetCode的算法题还在写,新年还是要抽时间多学习新的知识。

下面对自己的算法工作做一些总结:

  • 如果没有标注数据,一开始需要自己先标注少量的数据,对数据的特点进行大致的归类

  • 能用简单规则去解决相当一部分的问题(就是一个简单的手写决策树:if - else)

  • 需要抽样估计一下有多少 case 漏召回,可以将算法中的一些规则放松一些,看看有多少例子被召回,此时召回率会上升,准确率会有所下降,用这样的方法去看看,算法有没有漏掉很多问题,尽量把这个规则算法的召回率做高,准确率保证在20%-30%以上都可以

  • 根据规则算法把召回来的case自己进行标注,注意各类样本的比例是否合适,避免后面标注人员的无效工作,注意什么标注方法比较合理,或者编写标注工具,需要和业务方就标注标准达成共识

  • 拿到标注结果后,抽样检查标注结果一致性如何,确定是否要进行二次标注或修改

  • 数据准备好之后,会发现规则算法越写越复杂,解决了一部分问题,另一些问题又冲突不对了,准确率和召回率的跷跷板来回倒腾,可以使用GBDT等树模型进行机器学习,抽取一些特征,如是否有疑问词,是否有,编辑距离是多少(参考加州房价项目),一种特征的one-hot维数比较大,可以考虑分桶降维,不断的加入特征,提高准确率,可以用sklearn搜索参数,看看比较重要的特征是哪些

  • 如果到这步效果已经可以了(业务认可业务场景下的效果,注意不要拿算法研发的中间结果说明问题),那就可以收敛了,毕竟机器学习的计算成本还是比较小的

  • 如果还不能满意,考虑深度学习算法,使用BERT,ERNIE等大模型进行学习

  • 出来一版算法的结果时,去分析混淆矩阵中的 badcase,发现 badcase 的共同特征,把这个特征加入到模型当中,通过分析还可能发现 有的 case 就是人漏标了,有的 case 就是人标错了,汇总各类问题的分布比例是如何,找准问题的大头去努力解决

  • 如果需要的话,还可组合更复杂的模型,比如底层用多个深度学习模型,预测的结果作为上层模型的特征,另外再添加一些其他的特征,一起提供给上层的模型(可以是机器学习模型或者深度学习模型),需要注意标注的数据量是否足够多能满足模型这么多参数的学习

2021年算法工作总结相关推荐

  1. 做程序员的第八个年头——2021年个人工作总结

    本文由Markdown语法编辑器编辑完成. 1. 前言:   不知不觉中,我从研究生毕业实习(2013年2月)工作到现在(2022年1月),已经有8年多的时间了.   在过去八年的职业生涯中,我共经历 ...

  2. 2021谷歌算法排名因素大全

    采自:埃克森数字营销           2021谷歌算法排名因素大全 你可能知道谷歌在他们的算法中使用超过200个排名因素- 但具体这200个排名因素是什么可能很少有人能讲出来. 好吧,你们来对了, ...

  3. 2021年四川省政府工作报告:促进5G、大数据、区块链等技术与传统产业融合发展

    1月30日,在四川省第十三届人民代表大会第四次会议上,四川省人民政府省长黄强作2021年四川省政府工作报告. 黄强表示,2021年将加快数字经济创新发展.建设国家数字经济创新发展试验区,培育5个左右数 ...

  4. 2021上半年测试工作总结:再一次的跳出、新的转变

    我的上半年:再一次的跳出.新的转变 这是一份半年度工作总结 2020 年我的关键词是:跳出舒适圈 2021年上半年关键词:跳出.转变 没错,是再一次的跳出,跳出熟悉的产品,来到一个新的产品. 在过去的 ...

  5. 视觉算法工作一年社招经历总结

    视觉算法工作一年社招经历总结 视觉算法从被裁历时两个月拿到offer的经历复盘(本人情况是硕士毕业工作经验不到一年半的社招) 总体时间线: 9.30被裁,大概9.21知道消息,拿到n+1 10.1开始 ...

  6. 网站排名算法——Reddit 排名算法工作原理

    Reddit是个社交新闻站点,其口号是"提前于新闻发生,来自互联网的声音".用户(也叫redditors)能够浏览并且可以提交互联网上内容的链接或发布自己的原创帖子.其他的用户可对 ...

  7. 2021年安全生产工作总结及2022年思路计划(二十八篇)PPTX(附下载)

    摘要:2021年安全生产工作总结及2022年思路计划(二十八篇) 公众号:安全生产星球

  8. 北航学长:DCIC 2021的算法方案讲解

    作者:阿水,北京航空航天大学 ,Datawhale成员 DCIC 作为每年具有重要影响力的政府赛事,除了高认可,高奖金,最重要的是开放了政府和企业的真实数据,具有研究和落地价值,但对于刚参加赛事的同学 ...

  9. 清华硕士眼中的2021届算法岗秋招

    文 | 李金泽 一晃接近三个月过去了,秋招也到了尾声,之前一直忙于写毕业论文,现在在这里想总结一些自己求职互联网大厂算法岗的面经和心得,希望帮助后来的学弟学妹们收获自己心仪的offer. 今年的算法岗 ...

最新文章

  1. 机器学习笔试题精选(三)
  2. UI组件之ImageView及其子类(一)ImageView显示图片
  3. 全面解析java注解
  4. Cloud Connect: 使用现有的云基础设施来降低使用云编码的操作成本
  5. 手动写sonar plugin 一直File is not a plugin.
  6. bzoj4195(并查集+离散化)
  7. 2个菜鸟Java常量和枚举陷阱
  8. Spring_事务(2)
  9. 基于OpenCL的mean filter性能
  10. 『Material Design 入门学习笔记』前言
  11. 【多模态】来自Facebook AI的多任务多模态的统一Transformer:向更通用的智能迈出了一步...
  12. 仅 1 年 GitHub Star 数翻倍,Flink 做了什么?
  13. 阿里矢量图标库的使用
  14. excel常用快捷键
  15. 巧如范金,精比琢玉,一分钟高效打造精美详实的Go语言技术简历(Golang1.18)
  16. Opengl 之 窗口初体验 ------ By YDD的铁皮锅
  17. TCP/IP模型背后的内涵
  18. 小哥哥小姐姐,来尝尝 Async 函数这块语法糖
  19. 水滴pin安卓版apk_小水滴app下载
  20. 宏基服务器系统安装系统还原,宏碁win7系统重装教程

热门文章

  1. js更新数组对象_7 种Vue 数据已更新而页面没有更新的情况及深化总结(收藏)
  2. Linux 监控命令之 vmstat
  3. tornado学习笔记day02-进阶与提升
  4. JavaWeb笔记01-XML
  5. python子类继承父类特性,pycharm上面已经提示继承了,为什么会报没有该特性的错误?
  6. dto 是只给前端需要的数据吗_DO、VO、DTO...XXOO,你弄明白了么
  7. charles 安装 ssl_最全面的解决Charles手机抓包的证书问题(步骤非常详细)
  8. ansible 批量部署ssh免密钥
  9. 火狐浏览器中打开java_将Firefox浏览器嵌入Java Swing中
  10. 驱动开发中常用的操作和小知识