一只小狐狸带你解锁 炼丹术&NLP 秘籍

在非深度学习的机器学习模型中,基于GBDT算法的XGBoost、LightGBM等有着非常优秀的性能,校招算法岗面试中“出镜率”非常高。这些经典的机器学习算法不仅是数据科学竞赛神器,在工业界中也被广泛地使用。Microstrong最近就负责使用GBDT、XGBoost等集成模型做推荐系统的点击率预估(CTR),如果让我当面试官面试自己,那我会由浅入深依次考察:

  • GBDT的原理(理论基础)

  • 决策树节点分裂时如何选择特征,写出Gini index和Information Gain的公式并举例说明(理论基础)

  • 分类树和回归树的区别是什么?(理论基础)

  • 与Random Forest作比较,并以此介绍什么是模型的Bias和Variance(理论基础)

  • GBDT里面的决策树都是利用回归树解决分类和回归问题,请问GBDT中利用回归树是怎么做到分类的?目标(损失)函数是什么形式?(理论基础)

  • XGBoost的原理(理论基础)

  • XGBoost的参数调优有哪些经验(工程能力)

  • XGBoost的正则化是如何实现的(工程能力)

  • XGBoost的并行化部分是如何实现的(工程能力)

  • 为什么GBDT预测点击率一般都会出现严重的过拟合现象(业务理解)

  • 如果选用一种其他的模型替代XGBoost,你会选用什么?(业务理解和知识面)

我们通过上面的几个问题,考察了面试者理论基础、工程能力以及对业务的理解,检测面试者是否真的对GBDT、XGBoost有比较深入的理解。如果大家对上面的问题还一知半解,贴心的Microstrong同学为大家整理了自己从回归树到GBDT、XGBoost再到LightGBM、CatBoost的原创算法解析文章:

  • Regression Tree 回归树

  • 深入理解提升树(Boosting Tree)算法

  • 梯度提升(Gradient Boosting)算法

  • 深入理解GBDT回归算法

  • 【完善版】深入理解GBDT二分类算法

  • 深入理解GBDT多分类算法

  • 深入理解XGBoost

  • 深入理解LightGBM

  • 深入理解CatBoost

当然,深度学习也是人工智能算法工程师必备的基础技能。入行算法工程师后,怎样提升我们的掘金能力呢?最核心的还是:技术硬,懂产品。

在目前钻研的领域持续加码,保持深耕,不断学习和挖掘自身潜力。我们在科学炼丹的时候,都会用到Dropout或Batch Normalization(BN)等基本的深度神经网络优化方法。但是,深度学习技术并非一成不变,努力提升技术水平要成为一种习惯。最高水准当然是追逐最先进的技术,比如,ELMo、Transformer、BERT和XLNet等明星模型。

如果让我当面试官去判断一个面试者的深度学习水平,那我会由浅入深依次考察:

Dropout部分

  • 讲Dropout的基本原理;(理论基础)

  • Dropout训练过程和预测过程分别如何保证一致性;(工程能力)

  • Dropout本质上的Bagging的思想;(理论基础)

  • Bagging思想和Boosting思想分别怎么解决模型的偏差和方差问题;(理论基础)

  • 偏差和方差在模型的评估表现代表了什么;(理论基础)

BN部分

  • 什么是BN?

  • BN核心公式是什么?

  • BN中均值、方差通过哪些维度计算得到?

  • 训练与推理时BN中的均值、方差分别是什么?

  • Batch Normalization的优点?

  • BN与Layer Normalization、Weight Normalization、Cosine Normalization、Instance Normalization、Group Normalization、Cross-Iteration Batch Normalization、Filter Response Normalization区别?

当然,ELMo、Transformer、BERT和XLNet等较新的模型也会问一下,考察面试者是否有Follow深度学习中最新的研究工作。同样地,贴心的Microstrong同学为大家整理了自己关于上面问题的学习笔记:

  • 深度学习中的Batch Normalization

  • 深度学习中Dropout原理解析

  • 词向量与ELMo模型

  • Self-Attention与Transformer

  • 从Transformer到BERT模型

  • 从BERT到ALBERT

  • XLNet详解

总之,一篇文章总结不完关于机器学习、深度学习、自然语言处理和推荐系统相关的所有面试题,Microstrong号主花了点时间分类整理了一下自己公众号里的精华文章,欢迎大家关注和阅读:

扫码关注Microstrong的公众号

历史精品文章

机器学习

【1】深入理解CatBoost

【2】深入理解LightGBM

【3】深入理解XGBoost

【4】深入理解GBDT多分类算法

【5】【完善版】深入理解GBDT二分类算法

【6】深入理解GBDT回归算法

【7】梯度提升(Gradient Boosting)算法

【8】深入理解提升树(Boosting Tree)算法

【9】Regression Tree 回归树

【10】机器学习中的判别式模型和生成式模型

【11】EM算法详解

【12】贝叶斯分类器

【13】偏差(Bias)与方差(Variance)

【14】主成分分析(PCA)原理详解

【15】机器学习中SVD总结

【16】分类中解决类别不平衡问题

【17】ROC曲线和AUC面积理解

【18】【错误率、精度、查准率、查全率和F1度量】详细介

【19】最优化理论与方法-牛顿迭代法后续

【20】最优化理论与方法-牛顿迭代法

【21】K-means算法优化(二分K-means算法)

【22】聚类算法之K-means算法

【23】机器学习中的L1和L2正则化项

【24】机器学习中【回归算法】详解

深度学习

【1】Doc2vec原理解析及代码实践

【2】Embedding技术在房产推荐中的应用

【3】深入浅出Word2Vec原理解析

【4】智能推荐算法在直播场景中的应用

【5】XLNet详解

【6】从BERT到ALBERT

【7】从Transformer到BERT模型

【8】Self-Attention与Transformer

【9】词向量与ELMo模型

【10】《生成式对抗网络GAN的研究进展与展望》论文笔记

【11】《GAN万字长文综述》

【12】理解LSTM网络

【13】深度学习中的注意力机制

【14】循环神经网络(RNN)

【15】卷积神经网络(CNN)综述

【16】Understanding Short Texts 部分2

【17】Understanding Short Texts 部分1

【18】对Dilated Convolution理解

【19】卷积神经网络中感受野的详细介绍

【20】深度学习中Dropout原理解析

【21】深度学习中的Batch Normalization

【22】神经网络梯度消失和梯度爆炸及解决办法

【23】AI自动生成代码,论文解读之REMAUI

【24】OCR识别技术

【25】《TensorFlow实战》第一章-TensorFlow基础读书笔记

【26】神经网络激活函数的作用是什么?

【27】AI自动生成代码,研究未来可能让程序员失业的科技

成长之路

【1】2019已结束,2020再出发

【2】2019秋招算法岗复盘

【3】带师妹轻松过笔试

【4】我的2018年总结

【5】我的2017总结

Python学习

【1】Anaconda详细安装使用教程

【2】Python基本数据类型之字符串

【3】Python 中的 if __name__ == '__main__'理解

【面试必备】奉上最通俗易懂的XGBoost、LightGBM、BERT、XLNet原理解析相关推荐

  1. 六个经典的HTML5面试问题奉上,太有用啦!

    随着移动互联网时代的到来,HTML5流行风盛行,HTML5开发工程师在人才市场中变得非常吃香.而2021年的今天,招聘网站上的HTML5开发工程师职位数量依旧庞大.那么求职者们怎样才能成功的面试上HT ...

  2. 勇敢码农,不怕困难!阿里内部不外传秘籍50万字Java面试手册奉上

    6月见底,现在可以说是备战金九银十的最佳时候了.为了让大家能在面试中过关斩将,小编特地找了在阿里的朋友要了这份阿里内部不外传秘籍:50万字Java面试手册. 这份面试手册涉及的技术栈非常全面而且足够细 ...

  3. [机器学习] 树模型(xgboost,lightgbm)特征重要性原理总结

    在使用GBDT.RF.Xgboost等树类模型建模时,往往可以通过 feature_importance 来返回特征重要性,各模型输出特征重要性的原理与方法 一 计算特征重要性方法 首先,目前计算特征 ...

  4. redis cluster 集群 HA 原理和实操(史上最全、面试必备)

    文章很长,建议收藏起来慢慢读!疯狂创客圈总目录 语雀版 | 总目录 码云版| 总目录 博客园版 为您奉上珍贵的学习资源 : 免费赠送 经典图书:<Java高并发核心编程(卷1)> 面试必备 ...

  5. 面试必备:什么时候要打破双亲委派机制?什么是双亲委派? (图解+秒懂+史上最全)

    文章很长,建议收藏起来慢慢读!疯狂创客圈总目录 语雀版 | 总目录 码云版| 总目录 博客园版 为您奉上珍贵的学习资源 : 免费赠送 经典图书:<Java高并发核心编程(卷1)> 面试必备 ...

  6. 【有料】面试必备:什么时候要打破双亲委派机制?什么是双亲委派? (图解+秒懂+史上最全)

    面试题:什么时候要打破双亲委派机制 来自社群的两个面试题,其实也是两个基础的 面试题,大家一定要掌握 社群问题: 先说下第一题的结论 场景1: 如果委托类没有实现接口的话,就不能使用newProxyI ...

  7. 各大AI研究院共35场NLP算法岗面经奉上

    本文涵盖了腾讯微信事业群模式识别中心,PCG和TEG事业群,阿里达摩院,蚂蚁金服,百度研究院,京东研究院,头条AI Lab,滴滴AI Lab,微软亚洲研究院,微软工程院以及联想研究院等等多个公司NLP ...

  8. 金三银四求职季,程序员面试必备——数据分析篇

    这个年代里,"用数据说话"已经像是一种过气的口号.各行各业不同角色和身份的人们都已懂得"用数据说话"的重要性,甚至日常生活中也需要用数据看清事实,科学吃瓜.所以 ...

  9. 面试必备:一个秒杀系统的设计思考

    点击上方"方志朋",选择"设为星标" 回复"666"获取新整理的面试文章 作者:阿哲 segmentfault.com/a/11900000 ...

最新文章

  1. 【转载】利用Matlab制作钟表
  2. C指针原理(34)-Ncurses-文本终端的图形
  3. Sass mixin与extends、%placeholder、function
  4. 关于pytorch GPU版本安装的问题
  5. 从研发角度谈存储技术的学习
  6. MATHEMATICS FOR MACHINE LEARNING部分翻译
  7. MP3固件升级(转)
  8. amazeui的表单开关插件的自定义事件必须添加.bootstrapSwitch 命名空间,给了我们什么启示...
  9. 轻松制作 Notion 风格的头像 - Notion Avatar Maker
  10. 【每日早报】2019/08/08
  11. ios 常见异常之- Terminating app due to uncaught exception ‘NSInternalInconsistencyException‘, reason:
  12. 基于体感的三维虚拟试衣
  13. 温湿度传感器——DHT11学习总结
  14. linux组权限管理,Linux组管理和权限管理
  15. 【181125】VC++ 绘制立方体的生成与控制旋转程序源代码
  16. pythonfind_Python find()方法:检测字符串中是否包含某子串
  17. 《秘密》卷一:秘密-吸引力法则
  18. MySQL内部搜索引擎
  19. 基于内容的电影推荐:物品画像和用户画像
  20. webm怎么改成mp4格式

热门文章

  1. swagger core 和 swagger ui 如何关联【窥探】
  2. shell脚本判断文件类型
  3. iOS给图片打水印,并将打过水印的图片生成到沙盒中
  4. vbs调用WebService -- 使用xmlhttp
  5. 在辞职后的旅途中:我写了个App 创立了一家公司
  6. STL中的multimap---顺便说说如何查找同一关键字对应的所有值
  7. mysql模糊查询与预编译_mysql预编译模糊查询恶心了我一天的时间,终于弄好了。但是还有一点不明白。如下:...
  8. 计算机科学与技术 天涯,计算机科学与技术专业
  9. python cx_oracle配置_python连接oracle的模块cx_Oracle安装和配置
  10. java商城_基于Java,jfinal web框架开发出微信商城,微信分销商城源码分享