文末彩蛋:七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》免费送!

1、bert蒸馏了解吗

知识蒸馏的本质是让超大线下teacher model来协助线上student model的training。

bert的知识蒸馏,大致分成两种。

第一种,从transformer到非transformer框架的知识蒸馏

这种由于中间层参数的不可比性,导致从teacher model可学习的知识比较受限。但比较自由,可以把知识蒸馏到一个非常小的model,但效果肯定会差一些。

第二种,从transformer到transformer框架的知识蒸馏

由于中间层参数可利用,所以知识蒸馏的效果会好很多,甚至能够接近原始bert的效果。但transformer即使只有三层,参数量其实也不少,另外蒸馏过程的计算也无法忽视。

所以最后用那种,还是要根据线上需求来取舍。

2、给你一些很稀疏的特征,用LR还是树模型

参考:很稀疏的特征表明是高维稀疏,用树模型(GBDT)容易过拟合。建议使用加正则化的LR。

假设有1w 个样本, y类别0和1,100维特征,其中10个样本都是类别1,而特征 f1的值为0,1,且刚好这10个样本的 f1特征值都为1,其余9990样本都为0(在高维稀疏的情况下这种情况很常见),我们都知道这种情况在树模型的时候,很容易优化出含一个使用 f1为分裂节点的树直接将数据划分的很好,但是当测试的时候,却会发现效果很差,因为这个特征只是刚好偶然间跟 y拟合到了这个规律,这也是我们常说的过拟合。但是当时我还是不太懂为什么线性模型就能对这种 case 处理的好?照理说 线性模型在优化之后不也会产生这样一个式子:y = W1f1 + Wifi+….,其中 W1特别大以拟合这十个样本吗,因为反正 f1的值只有0和1,W1过大对其他9990样本不会有任何影响。

现在的模型普遍都会带着正则项,而 lr 等线性模型的正则项是对权重的惩罚,也就是 W1一旦过大,惩罚就会很大,进一步压缩 W1的值,使他不至于过大,而树模型则不一样,树模型的惩罚项通常为叶子节点数和深度等,而我们都知道,对于上面这种 case,树只需要一个节点就可以完美分割9990和10个样本,惩罚项极其之小.

这也就是为什么在高维稀疏特征的时候,线性模型会比非线性模型好的原因了:带正则化的线性模型比较不容易对稀疏特征过拟合。

3、LR的损失函数推导

逻辑回归损失函数及梯度推导公式如下:

4、为什么分类用交叉熵不用MSE(从梯度的角度想一下)

LR的基本表达形式如下:

使用交叉嫡作为损失函数的梯度下降更新求导的结果如下:首先得到损失函数如下︰

如果我们使用MSE作为损失函数的话,那损失函数以及求导的结果如下所示∶

使用平方损失函数,会发现梯度更新的速度和sigmod函数本身的梯度是很相关的。sigmod函数在它在定义域内的梯度都不大于0.25。这样训练会非常的慢。使用交叉嫡的话就不会出现这样的情况,它的导数就是一个差值,误差大的话更新的就快,误差小的话就更新的慢点,这正是我们想要的。

在使用Sigmoid 函数作为正样本的概率时,同时将平方损失作为损失函数,这时所构造出来的损失函数是非凸的,不容易求解,容易得到其局部最优解。如果使用极大似然,其目标函数就是对数似然函数,该损失函数是关于未知参数的高阶连续可导的凸函数,便于求其全局最优解。(关于是否是凸函数,由凸函数的定义得,对于一元函数,其二阶导数总是非负,对于多元函数,其Hessian矩阵(Hessian矩阵是由多元函数的二阶导数组成的方阵)的正定性来判断。如果Hessian矩阵是半正定矩阵)

5、BERT和Roberta的区别

RoBERTa模型在 Bert模型基础上的调整︰

  • 训练时间更长,Batch_size更大,(Bert 256,RoBERTa 8K)
  • 训练数据更多(Bert 16G,RoBERTa 160G)
  • 移除了NPL (next predict loss)
  • 动态调整Masking 机制
  • Token Encoding:使用基于bytes-level 的 BPE

简单总结如下:

评论区回复 “121”,七月在线干货组最新升级的《2021大厂最新AI面试题 [含答案和解析, 更新到前121题]》,免费送!

持续无限期更新大厂最新面试题,AI干货资料,目前干货组汇总了今年3月-6月份,各大厂面试题。

7.20-7.26 字节推荐算法(DATA-EDU)5道面试题分享相关推荐

  1. 阿里计算机视觉算法工程师岗5道面试题分享

    问题1:手写交叉熵损失函数 二分类交叉熵 多分类交叉熵 其中 问题2:结构风险和经验风险怎么理解 期望风险:机器学习模型关于真实分布(所有样本)的平均损失称为期望风险 经验风险:机器学习模型关于训练集 ...

  2. 【面经】字节跳动C++社招5轮面试题分享

    字节跳动C++社招5轮面试题分享 [一面] 1.自我介绍,聊项目, 这边挺常规的,从项目入手. 2.你感觉比本科阶段自己进步了多少,有哪些进步 3.研究生期间最大的进步是什么 4.你觉得你适合从事哪个 ...

  3. 数据结构算法常见的 100 道面试题全解析:2019 版

    最近由于工作需要接触了不少关于数据结构算法的面试题目,从中总结了一些知识,也从网上筛过一些面试题,但是不是无法运行就是版本过低,让大家很是懊恼.所以我借此机会对大多数的数据结构算法的题目进行了一次总结 ...

  4. Spring系列:字节跳动+腾讯+华为+小米+阿里面试题分享

    零基础如何学习Java? 首先,你要明白一点,Java入门不难! 无论你是从事哪个行业,兴趣一定是最好的老师,也是你学习的动力. 学习方式1:自学 自学模式其实我个人不建议绝大部分的人选择,因为自学是 ...

  5. 百度计算机视觉算法工程师岗位秋招面试题分享

    问题1:对Transformer的理解 Transformer本身是一个典型的encoder-decoder模型,Encoder端和Decoder端均有6个Block,Encoder端的Block包括 ...

  6. 个性化推荐算法 综述

    随着互联网的迅速发展,接入互联网的网页与服务器数量也以指数形式迅猛增长.互联网的发展,使得海量信息以飞快的更新速度在我们眼前不断呈现.例如,卓越亚马逊上存在着上千万的图书,NetFlix上有数万部电影 ...

  7. 个性化推荐算法python实现

    基于ItemCF算法 # -*- coding: utf-8 -*- """ Created on Wed Sep 30 15:36:15 2015 @author: t ...

  8. 阿里开发者招聘节 | 2019阿里巴巴技术面试题分享:20位专家28道题

    为什么80%的码农都做不了架构师?>>>    为帮助开发者们提升面试技能.有机会入职阿里,云栖社区特别制作了这个专辑--阿里巴巴资深技术专家们结合多年的工作.面试经验总结提炼而成的 ...

  9. 岗位内推 | 字节跳动招聘NLP、计算机视觉、推荐算法实习生

    PaperWeekly 致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁.如果你需要我们帮助你发布实习或全职岗位,请添加微信号「pwbot02」. NLP算法实习生 ...

  10. 计算机视觉算法实战书籍推荐_岗位内推 | 字节跳动招聘NLP、计算机视觉、推荐算法实习生...

    PaperWeekly 致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁.如果你需要我们帮助你发布实习或全职岗位,请添加微信号「pwbot02」. NLP算法实习生 ...

最新文章

  1. 【填坑】初识钛极小龟NB-IoT物联网开发套件TiKit
  2. Latent Dirichlet Allocation(LDA)
  3. C++11中智能指针的原理、使用、实现
  4. C语言:求X的Y次方
  5. win10禁用uac_在Win 7、8或10上通过简便方法禁用用户帐户控制(UAC)
  6. Excel VBA批注
  7. 2022年京东新百货七夕礼遇季活动有什么亮点?
  8. led大屏按实际尺寸设计画面_led显示屏尺寸大小要怎么算
  9. 【产品】建立墨菲定律思维模式
  10. 前端生产环境调试工具sourcemap的使用
  11. granfana密码重置
  12. Android DT/DTO镜像简介
  13. 在线教育大数据营销平台实战(一):大数据平台构建实战
  14. 校园广播系统应用案例-柴达木职业技术学院
  15. 揭开计算机神秘的面纱教学反思,《揭开计算机神秘的面纱》教学设计.doc
  16. c++判断回文,跳过非字母的字符并忽略字母大小写
  17. MAC安装向日葵软件 远程协助设置1
  18. 解决response乱码问题
  19. UVA 1633 Dyslexic Gollum (状压dp)
  20. php 微信防盗链,PHP如何解决微信文章图片防盗链

热门文章

  1. Python xlwt 操作 excel 表格基础(三):单元格格式、字体格式、对齐方式、边框及填充等
  2. October CMS - 快速入门 1 安装 1
  3. 从羽泉演唱会大数据看在线演出前景
  4. java毕业生设计演唱会网上订票购票系统计算机源码+系统+mysql+调试部署+lw
  5. WMTS服务及地图瓦片原理
  6. 简单的Java小游戏 -- 数字连连消
  7. 对普通文件 霍夫曼编解码 matlab,JPEG编解码过程详解(二)
  8. 空间金字塔模型与池化
  9. Amazon软件开发工程师面试题
  10. Java 百度ocr文字识别-发票识别,并在页面显示信息