问题6:常见的特征选择方法

三种:过滤法,包装法和嵌入法。

Filter:过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。

Pearson相关系数

卡方验证

互信息和最大信息系数

距离相关系数

方差选择法

Wrapper:包装法,根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征。(缺点:训练次数多,复杂度高,但效果好)

前向搜索:逐渐增加特征

后向搜索:逐渐减少特征

递归特征消除法:使用基模型多轮训练,每轮训练后根据得到的权值系数或者特征重要性消除系数较低的特征,再基于新的特征集进行下一轮训练。

Embedded:嵌入法,先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。通常会使用sklearn中的feature_selection库来进行特征选择。

基于惩罚项的特征选择法 通过L1正则项来选择特征:L1正则方法具有稀疏解的特性,因此天然具备特征选择的特性。

基于学习模型的特征排序:使用机器学习算法建立预测模型,得到打分,根据打分选择模型。

问题7:方差与偏差的区别

偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据.

方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散。

问题8:bagging、boosting、stacking 的异同

Bagging算法(套袋发)

bagging的算法过程如下:

从原始样本集中使用Bootstraping 方法随机抽取n个训练样本,共进行k轮抽取,得到k个训练集(k个训练集之间相互独立,元素可以有重复)。

对于n个训练集,我们训练k个模型,(这个模型可根据具体的情况而定,可以是决策树,knn等)

对于分类问题:由投票表决产生的分类结果;对于回归问题,由k个模型预测结果的均值作为最后预测的结果(所有模型的重要性相同)。

Boosting(提升法)

boosting的算法过程如下:

对于训练集中的每个样本建立权值wi,表示对每个样本的权重, 其关键在与对于被错误分类的样本权重会在下一轮的分类中获得更大的权重(错误分类的样本的权重增加)。

同时加大分类 误差概率小的弱分类器的权值,使其在表决中起到更大的作用,减小分类误差率较大弱分类器的权值,使其在表决中起到较小的作用。每一次迭代都得到一个弱分类器,需要使用某种策略将其组合,最为最终模型,(adaboost给每个迭代之后的弱分类器一个权值,将其线性组合作为最终的分类器,误差小的分类器权值越大。)

Bagging和Boosting 的主要区别

样本选择上: Bagging采取Bootstraping的是随机有放回的取样,Boosting的每一轮训练的样本是固定的,改变的是买个样的权重。

样本权重上:Bagging采取的是均匀取样,且每个样本的权重相同,Boosting根据错误率调整样本权重,错误率越大的样本权重会变大

预测函数上:Bagging所以的预测函数权值相同,Boosting中误差越小的预测函数其权值越大。

并行计算: Bagging 的各个预测函数可以并行生成;Boosting的各个预测函数必须按照顺序迭代生成。

问题9:样本不平衡的解决办法

欠采样:从样本较多的类中再抽取,仅保留这些样本点的一部分;

(先对负样本做一个聚类,然后每个类中按一定的比例做采样。也可以用其他方式或者规则从负样本中筛选区分度高的样本用于模型训练,至于哪种效果好,还是要验证的,很多时候,直接暴力一点,直接按比例负采样效果就很好。)

过采样:复制少数类中的一些点,以增加其基数;

通过数据增强扩增类别少的样本;

Focal loss:针对类别不平衡问题,用预测概率对不同类别的loss进行加权。Focal loss对CE loss增加了一个调制系数来降低容易样本的权重值,使得训练过程更加关注困难样本。

问题10:余弦相似度、欧式距离与曼哈顿距离

余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。

相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。

欧式距离,即欧几里得距离,是最常见的两点之间的距离表示法,它定义在欧几里得空间中,

例如x = (x1,x2,...,xn)和y = (y1,y2,...,yn)的欧式距离可表示为:

曼哈顿距离:是欧几里得空间中两点之间的线段在坐标轴上的投影的距离的和,

例如x = (x1,x2) y = (y1,y2)则两点的曼哈顿距离可表示为:

\\left|x_{1}-x_{2}\\right|+\\left|y_{1}-y_{2}\\right|


进大厂是大部分程序员的梦想,而进大厂的门槛也是比较高的。刷题,也成为面试前的必备环节。

七妹给大家准备了“武功秘籍”,七月在线干货组继19年出的两本书《名企AI面试100题》和《名企AI面试100篇》后,又整理出《机器学习十大算法系列》、《2021年最新大厂AI面试题 Q3版》两本图书,不少同学通过学习拿到拿到dream offer。

为了让更多AI人受益,七仔现把电子版免费送给大家,希望对你的求职有所帮助。如果点赞和点在看的人数较多,我会后续整理资料并分享答案给大家。

↓ ↓ ↓以下4本书,电子版,直接送 ↓ ↓ ↓

评论区回复 " 007 " 领取!

大厂常考机器学习面试题分享(下)相关推荐

  1. 大厂常考机器学习面试题

    1.熵.条件熵.互信息.相对熵 熵 熵是一个随机变量不确定性的度量.对于一个离散型变量,定义为: 一个随机性变量的熵越大,就表示不确定性越大,也就是说随机变量包含的信息量越大. 熵只依赖于X的分布,与 ...

  2. 「 最新大厂常考架构技术面试题 + 详细解答」

    很多没有收到offer的朋友一直在 后台问我,怎么梳理面试要考的知识点.这里必须要和大家再强调一下要准备的7大方面!总结起来包括:JAVA编程语言+数据结构和算法题+计网+操作系统+设计模式+数据库+ ...

  3. 分享10道常考Java面试题及答案

    转载自   分享10道常考Java面试题及答案 Hi,大家好,今天给大家分享10道常考的Java面试题及答案,涉及到Java中的10个方面.每个领域一道题.希望你能有收获. <面向对象>什 ...

  4. 每日一练 | 20道常考Python面试题大总结

    每日一练 如果要对数据分析面试题进行归纳总结,基本可以分为三大类,分别是技术题.逻辑思维题.业务场景题. 本栏目旨在为小伙伴们分享常考/经典的数据分析面试题,大家在学习之余也可以进行自测,巩固学习成果 ...

  5. 最新算法校招编程-剑指offer、Leetcode常考题目及解法分享

    本资源整理了BAT.TMD等互联网算法岗校招面试过程中常考的LeetCode和剑指offer编程题:此外,还整理了部分百度.腾讯.阿里.今日头条相关的面试经验,对于正准备校招面试的同学非常值得参考复习 ...

  6. 20道常考Python面试题大总结

    一般来说,面试官会根据求职者在简历中填写的技术及相关细节来出面试题.一位拿了大厂技术岗Special Offer的网友分享了他总结的面试经验.当时,面试官根据他在简历中所写的技术,面试题出的范围大致如 ...

  7. 阿里前端常考vue面试题汇总

    Vuex中actions和mutations有什么区别 题目分析 mutations和actions是vuex带来的两个独特的概念.新手程序员容易混淆,所以面试官喜欢问. 我们只需记住修改状态只能是m ...

  8. 2020Android面试心得:斩获3个大厂offer后,大厂常考知识点 面试技巧出炉

    复习计划的制定和进度的把控也很重要,可以参考别人的学习计划去学习,再根据自己的实际情况去做适当的调整. 复习技巧 我一直认为学习没有捷径可言.我信奉"好记性不如烂笔头",也信奉&q ...

  9. 200道BAT机器学习面试题分享

    来源:CSDN 作者:qinjianhuang 整理编辑:Mr.Ma-master 导读 刷题,是工作面试前的必备环节.小编根据网络在线发布的BAT机器学习面试1000题系列,整理了一份面试刷题宝典. ...

最新文章

  1. 计算机应用基础电子演示文稿系统行考作业,最新电大计算机应用基础形考PowerPoint答案...
  2. 查看当前正在运行的python进程
  3. 解决python3 UnicodeDecodeError: 'gbk' codec can't decode byte
  4. java 手写阻塞队列_Java阻塞队列的实现
  5. 记录——《C Primer Plus (第五版)》第十章编程练习第三题
  6. Windows核心编程_Visual Studio2019找不到MFC项目
  7. idea打包SpringBoot项目打包成jar包和war
  8. Linux串口通信编程
  9. 文件系统管理 之 reiserfs文件系统反删除(Undelete)操作的实践
  10. oracle保留小数位数
  11. 如何通过两步验证来保护您的Apple ID
  12. jsp:forward标签介绍
  13. Kanzi学习之路(7):kanzi的资源预加载
  14. 关于语音会议自动转文字系统的想法
  15. 吃糖果游戏(tyvj 1567)
  16. webrtc源码学习 - 点对点(P2P)链接过程(peer connection)
  17. 中山大学新华学院计算机,中山大学新华学院信息科学学院电子信息科学与技术、计算机科学与技术、软件...
  18. 技术分享 | MySQL 巡检
  19. android增加来电闪光灯功能吗,苹果/安卓手机闪光灯提醒功能:手机来电闪光灯提醒怎么设置?...
  20. 操作系统概念(九)——虚拟内存

热门文章

  1. HashMap的到底是有序还是无序
  2. 抖音赚钱记,新手如何玩转抖音,每天赚300起(连载五)
  3. gnome显示桌面图标_桌面应用|如何在 GNOME 3 中显示桌面
  4. 程序员不修改Bug,我们该怎么办??
  5. oracle报错笔记,如12514
  6. 自学单片机好找工作吗?会单片机能找什么工作?
  7. Iterator_trait总结
  8. 精灵盛典显示跨服服务器繁忙,精灵盛典应用商店下架了什么情况 精灵盛典下架原因是什么...
  9. 【调剂】中国地震局工程力学研究所2021年考研预调剂征集信息
  10. 单链表的应用---通讯录设计(数据结构课设)