来源:机器学习算法工程师

本文约3100字,建议阅读9分钟

本文作者与你分享人工智能校招经验。

疫情下,感觉要爆发金融危机了啊,工作都可能找不到了,赶紧梳理下之前的笔试题,给大家个参考。

想了想当初,面试是在阳台上进行的,中午刚睡醒,然后就是开始自我介绍,然后就是简单的寒暄。

然后根据简历,问我的项目细节,问我使用的哪个卷积神经网络模型,为什么选择这个模型,通常都有哪些模型。

1. 深度学习和过往的神经网络训练方法有什么区别?列举几种深度学习的loss function,并说明意义。

深度学习是一种方法,神经网络是个模型,深度学习方法呢可以有效解决层数多的神经网络不好学习的问题,为了让层数较多的多层神经网络可以训练,能够起作用并演化出来的一系列的新的结构和新的方法

  • 结构:一般分为两大阵营,CNN,RNN,感觉这里欠妥,请指正;

  • 方法:权重初始化方法(逐层初始化,XAVIER等),损失函数,防止过拟合方法(Dropout, BN等)。

这些方面主要都是为了解决传统的多层神经网络的一些不足:梯度消失,过拟合等。

分类问题常用的损失函数:

  • 交叉熵损失函数,也称作softmax损失函数,可用于解决多分类问题,通过指数化将输出转换成概率的形式;

  • 合页损失函数,一般情况下,交叉熵损失函数的效果优于合页损失函数;

  • 坡道损失函数,对离群点或者噪声的抗干扰能力强,是一种鲁棒性的损失函数,对误差较大的区域会进行截断;

  • 大间隔损失函数,保证能够正确分类的同时,还满足增大类间的差异,提升了特征的分辨能力,防止网络发生过拟合;

  • 中心损失函数,保证能够正确分类的同时,还满足减少类内的差异,提升了特征的分辨能力。

回归问题常用的损失函数:

  • l1损失函数,衡量的是预测值与真实值之间的偏差;

  • l2损失函数,效果优于l1;

  • tukey‘s biweight损失函数,是一种具有鲁棒性的损失函数。

其他任务的损失函数:

  • KL散度损失函数,衡量的是样本标记分布与真实标记分布的差异,可用于年龄估计等。

2. 什么是卷积神经网络?请说明卷积的意义

分开看就明确了,“卷积” 和 “神经网络”。卷积也就是说神经网络不再是对每个像素的输入信息做处理了,而是图片上每一小块像素区域进行处理,这种做法加强了图片信息的连续性。使得神经网络能看到图形,而非一个点。这种做法同时也加深了神经网络对图片的理解。

具体来说,卷积神经网络有一个批量过滤器,持续不断地在图片上滚动收集图片里的信息,每一次收集的时候都只是收集一小块像素区域,然后把收集来的信息进行整理,这时候整理出来的信息有了一些实际上的呈现,比如这时的神经网络能看到一些边缘的图片信息。然后再以同样的步骤,用类似的批量过滤器扫过产生的这些边缘信息, 神经网络从这些边缘信息里面总结出更高层的信息结构,比如说总结的边缘能够画出眼睛,鼻子等等。

卷积的重要的物理意义是:一个函数(如:单位响应)在另一个函数(如:输入信号)上的加权叠加,这就是卷积的意义:加权叠加,不同的卷积核提供了不同的加权方式,从而得到鲁棒的特征,进行参数共享,大大减少了参数量,避免过拟合;


3. 什么是中文分词?列举出几种你所知的分词方法。

中文分词就是将中文按语义分出词语来,与英文不同,中文词语之间没有空格,需要根据语义经验等知识来将一组汉字序列进行切分出一个个词语。

中文分词主要分为三种:

  • 机械分词法:是一种基于词典的方法,是将文档中的字符串与词典中的词条一一匹配,如果在词典中找到了某个字符串,则匹配成功,可以切分,否则不予切分。该方法实现简单,使用性强,但对于词典的完备性要求很高。

  • 基于语法和规则的分词方法:是在分词的同时进行句法和语义分析,通过句法和语义信息来标注词性,以解决分词歧义的现象。但汉语语法笼统,复杂,所以该种方法的精度不尽人意,目前仍处于试验阶段。

  • 基于统计的分词法:根据字符串在语料中出现的统计词频来判断其是否构成一个词。词是字的组合,相邻的字同时出现的次数越多越有可能成为一个词。该种方法因精度高,效果稳定,成为目前最流行的一种方法,常见的分词模型有HMM,CRF,biLSTM+CRF等

4. 现在深度学习在NLP领域有哪些应用?请具体说明。

  • 机器翻译,或神经机器翻译(NMT)在翻译中提供了统计方式之外的另一种方式,同时也更加简便。

  • 知识问答,问答机器人,可以用深度学习模型,从语料中学习获得一些问题的答案。

  • 自然语言生成,能够根据一些关键信息及其在机器内部的表达形式,经过一个规划过程,来自动生成一段高质量的自然语言文本。


5. 传统图像处理提取的sift特征是什么意思?

sift指的是scale invarient feature transform,即尺度不变特征变换。

sift特征是一种对缩放、旋转、光照变化等不敏感的局部图像特征,其提取过程是先生成图像的尺度空间,然后在尺度空间中检测极值点作为关键点,最后利用关键点邻域的梯度信息生成特征描述符。


6. 什么叫过拟合,避免过拟合都有哪些措施?

答:过拟合:就是在机器学习中,我么测试模型的时候,提高了在训练数据集的表现力时候,但是在训练集上的表现力反而下降了。

解决方案:

  1. 正则化;

  2. 在训练模型过程中,调节参数;

  3. 学习率不要太大;

  4. 对数据进行交叉验证;

  5. 选择适合训练集合测试集数据的百分比,选取合适的停止训练标准,使对机器的训练在合适;

  6. 在神经网络模型中,我们可以减小权重。

7. LR和SVM的联系与区别是什么?

  1. 都是分类算法;

  2. 如果不考虑核函数,LR和SVM都是线性分类算法,也就是说他们的分类决策面都是线性的;

  3. LR和SVM都是监督学习算法;

  4. LR和SVM的损失函数不同;

  5. SVM只考虑局部的边界线附近的点 ,LR考虑全局,远离的点对边界线的确定也起作用。

8. 给你一个有1000列和1百万行的训练数据集,这个数据集是基于分类问题的。经理要求你来降低该数据集的维度以减少模型计算时间,但你的机器内存有限。你会怎么做?(你可以自由做各种实际操作假设。)

  1. 由于我们的RAM很小,首先要关闭机器上正在运行的其他程序,包括网页浏览器等,以确保大部分内存可以使用;

  2. 我们可以随机采样数据集;

  3. 这意味着,我们可以创建一个较小的数据集,比如有1000个变量和30万行,然后做计算;

  4. 为了降低维度,我们可以把数值变量和分类变量分开,同时删掉相关联的变量;

  5. 对于数值变量,我们将使用相关性分析;

  6. 对于分类变量,我们可以用卡方检验;

  7. 另外,我们还可以使用PCA(主成分分析),并挑选可以解释在数据集中有最大偏差的成分;

  8. 利用在线学习算法,如VowpalWabbit(在Python中可用)是一个不错的选择;

  9. 利用Stochastic GradientDescent(随机梯度下降法)建立线性模型也很有帮助;

  10. 我们也可以用我们对业务的理解来估计各预测变量对响应变量的影响的大小。

但是,这是一个主观的方法,如果没有找出有用的预测变量可能会导致信息的显著丢失。

9. 给你一个数据集,这个数据集有缺失值,且这些缺失值分布在离中值有1个标准偏差的范围内。百分之多少的数据不会受到影响?为什么?

约有32%的数据将不受缺失值的影响。

因为,由于数据分布在中位数附近,让我们先假设这是一个正态分布。我们知道,在一个正态分布中,约有68%的数据位于跟平均数(或众数、中位数)1个标准差范围内,那么剩下的约32%的数据是不受影响的。因此,约有32%的数据将不受缺失值的影响。

10. 真阳性率和召回有什么关系?写出方程式。

真阳性率=召回。它们有相同的公式(TP / TP + FN)。

11. 在k-means或kNN,我们用欧氏距离来计算最近的邻居之间的距离。为什么不用曼哈顿距离?

我们不用曼哈顿距离,因为它只计算水平或垂直距离,有维度的限制。另一方面,欧氏距离可用于任何空间的距离计算问题。

因为,数据点可以存在于任何空间,欧氏距离是更可行的选择。

例如:想象一下国际象棋棋盘,象或车所做的移动是由曼哈顿距离计算的,因为它们是在各自的水平和垂直方向做的运动。

参考链接:

https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/5-03-A-CNN/
https://www.zhihu.com/question/22298352/answer/34267457
https://www.nowcoder.com/questionTerminal/42fe838421a84e279a67a0a16b874d29?source=relative
http://www.elecfans.com/d/540309.htm

编辑:黄继彦

校对:林亦霖

笔试分享 | 带你解读校招人工智能笔试题相关推荐

  1. 校招笔试C语言,校招c ++笔试题汇总

    ①链表反转 单向链表的反转是一个经常被问到的一个面试题,也是一个非常基础的问题, 最容易想到的方法遍历一遍链表,利用一个辅助指针,存储遍历过程中当前指针指向的下一个元素,然后将当前节点元素的指针反转后 ...

  2. 小红书2020校招数据分析笔试题卷四 解析

    小红书2020校招数据分析笔试题卷四 解析 单选题 多选题 填空题 简答题 题目来自小红书2020校招数据分析笔试题卷四 单选题 如果在小红书商城中某一商户给一产品定价,如果按照全网最低价500元定价 ...

  3. 富士康计算机类笔试题,富士康2021校招技术类笔试题

    富士康2021校招技术类笔试题 发布时间:2021-03-02 富士康科技集团是台湾鸿海精密集团在大陆投资兴办的高新科技企业.下面就由第一范文网小编为大家介绍一下富士康20xx校招技术类笔试题的文章, ...

  4. 迅雷2021校招数据分析笔试题 B卷

    时间:9.28投递的迅雷数据分析岗,10.15收到笔试通知于10.19号19:00-20:35参加迅雷2021校招数据分析笔试题 B卷. 试卷回忆版:共有三种题型:单选题(20个,每个3.5分).多选 ...

  5. 小红书2020校招前端笔试题卷三

    小红书2020校招前端笔试题卷三题目地址 第一题 第一题我做错了以为是选错误的 第二题 第三题 解: JS中的执行机制(setTimeout.setInterval.promise.宏任务.微任务), ...

  6. 小红书2020校招算法笔试题卷一

    小红书2020校招算法笔试题卷一 字符串倒序 薯队长带着小红薯参加密室逃脱团建游戏,首先遇到了反转游戏,小红薯们根据游戏提示收集了多个单词线索,并将单词按要求加一个空格组 成了句子,最终要求把句子按单 ...

  7. 分享18道Java基础面试笔试题

    转载自 分享18道Java基础面试笔试题(面试实拍) 1.你最常上的两个技术站和最常使用的两个app分別进什么?主要解决你什么需求? 2.请简述http协议中get请求和post请求的区别. 3.请简 ...

  8. 计算机校招软件测试笔试题,校招软件测试笔试题

    校招软件测试笔试题 1. 假设把整数关键码K散列到N个槽列表,以下哪些散列函数是好的散列函数 A: h(K)=K/N; B: h(K)=1; C: h(K)=K mod N; D: h(K)=(K+r ...

  9. php程序员试题,php面试题带答案,php程序员笔试题与答案(一)

    php面试题带答案,php程序员笔试题与答案(一) php程序员招聘笔试题: 问题 1. 选择合适的答案填入空白处 PHP 是一种______脚本语言,基于______引擎.PHP 最常被用来开发动态 ...

最新文章

  1. Forcepoint DLP解决方案持续推高各机构的业务发展进程
  2. C# 错误!!容量超出了最大容量。参数名: capacity 这个是什么问题呢?
  3. 唐人街探案3观后感:大四学生的看法
  4. 数据分析面试必考的AB-Test知识点整理
  5. 陀螺仪、罗经、IMU、MEMS四者的区别
  6. 基础编程题之牛客网星际密码
  7. Spry Framework入门(四)——XML数据集排序
  8. ThinkJS 和 Sprite.js 服务端渲染实践
  9. php中until的用法,JavaScript_jQuery中nextUntil()方法用法实例,本文实例讲述了jQuery中nextUntil( - phpStudy...
  10. eclipse主题彻底美化——你还在用白底黑字的编辑器吗?
  11. OneNote | 插件/使用技巧
  12. 什么是 PHP 过滤器?为什么使用过滤器?
  13. Excel一点击编辑就程序卡死
  14. 硬件特征码已达到最大上限_获取硬件特征码(硬盘,网卡,CPU)
  15. AsPack压缩工具
  16. 深度学习的归一化和反归一化
  17. Windows睡眠,CPU风扇仍然运转的问题
  18. 在Jetson Nano上安装RTL8821cu驱动
  19. 损失函数、代价(成本)函数、目标函数
  20. Anniversary party(最基础的树形dp)

热门文章

  1. unity 天空盒_使用Substance in Unity搭建Unity和SP的live link实时互通环境
  2. Linux中内存buffer和cache的区别
  3. sqlite学习笔记7:C语言中使用sqlite之打开数据库
  4. ionic2.0禁止横屏模式
  5. 织梦后台不显示验证码的解决
  6. JDBC 利用反射技术将查询结果封装为对象(简单ORM实现)
  7. C# 安装部署,关于自定义操作,不能被执行。
  8. ibatis.net私人学习资料,勿下(加密)
  9. 被快乐×××的许晴-----平淡的生活中寻找快乐
  10. python向字典中添加值