牛客习题讲解收集(以下数据均来自牛客网):
01.关于 logit 回归和 SVM 不正确的是()
A.Logit回归目标函数是最小化后验概率
B.Logit回归可以用于预测事件发生概率的大小
C.SVM目标是结构风险最小化
D.SVM可以有效避免模型过拟合
解析:答案:A
A. Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。A错误 B. Logit回归的输出就是样本属于正类别的几率,可以计算出概率,正确 C. SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化,严格来说也是错误的。 D. SVM可以通过正则化系数控制模型的复杂度,避免过拟合。
Logit回归主要是用来计算一个事件发生的概率,即该事件发生的概率与该事件不发生的概率的比值。而最小化后验概率是朴素贝叶斯算法要做的,混淆了概念。

02.在其他条件不变的前提下,以下哪种做法容易引起机器学习中的过拟合问题()
A.增加训练集量
B.减少神经网络隐藏层节点数
C.删除稀疏的特征
D.SVM算法中使用高斯核/RBF核代替线性核
解析:答案:D
一般认为,增加隐层数可以降低网络误差(也有文献认为不一定能有效降低),提高精度,但也使网络复杂化,从而增加了网络的训练时间和出现“过拟合”的倾向, svm高斯核函数比线性核函数模型更复杂,容易过拟合

径向基(RBF)核函数/高斯核函数的说明
这个核函数可以将原始空间映射到无穷维空间。对于参数 ,如果选的很大,高次特征上的权重实际上衰减得非常快,实际上(数值上近似一下)相当于一个低维的子空间;反过来,如果选得很小,则可以将任意的数据映射为线性可分——当然,这并不一定是好事,因为随之而来的可能是非常严重的过拟合问题。不过,总的来说,通过调整参数 ,高斯核实际上具有相当高的灵活性,也是 使用最广泛的核函数 之一。

03.机器学习中做特征选择时,可能用到的方法有?
A.卡方
B.信息增益
C.平均互信息
D.期望交叉熵

答案: A B C D
在文本分类中,首先要对数据进行特征提取,特征提取中又分为特征选择和特征抽取两大类,在特征选择算法中有互信息,文档频率,信息增益,卡方检验以及期望交叉熵。
期望交叉熵,以文本分类为例子,期望交叉熵用来度量一个词对于整体的重要程度。
在ID3决策树中,也使用信息增益作为特征选择的方法,在C4.5决策树中,使用信息增益比作为特征选择的方法,在CART中,使用基尼指数作为特征选择的方法

特征提取算法
特征提取算法分为特征选择和特征抽取两大类
特征选择
一。常采用特征选择方法。常见的六种特征选择方法:
1).DF(Document Frequency) 文档频率
DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性
2).MI(Mutual Information) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向”低频”的特征词。相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。

3).(Information Gain) 信息增益法
通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。

4).CHI(Chi-square) 卡方检验法
利用了统计学中的”假设检验”的基本思想:首先假设特征词与类别直接是不相关的
如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。

5).WLLR(Weighted Log Likelihood Ration)加权对数似然
6).WFO(Weighted Frequency and Odds)加权频率和可能性

二。特征抽取(降维):PCA等

04.在统计模式识分类问题中,当先验概率未知时,可以使用()?

A.最小损失准则
B.N-P判决
C.最小最大损失准则
D.最小误判概率准则

正确答案: B C
对于选项A:最小损失准则中需要用到先验概率
对于选项B:
在贝叶斯决策中,对于先验概率p(y),分为已知和未知两种情况。

  1. p(y)已知,直接使用贝叶斯公式求后验概率即可;
  2. p(y)未知,可以使用聂曼-皮尔逊决策(N-P决策)来计算决策面。
    聂曼-皮尔逊决策(N-P判决)可以归结为找阈值a,即:
    如果p(x|w1)/p(x|w2)>a,则 x属于w1;
    如果p(x|w1)/p(x|w2)<a,则 x属于w 2;
    对于选项C: 最大最小损失规则主要就是使用解决最小损失规则时先验概率未知或难以计算的问题的。
    对于选项D:

05.以下说法中正确的是()

A.SVM对噪声(如来自其他分布的噪声样本)鲁棒
B.在AdaBoost算法中,所有被分错的样本的权重更新比例相同
C. Boosting和Bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率决定其权重
D.给定n个数据点,如果其中一半用于训练,一般用于测试,则训练误差和测试误差之间的差别会随着n的增加而减少

正确答案: B D
1)、SVM对噪声(如来自其他分布的噪声样本)鲁棒
SVM本身对噪声具有一定的鲁棒性,但实验证明,是当噪声率低于一定水平的噪声对SVM没有太大影响,但随着噪声率的不断增加,分类器的识别率会降低。
2)、在AdaBoost算法中所有被分错的样本的权重更新比例相同
AdaBoost算法中不同的训练集是通过调整每个样本对应的权重来实现的。开始时,每个样本对应的权重是相同的,即其中n为样本个数,在此样本分布下训练出一弱分类器。对于分类错误的样本,加大其对应的权重;而对于分类正确的样本,降低其权重,这样分错的样本就被凸显出来,从而得到一个新的样本分布。在新的样本分布下,再次对样本进行训练,得到弱分类器。以此类推,将所有的弱分类器重叠加起来,得到强分类器。
3)、Boost和Bagging都是组合多个分类器投票的方法,二者均是根据单个分类器的正确率决定其权重。
Bagging与Boosting的区别:取样方式不同。Bagging采用均匀取样,而Boosting根据错误率取样。Bagging的各个预测函数没有权重,而Boosting是由权重的,Bagging的各个预测函数可以并行生成,而Boosing的各个预测函数只能顺序生成。

Adaboost与Bagging的区别:
采样方式:Adaboost是错误分类的样本的权重较大实际是每个样本都会使用;Bagging采用有放回的随机采样;
基分类器的权重系数:Adaboost中错误率较低的分类器权重较大;Bagging中采用投票法,所以每个基分类器的权重系数都是一样的。
Bias-variance权衡:Adaboost更加关注bias,即总分类器的拟合能力更好;Bagging更加关注variance,即总分类器对数据扰动的承受能力更强。

以上答案参考http://www.cnblogs.com/Miranda-lym/p/5194922.html

06.已知两个一维模式类别的类概率密度函数为:

先验概率P(ω1)=0.6;P(ω2)=0.4,则样本{x1=1.35,x2=1.45,x3=1.55,x4=1.65}各属于哪一类别?

A. X4 ∈ w2
B. X3 ∈ w1
C. X2 ∈ w1
D. X1 ∈ w1

正确答案: A B C D
比较后验概率 p(ω|x) , 哪个类的后验概率大 , 就属于哪个类。
后验概率 : p(ω|x)=p(x| ω )p( ω )/p(x), 分母 p(x ) 总是常数可以忽略 , 先验概率 p( ω ) 已知 , 计算类条件概率 p( x| ω ) , 即可得到后验概率 .
举例 :
x_1=1.35, p( ω_1| x_1 )=(2-1.35)*0.6/ p(x )=0.39 / p(x ) , p( ω_2| x_1 )=(1.35-1)*0.4/ p(x )=0.14 / p(x ) , p( ω_1| x_1 )> p( ω_2| x_1 ),
故 x_1 ∈ ω_1 . 其它同理.
(可参考《数据挖掘导论》P141的5.3贝叶斯分类器)

概率问题基本上都是贝叶斯和全概率互相扯蛋,,他们之间往往可以通过条件概率建立联系。
本题中,要判断 xi 属于w1,还是w2,就是判断 p(w1 | xi) 和 p(w2 | xi)的大小关系。即在xi已经发生的情况下,xi 属于哪个类别(w1 ,w2)的可能性更大。
p(w1 | xi) = p(xiw1) / p(xi) = p(xi | w1) * p(w1) / p(xi) = 0.6*(2 - xi) / p(xi) // 因为xi都在 (1,2)范围
p(w2 | xi) = p(xiw2) / p(xi) = p(xi | w2) * p(w2) / p(xi) = 0.4*(xi - 1) / p(xi) // 因为xi都在 (1,2)范围
上面两等式相减,得:
delta = p(w1 | xi) - p(w2 | xi) = (1.6 - xi) / p(xi)
所以,在上诉样本中,大于1.6的,属于w2,小于1.6的,属于w1。
看了很多公司的概率题基本上都是在贝叶斯和全概率上面扯,掌握这个套路就行。

07.类域界面方程法中,不能求线性不可分情况下分类问题近似或精确解的方法是?
A.伪逆法
B.感知器算法
C.基于二次准则的H-K算法
D.势函数法

答案: B
伪逆法:径向基(RBF)神经网络的训练算法,径向基解决的就是线性不可分的情况。
感知器算法:线性分类模型。
H-K算法:在最小均方误差准则下求得权矢量,二次准则解决非线性问题。
势函数法:势函数非线性。
08.深度学习是当前很热门的机器学习算法。在深度学习中,涉及到大量矩阵相乘,现在需要计算三个稠密矩阵A,B,C的乘积ABC,假设三个矩阵的尺寸分别为mn,np,p*q,且m<n<p<q,以下计算顺序效率最高的是:()

A: A(BC)
B: (AB)C
C: (AC)B
D: 所有效率都相同

答案:B
解析:
ab,bc两矩阵相乘效率为acb
A:(AB)C = mnp + mpq,
B: A(BC)=npq + mnq.
C. 错误,因为n和p不相等。
mnp<mnq,mpq< npq, 所以 (AB)C 最小

09.下列哪个不属于常用的文本分类的特征选择算法?

卡方检验值
互信息
信息增益
主成分分析

正确答案: D
常采用特征选择方法。常见的六种特征选择方法:
1)DF(Document Frequency) 文档频率
DF:统计特征词出现的文档数量,用来衡量某个特征词的重要性
2)MI(Mutual Information) 互信息法
互信息法用于衡量特征词与文档类别直接的信息量。
如果某个特征词的频率很低,那么互信息得分就会很大,因此互信息法倾向"低频"的特征词。
相对的词频很高的词,得分就会变低,如果这词携带了很高的信息量,互信息法就会变得低效。
3)(Information Gain) 信息增益法
通过某个特征词的缺失与存在的两种情况下,语料中前后信息的增加,衡量某个特征词的重要性。
4)CHI(Chi-square) 卡方检验法
利用了统计学中的"假设检验"的基本思想:首先假设特征词与类别直接是不相关的
如果利用CHI分布计算出的检验值偏离阈值越大,那么更有信心否定原假设,接受原假设的备则假设:特征词与类别有着很高的关联度。
5)WLLR(Weighted Log Likelihood Ration)加权对数似然
6)WFO(Weighted Frequency and Odds)加权频率和可能性

主成分分析是特征转换算法(特征抽取),而不是特征选择
特征提取算法分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验,卡方检验等。
主成分分析不是文本分类特征选择算法。
所以选择D

10.下列哪些方法可以用来对高维数据进行降维:

LASSO
主成分分析法
聚类分析
小波分析法
线性判别法
拉普拉斯特征映射

正确答案: A B C D E F

lasso通过参数缩减达到降维的目的;
pca就不用说了
线性鉴别法即LDA通过找到一个空间使得类内距离最小类间距离最大所以可以看做是降维;
小波分析有一些变换的操作降低其他干扰可以看做是降维
拉普拉斯请看这个http://f.dataguru.cn/thread-287243-1-1.html
Lasso(Least absolute shrinkage and selection operator, Tibshirani(1996)) 方法是一种压缩估计,它通过构造一个罚函数得到一个较为精炼的模型,使得它压缩一些系数,同时设定一些系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。Lasso 的基本思想是在回归系数的绝对值之和小于一个常数的约束条件下,使残差平方和最小化,从而能够产生某些严格等于 0 的回归系数,得到可以解释的模型。lasso通过参数缩减达到降维的目的;
B 聚类分析,也是一种降维方法,先分大类,再细分小类。这样子也是将数据集降维,也是一种降维思想吧

在()情况下,用分支定界法做特征选择计算量相对较少?
正确答案: B D 你的答案: B C D (错误)

选用的可分性判据J具有可加性

选用的可分性判据J对特征数目单调不减

样本较多

该算法的主要思路是:定义一个满足单调性条件的评价准则函数,对两个特征子集S1和S2而言,如果S1是S2的子集, 那么S1所对应的评价函数值必须要小于S2所对应的评价函数值,在定义了该评价函数的前提下,该算法对最终特征子集的选择过程可以用一棵树来描述,树根是所有特征的集合从树根可分性判据值和事先定义的最佳特征子集的特征数目,搜索满足要求的特征子集
但存在3个问题:
1于该算法无法对所有的特征依据其重要性进行排序!如何事先确定最优特征子集中特征的数目是一个很大的问题
2合乎问题要求的满足单调性的可分性判据难以设计
3当处理高维度多分类问题时!算法要运行多次!计算效率低下的问题将非常明显

11.统计模式分类问题中,当先验概率未知时,可以使用()
正确答案: A D 你的答案: C D (错误)

最小最大损失准则
最小误判概率准则
最小损失准则
N-P判决

A. 考虑p(wi)变化的条件下,是风险最小
B. 最小误判概率准则, 就是判断p(w1|x)和p(w2|x)哪个大,x为特征向量,w1和w2为两分类,根据贝叶斯公式,需要用到先验知识
C. 最小损失准则,在B的基础之上,还要求出p(w1|x)和p(w2|x)的期望损失,因为B需要先验概率,所以C也需要先验概率
D. N-P判决,即限定一类错误率条件下使另一类错误率为最小的两类别决策,即在一类错误率固定的条件下,求另一类错误率的极小值的问题,直接计算p(x|w1)和p(x|w2)的比值,不需要用到贝叶斯公式。

12.下列时间序列模型中,哪一个模型可以较好地拟合波动性的分析和预测:
AR模型
MA模型
ARMA模型
GARCH模型
正确答案: D
解析:
AR模型:自回归模型,是一种线性模型
MA模型:移动平均法模型,其中使用趋势移动平均法建立直线趋势的预测模型
ARMA模型:自回归滑动平均模型,拟合较高阶模型
GARCH模型:广义回归模型,对误差的方差建模,适用于波动性的分析和预测

牛客《机器学习》习题收集整理相关推荐

  1. 牛客网错题整理--C++篇1

    牛客网错题整理--C++篇1 1.下列程序的运行结果是PP 10003,请为横线处选择合适的程序(): #include<stdio.h>#include<string.h>s ...

  2. 牛客竞赛习题:这个合理吗? [C语言解法]

    链接:登录-专业IT笔试面试备考平台_牛客网 来源:牛客网 时间限制:C/C++ 1秒,其他语言2秒 空间限制:C/C++ 262144K,其他语言524288K 64bit IO Format: % ...

  3. 牛客网习题之牛妹的蛋糕

    牛妹的蛋糕 简单分析题目: 已知第n天的时候还剩一个蛋糕,假设第n-1天 也就是前一天有x个蛋糕 那么 x-x*(1/3)-1=1 右边的1是后一天的数目 所以x=2*3/2=3 所以递推得到假设算出 ...

  4. 旷视面经总结(来源牛客面经收集)

    编程题 用numpy来实现一个图像的两倍双线性插值.这题是底层计算机视觉,尤其是做超分辨率方向的同学的必修课,所以比较简单,想了解的同学可以去搜索一下. 实现滑窗中位数,即input:[1,2,1,9 ...

  5. 牛客动态规划习题:Min酱要旅行(背包变种)

    TP地址 题意: 很清晰不赘述 思路: 一开始写想到普通背包那样,来回两个方向逼近中间某个物品,对每个物品枚举左右物品选的体积,加起来保证为背包大小.但很可惜时间复杂度为 O(N∗M∗M)O(N*M* ...

  6. 【牛客】网易2018校招数据分析师笔试解析

    [牛客]网易2018校招数据分析师笔试解析 * 选择题根据牛客网下方讨论整理,三道大题均为自己答案,欢迎大家讨论并给予指正. (https://www.nowcoder.com/test/107788 ...

  7. 【牛客】网易2018实习生招聘笔试题——数据分析师实习生解析

    [牛客]网易2018实习生招聘笔试题--数据分析师实习生解析 * 选择题根据牛客网下方讨论整理,三道大题均为自己答案,欢迎大家讨论并给予指正. (https://www.nowcoder.com/te ...

  8. 声明:此资源由本博客收集整理于网络,只用于交流学习,请勿用作它途。如有侵权,请联系, 删除处理。...

    声明:此资源由本博客收集整理于网络,只用于交流学习,请勿用作它途.如有侵权,请联系, 删除处理. 转载于:https://www.cnblogs.com/hackhyl/p/11365581.html

  9. 2016面试整理--来源牛客网

    马上国庆节了,首先祝大家最后都能有个满意的offer,国庆几天好好养精蓄锐. 我经常在牛客群里水群,应该不少人看我眼熟的. 本人是一个杭州渣硕,本科也很一般,和211 985半点都粘不到,没有参加过A ...

  10. 牛客小白月赛22 D.收集纸片

    牛客小白月赛22 D.收集纸片 题目描述 我们把房间按照笛卡尔坐标系进行建模之后,每个点就有了一个坐标. 假设现在房子里有些纸片需要被收集,收集完纸片你还要回归到原来的位置,你需要制定一个策略来使得自 ...

最新文章

  1. XSS实战攻击思路总结
  2. hana 表空间_oracle currentval
  3. require无法使用变量_被框架玩坏的孩子们浏览器环境下使用require
  4. MySQL首次使用Windows_mysql的安装与使用(windows)
  5. Windows环境下查看Java进程ID,找到java程序对应的进程pid
  6. maven打包时加入依赖jar包
  7. c 语言tcp实现电子词典项目
  8. 企业全面运营管理沙盘模拟心得_企业经营沙盘模拟心得总结
  9. apache camel_使用Apache Camel开始使用REST服务
  10. 频率变标算法(FSA,Frequency Scaling)
  11. 2005冬季转会名单-PS
  12. 【AD系列教程】在PCB中加入任意图形
  13. Java 实现顺时针螺旋二维数组输出
  14. linux setlocale函数,linux中的多语言环境(LC_ALL, LANG, locale)
  15. iOS 初探代码混淆(OC)
  16. 浅谈UML---类图
  17. python io流a+_python io流
  18. 利用MATLAB进行人脸识别
  19. 公众号粉丝引流的八个方法
  20. FBX SDK对象模型

热门文章

  1. tomcat stdout文件快速增长原因_Tomcat下载安装及配置
  2. matplotlib官方文档pdf_Matplotlib知识
  3. dsh linux,通过dsh批量管理Linux服务器(一)【感谢作者的无私分享】
  4. java砖头铺路面试题,Java基础知识面试题
  5. 用fpga实现永磁同步电机控制_永磁同步电机控制系统仿真系列文章—旋转变压器...
  6. SQL:mysql将datetime类型数据格式化
  7. Go基础:数组、切片与指针
  8. 计算机组成原理:二进制与十进制互转
  9. SQL:postgresql求多个点组成的多边形的geom数据
  10. 网络_远程开机(ubuntu)