1、下列哪些不适合用来对高维数据进行降维

A  LASSO          B  主成分分析法            C  聚类分析          D  小波分析法           E  线性判别法          F  拉普拉斯特征映射

解析:

之前的解析略有问题,现完善如下。LASSO通过参数缩减达到降维的目的;
主成分分析法(PCA)通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维;
线性鉴别法(LDA)通过降维找到一个类内距离最小、类间距离最大的空间实现分类;
小波分析有一些变换的操作降低其他干扰,可以看做是降维;
拉普拉斯特征映射将处于流形上的数据,在尽量保留原数据间相似度的情况下,映射到低维下表示,实现降维;
聚类分析不能用来对高维数据进行降维。正解C
4、以下哪个是常见的时间序列算法模型

A  RSI     B  MACD     C  ARMA      D  KDJ

解析:

自回归滑动平均模型(ARMA)
其建模思想可概括为:逐渐增加模型的阶数,拟合较高阶模型,直到再增加模型的阶数而剩余残差方差不再显著减小为止。其他三项都不是一个层次的。
A.相对强弱指数 (RSI, Relative Strength Index) 是通过比较一段时期内的平均收盘涨数和平均收盘跌数来分析市场买沽盘的意向和实力 , 从而作出未来市场的走势 .
B.移动平均聚散指标 (MACD, Moving Average Convergence Divergence), 是根据均线的构造原理 , 对股票价格的收盘价进行平滑处理 , 求出算术平均值以后再进行计算 , 是一种趋向类指标 .
D. 随机指标 (KDJ) 一般是根据统计学的原理 , 通过一个特定的周期 ( 常为 9 日 ,9 周等 ) 内出现过的最高价 , 最低价及最后一个计算周期的收盘价及这三者之间的比例关系 , 来计算最后一个计算周期的未成熟随机值 RSV, 然后根据平滑移动平均线的方法来计算 K 值 , D 值与 J 值 , 并绘成曲线图来研判股票走势 .

正解C

5、下列不是SVM核函数的是

A   多项式核函数        B   logistic核函数       C   径向基核函数         D   Sigmoid核函数

解析:

SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数。核函数的定义并不困难,根据泛函的有关理论,只要一种函数 K ( x i , x j ) 满足Mercer条件,它就对应某一变换空间的内积.对于判断哪些函数是核函数到目前为止也取得了重要的突破,得到Mercer定理和以下常用的核函数类型:
(1)线性核函数
K ( x , x i ) = x ⋅ x i
(2)多项式核
K ( x , x i ) = ( ( x ⋅ x i ) + 1 ) d
(3)径向基核(RBF)
K ( x , x i ) = exp ( − ∥ x − x i ∥ 2 σ 2 )
Gauss径向基函数则是局部性强的核函数,其外推能力随着参数 σ 的增大而减弱。多项式形式的核函数具有良好的全局性质。局部性较差。
(4)傅里叶核
K ( x , x i ) = 1 − q 2 2 ( 1 − 2 q cos ( x − x i ) + q 2 )
(5)样条核
K ( x , x i ) = B 2 n + 1 ( x − x i )
(6)Sigmoid核函数
K ( x , x i ) = tanh ( κ ( x , x i ) − δ )
采用Sigmoid函数作为核函数时,支持向量机实现的就是一种多层感知器神经网络,应用SVM方法,隐含层节点数目(它确定神经网络的结构)、隐含层节点对输入节点的权值都是在设计(训练)的过程中自动确定的。而且支持向量机的理论基础决定了它最终求得的是全局最优值而不是局部最小值,也保证了它对于未知样本的良好泛化能力而不会出现过学习现象。核函数的选择
在选取核函数解决实际问题时,通常采用的方法有:
一是利用专家的先验知识预先选定核函数;
二是采用Cross-Validation方法,即在进行核函数选取时,分别试用不同的核函数,归纳误差最小的核函数就是最好的核函数.如针对傅立叶核、RBF核,结合信号处理问题中的函数回归问题,通过仿真实验,对比分析了在相同数据条件下,采用傅立叶核的SVM要比采用RBF核的SVM误差小很多.
三是采用由Smits等人提出的混合核函数方法,该方法较之前两者是目前选取核函数的主流方法,也是关于如何构造核函数的又一开创性的工作.将不同的核函数结合起来后会有更好的特性,这是混合核函数方法的基本思想.

正解B

7、一般,k-NN最近邻方法在()的情况下效果较好

A  样本较多但典型性不好       B  样本较少但典型性好        C  样本呈团状分布           D  样本呈链状分布

解析:

K近邻算法主要依靠的是周围的点,因此如果样本过多,那肯定是区分不出来的。因此应当选择B
样本呈团状颇有迷惑性,这里应该指的是整个样本都是呈团状分布,这样kNN就发挥不出其求近邻的优势了,整体样本应该具有典型性好,样本较少,比较适宜。

正解B

8、在一个n维的空间中, 最好的检测outlier(离群点)的方法是()

A 作正态分布概率图     B 作盒形图      C 马氏距离       D 作散点图

解析:

马氏距离是基于卡方分布的,度量多元outlier离群点的统计方法。
有M个样本向量X1~Xm,协方差矩阵记为S,均值记为向量μ,则其中样本向量X到u的马氏距离表示为: 

(协方差矩阵中每个元素是各个矢量元素之间的协方差Cov(X,Y),Cov(X,Y) = E{ [X-E(X)] [Y-E(Y)]},其中E为数学期望)
而其中向量Xi与Xj之间的马氏距离定义为:    

若协方差矩阵是单位矩阵(各个样本向量之间独立同分布),则公式就成了:       

也就是欧氏距离了。  
若协方差矩阵是对角矩阵,公式变成了标准化欧氏距离。
(2)马氏距离的优缺点:量纲无关,排除变量之间的相关性的干扰。 
9、对数几率回归(logistics regression)和一般回归分析有什么区别?

A对数几率回归是设计用来预测事件可能性的

B对数几率回归可以用来度量模型拟合程度

C对数几率回归可以用来估计回归系数

D以上所有

解析:

A: 对数几率回归其实是设计用来解决分类问题的
B: 对数几率回归可以用来检验模型对数据的拟合度
C: 虽然对数几率回归是用来解决分类问题的,但是模型建立好后,就可以根据独立的特征,估计相关的回归系数。就我认为,这只是估计回归系数,不能直接用来做回归模型。

正解D

10、bootstrap数据是什么意思?(提示:考“bootstrap”和“boosting”区别)

A有放回地从总共M个特征中抽样m个特征

B无放回地从总共M个特征中抽样m个特征

C有放回地从总共N个样本中抽样n个样本

D无放回地从总共N个样本中抽样n个样本

解析:

boostrap是提鞋自举的意思(武侠小说作者所说的左脚踩右脚腾空而起). 它的过程是对样本(而不是特征)进行有放回的抽样, 抽样次数等同于样本总数. 这个随机抽样过程决定了最终抽样出来的样本, 去除重复之后, 占据原有样本的1/e比例. 

正解C

1、“过拟合”只在监督学习中出现,在非监督学习中,没有“过拟合”,这是()

A 对的           B 错的

解析:

我们可以评估无监督学习方法通过无监督学习的指标,如:我们可以评估聚类模型通过调整兰德系数(adjusted rand score)

过拟合是训练集上表现很好,但是在测试集上表现很差,泛化性能差。

无监督学习应该也是有训练集和测试集的。应该也是有过拟合 的概念的。

正解A

2、对于k折交叉验证, 以下对k的说法正确的是()

A k越大, 不一定越好, 选择大的k会加大评估时间

B 选择更大的k, 就会有更小的bias (因为训练集更加接近总数据集)

C 在选择k时, 要最小化数据集之间的方差

D 以上所有

解析:

k越大, bias越小, 训练时间越长. 在训练时, 也要考虑数据集间方差差别不大的原则. 比如, 对于二类分类问题, 使用2-折交叉验证, 如果测试集里的数据都是A类的, 而训练集中数据都是B类的, 显然, 测试效果会很差.

泛化误差可以分解为偏差(Biase)方差(Variance)噪声(Noise)

3、回归模型中存在多重共线性, 你如何解决这个问题?1 去除这两个共线性变量2 我们可以先去除一个共线性变量3 计算VIF(方差膨胀因子), 采取相应措施4 为了避免损失信息, 我们可以使用一些正则化方法, 比如, 岭回归和lasso回归

A  1   B  2      C  2和3      D  2, 3和4

解析:

解决多重公线性, 可以使用相关矩阵去去除相关性高于75%的变量 (有主观成分). 也可以VIF, 如果VIF值<=4说明相关性不是很高, VIF值>=10说明相关性较高.
我们也可以用 岭回归和lasso回归的带有惩罚正则项的方法. 我们也可以在一些变量上加随机噪声, 使得变量之间变得不同, 但是这个方法要小心使用, 可能会影响预测效果。

正解D

4、模型的高bias是什么意思, 我们如何降低它 ?

A  在特征空间中减少特征

B  在特征空间中增加特征

C  增加数据点

D  B和C

E  以上所有

解析:

bias表示模型预测值的均值与样本实际值的差距,它反映了模型对样本数据的拟合能力。bias越低,说明模型越复杂,参数越多,对样本数据的拟合效果越好,但是容易过拟合;bias越高,说明模型越简单,参数太少,对样本数据的拟合效果不好,这就是欠拟合。
降低bias的方法是增加数据的特征维数,从而实现模型参数的增加,提高模型复杂度,增强模型对样本数据的拟合能力,拟合能力越高bias越低。
增加样本数量并没有增加模型训练时的参数,所以不会提高模型复杂度,也就无法降低bias,C错误。在特征空间中增加特征就是增加样本数据的输入特征维数,所以A错误,B正确。

正解B

5、训练决策树模型, 属性节点的分裂, 具有最大信息增益的图是下图的哪一个()

A  Outlook       B  Humidity         C  Windy         D  Temperature

解析:

之前解析不够完善,特完善如下。信息熵公式:

条件熵公式:

特征X的信息增益:

题干样本数据表格化如图:

原始样本数据信息熵 H(Y)=0.9403bit

Outlook的信息增益 g(Y,X1)=0.2468bit

Humidity的信息增益 g(Y,X2)=0.1518bit

Windy的信息增益 g(Y,X3)=0.0481bit

Temperature的信息增益 g(Y,X4)=0.0292bit

综上所述,信息增益:Outlook > Humidity > Windy > Temperature,答案选A。
此题也可以直接比较条件熵H(Y|X),条件熵越小,信息增益越大。

正解A

6、对于信息增益, 决策树分裂节点, 下面说法正确的是()
1 纯度高的节点需要更多的信息去区分
2 信息增益可以用”1比特-熵”获得
3 如果选择一个属性具有许多归类值, 那么这个信息增益是有偏差的

A  1          B  2           C  2和3         D  所有以上

解析:

如图,5个样本数据按照节点X1的取值被划分到子节点,子节点的类别纯度为100%,故不需要更多的信息(如特征X2)继续划分,1错误。

设类别为随机变量Y,特征为X,则信息增益 = H(Y)-H(Y|X),H(Y)的取值为:[0,log(n)],其中log底数为2,n是随机变量Y的取值个数。
当n=2且正负样本概率均为0.5时,信息熵H(Y) = 1比特。所以信息增益可以用”1比特-熵”来获得,这里的熵即为条件熵H(Y|X),”1比特-熵”加引号意思是在特定情况下的信息增益,所以2正确。
以信息增益作为划分训练数据集的特征,存在偏向于选择值较多的特征的问题,也就是说选择一个属性具有许多归类值所获得的信息增益是有偏差的,使用信息增益比可以对这一问题进行校正。
如图,5个样本数据按照节点X1的取值被划分到子节点,子节点的类别纯度为100%,故不需要更多的信息(如特征X2)继续划分,1错误。设类别为随机变量Y,特征为X,则信息增益 = H(Y)-H(Y|X),H(Y)的取值为:[0,log(n)],其中log底数为2,n是随机变量Y的取值个数。
当n=2且正负样本概率均为0.5时,信息熵H(Y) = 1比特。所以信息增益可以用”1比特-熵”来获得,这里的熵即为条件熵H(Y|X),”1比特-熵”加引号意思是在特定情况下的信息增益,所以2正确。
以信息增益作为划分训练数据集的特征,存在偏向于选择值较多的特征的问题,也就是说选择一个属性具有许多归类值所获得的信息增益是有偏差的,使用信息增益比可以对这一问题进行校正。
正解C
7、下图是同一个SVM模型, 但是使用了不同的径向基核函数的gamma参数, 依次是g1, g2, g3 , 下面大小比较正确的是

A g1 > g2 > g3

B g1 = g2 = g3

C g1 < g2 < g3

D g1 >= g2 >= g3E. g1 <= g2 <= g3

解析:

所谓径向基函数 (Radial Basis Function 简称 RBF), 就是某种沿径向对称的标量函数。 通常定义为空间中任一点x到某一中心点xc之间欧氏距离的单调函数 , 可记作 k(||x-xc||), 其作用往往是局部的 , 即当x远离xc时函数取值很小。最常用的径向基函数是高斯核函数 ,形式为 k(||x-xc||)=exp{- ||x-xc||^2/(2*σ^2) } 其中xc为核函数中心,σ为函数的宽度参数 , 控制了函数的径向作用范围。由radial basis: exp(-gamma*|u-v|^2)可知, gamma越小, 模型越简单, 平滑度越好, 分类边界越不容易过拟合, 所以选C。

正解C

8、假设我们要解决一个二类分类问题, 我们已经建立好了模型, 输出是0或1, 初始时设阈值为0.5, 超过0.5概率估计, 就判别为1, 否则就判别为0 ; 如果我们现在用另一个大于0.5的阈值,  那么现在关于模型说法, 正确的是 :
1 模型分类的召回率会降低或不变
2 模型分类的召回率会升高
3 模型分类准确率会升高或不变
4 模型分类准确率会降低

A 1     B 2       C 1和3     D 2和4       E 以上都不是

解析:

精确率, 准确率和召回率是广泛用于信息检索和统计学分类领域的度量值,用来评价结果的质量。下图可以帮助理解和记忆它们之间的关系, 其中精确率(precision)和准确率(accuracy)都是关于预测效果的描述. 召回率是关于预测样本的描述。
精确率表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了,一种就是把正类预测为正类(TP),另一种就是把负类预测为正类(FP), 也就是P = TP / (TP + FP)。准确率表示的是预测的正负样本有多少是真实的正和负, 预测正确的数量占全部预测数量的比例, 也就是A = (TP + TN) / (TP + FP + TN + FN) = (TP + TN) / 全部样本。召回率表示的是样本中的正例有多少被预测正确了。那也有两种可能,一种是把原来的正类预测成正类(TP),另一种就是把原来的正类预测为负类(FN), 也就是R = TP / (TP + FN)。
精确率和召回率二者计算方法其实就是分母不同,一个分母是预测为正的样本数,另一个是原来样本中所有的正样本数。
提高分界阈值大于0.5, 则预测为正的样本数要降低, 相当于把图中圆圈变小, 按下图则可计算

召回率的分子变小分母不变, 所以召回率会变小或不变;
精确率的分子分母同步变化, 所以精确率的变化不能确定;
准确率的分子为圆内绿色加圆外右侧矩形面积所围样本, 两者之和变化不能确定; 分母为矩形所含全部样本不变化, 所以准确率的变化不能确定;
综上, 所以选A。
9、“点击率问题”是这样一个预测问题, 99%的人是不会点击的, 而1%的人是会点击进去的, 所以这是一个非常不平衡的数据集. 假设, 现在我们已经建了一个模型来分类, 而且有了99%的预测准确率, 我们可以下的结论是

A 模型预测准确率已经很高了, 我们不需要做什么了

B 模型预测准确率不高, 我们需要做点什么改进模型

C 无法下结论              D 以上都不对

解析:

类别不均衡的情况下,不要用准确率做分类评估指标,因为全判断为不会点,准确率也是99%,但是这个分类器一点用都没有。

正解C

10、使用k=1的knn算法, 下图二类分类问题, “+” 和 “o” 分别代表两个类, 那么, 用仅拿出一个测试样本的交叉验证方法, 交叉验证的错误率是多少:

A 0%       B 100%        C 0%到100           D 以上都不是

解析

knn算法就是, 在样本周围看k个样本, 其中大多数样本的分类是A类, 我们就把这个样本分成A类. 显然, k=1 的knn在上图不是一个好选择, 分类的错误率始终是100%。

正解:B

七月在线机器学习单选刷(三)相关推荐

  1. 七月在线机器学习单选刷(二)

    1.以下几种模型方法属于判别式模型(Discriminative Model)的有( ) 1)混合高斯模型 2)条件随机场模型 3)区分度训练 4)隐马尔科夫模型 A 2,3      B 3,4  ...

  2. 七月在线机器学习单选刷(一)

    1.一个二进制源X发出符号集为{-1,1},经过离散无记忆信道传输,由于信道中噪音的存在,接收端Y收到符号集为{-1,1,0}.已知P(x=-1)=1/4,P(x=1)=3/4,P(y=-1|x=-1 ...

  3. 七月在线机器学习中的数学第二期笔记1

    这套笔记是跟着七月在线机器学习中的数学第二期的学习而记录的,主要记一下我再学习机器学习的时候一些概念比较模糊的地方,具体课程参考七月算法官网: 七月 数理统计和参数估计部分 一. 概率与数理统计 首先 ...

  4. 梳理百年深度学习发展史-七月在线机器学习集训营助你把握深度学习浪潮

    作为机器学习最重要的一个分支,深度学习近年来发展迅猛,在国内外都引起了广泛的关注.然而深度学习的火热也不是一时兴起的,而是经历了一段漫长的发展史.接下来我们了解一下深度学习的发展历程. 1. 深度学习 ...

  5. 找工作、备考、面试刷题网站推荐(牛客网、力扣、计蒜客、hihocoder、七月在线)以及acm竞赛oj

    不管是找工作笔试面试白板试进大厂,还是研究生参加初试复试,数据结构和算法都是都是重中之重,刷题就很必要,来拿走自己的offer 吧! 一.offer刷题推荐 1.牛客网 链接:牛客网 - 找工作神器| ...

  6. 1000 面试题,BAT 机器学习面试刷题宝典!

    点击上方,选择星标或置顶,每天给你送干货! 阅读大概需要好多分钟 跟随小博主,每天进步一丢丢 ID:Dr.Wu 公众号:大鱼AI 来源:CSDN 编辑:三石 刷题,是面试前的必备环节.本文作者便总结了 ...

  7. 【CSDN编程周赛第23期】赢七月在线职教平台千元VIP年卡和季卡

    一.报名地址 第23期周赛报名中,1月11日 19点开考(周三):https://edu.csdn.net/contest/detail/37 第22期周赛也在报名中,1月8日 9点开考(周日):ht ...

  8. 的python如何降级_提效降本:蚂蚁金服如何用融合计算改造在线机器学习

    去年春节期间支付宝推出的集五福的活动可谓风靡一时,每张福卡背面都有刮刮卡,里面有来自蚂蚁金服.阿里巴巴以及合作伙伴的上百种权益.集五福的活动集中在春节前的几天,具有很强的时效性.所以如何实现权益和投放 ...

  9. 七月在线python数据分析_七月在线Python基础+数据分析班+爬虫项目

    资源介绍 七月在线Python基础+数据分析班+爬虫项目 目录 ├─Python基础入门班2017年 ││代码.rar │└─视频 │xa0 xa0 01.第1课 入门基础.rar │xa0 xa0 ...

最新文章

  1. CSS中连接属性的排序
  2. java 网络编程简单聊天_网络编程之 TCP 实现简单聊天
  3. java mina多线程_Java多线程基础总结九:Mina窥探(1)
  4. flannel源码分析--newSubnetManager
  5. Java的知识点25——IO、 数据源
  6. Android事件总线
  7. 自定义常用input表单元素二:纯css实现自定义radio单选按钮
  8. vss和vs2008组合搭建源代码管理器
  9. Java程序细胞工厂_Spring Boot实现原理分析
  10. mysql路径猜解_猜解数据库(MYSQL)信息
  11. maven一键部署tomcat war包
  12. UVA10494 If We Were a Child Again【大数除法】
  13. 使用idea创建项目并通过git上传到码云
  14. HomeBrew太慢,如何替换默认HomeBrew源,使用阿里云的源
  15. 2022年整理LeetCode最新刷题攻略分享(附中文详细题解)
  16. python入门(三) 实现QQ自动发送消息
  17. MP3合并(MP3剪切器V2.0)
  18. 正在等待暴雪服务器响应,炉石传说无法通过暴雪战网服务进行登录,炉石传说,“游戏无法将你登陆至战网。请等待几分钟并再次尝试”...
  19. 强制绕过硬件检查,并升级Windows11
  20. 差分进化算法_想用遗传算法?来看看这些已为你做好的开源优化框架

热门文章

  1. 利用AppInventor实现登录功能(完整版)
  2. 医院案例|一次HIS系统卡顿原因排查过程分享
  3. ubuntu16.04登录后一直卡在紫色界面的解决方案
  4. 公安部消防局全面推进“智慧消防”建设
  5. DNSPod十问任可:抑郁症赛道的神奇女侠
  6. license 文件不生效
  7. @RunWith(SpringJUnit4ClassRunner.class)报错
  8. Java多态的概念、优点和用法
  9. 2010河北职称计算机考试,2010河北省职称计算机考试基础知识试题及答案
  10. 香港第一金:美债上升美元走强 黄金暴跌下破199