摘要: 本套自测题专为SVM及其应用而设计,目前超过550人注册了这个测试,最终得满分的人却很少,[doge],一起来看看你的SVM知识能得多少分吧,顺便还能查漏补缺哦。

Introduction

机器学习强大如一座军械库,里面有各种威力惊人的武器,不过你首先得学会如何使用。举个栗子,回归(Regression)是一把能够有效分析数据的利剑,但它对高度复杂的数据却束手无策。支持向量机(Support Vector Machines,SVM)就好比一把锋利的小刀,特别是在小数据集上建模显得更为强大有力。

本套测试题专为SVM及其应用而设计,目前超过550人注册了这个测试(排行榜),一起来看看你的SVM知识能得多少分吧,顺便还能查漏补缺。

Helpful Resources

1.十大常用机器学习算法(附Python和R代码)

2.SVM原理及代码

Skill test Questions and Answers

假定你用一个线性SVM分类器求解二类分类问题,如下图所示,这些用红色圆圈起来的点表示支持向量,据此回答问题1和2:

1.如果移除这些圈起来的数据,决策边界(即分离超平面)是否会发生改变?

A.Yes     B. No

答案:A

Tips: 如果改变这三个点中任意一个点的位置就会引入松弛约束条件,决策边界就会发生变化。

2. 如果将数据中除圈起来的三个点以外的其他数据全部移除,那么决策边界是否会改变?

A.True    B. False

答案:B

Tips: 决策边界只会被支持向量影响,跟其他点无关。

3.关于SVM泛化误差描述正确的是

A.超平面与支持向量之间距离

B.SVM对未知数据的预测能力

C.SVM的误差阈值

答案:B

Tips: 统计学中的泛化误差是指对模型对未知数据的预测能力。

4. 如果惩罚参数C趋于无穷,下面哪项描述是正确的?

A.若最优分离超平面存在,必然能够将数据完全分离

B.软间隔分类器能够完成数据分类

C.以上都不对

答案:A

Tips: 如果误分类惩罚很高,软间隔不会一直存在,因为没有更多的误差空间

5. 以下关于硬间隔描述正确的是

A.SVM允许分类存在微小误差

B.SVM允许分类是有大量误差

C.以上均不正确

答案:A

Tips: 硬间隔意味着SVM在分类时很严格,在训练集上表现尽可能好,有可能会造成过拟合。

6. 训练SVM的最小时间复杂度为O(n2),那么一下哪种数据集不适合用SVM?

A.大数据集     B. 小数据集   C. 中等大小数据集    D. 和数据集大小无关

答案:A

有明确分类边界的数据集最适合SVM

7. SVM的效率依赖于:

A.核函数的选择  B. 核参数  C. 软间隔参数C  D. 以上所有

答案:D

Tips: SVM的效率依赖于以上三个基本要求,它能够提高效率,降低误差和过拟合

8. 支持向量是那些最接近决策平面的数据点。

A.TRUE    B. FALSE

答案:A

9. SVM在下列那种情况下表现糟糕:

A.线性可分数据  B. 清洗过的数据   C. 含噪声数据与重叠数据点

答案:C

Tips: 当数据中含有噪声数据与重叠的点时,要画出干净利落且无误分类的超平面很难

10. 假定你使用了一个很大γ值的RBF核,这意味着:

A. 模型将考虑使用远离超平面的点建模

B.模型仅使用接近超平面的点来建模

C.模型不会被点到超平面的距离所影响

D.以上都不正确

答案:B

Tips: SVM调参中的γ衡量距离超平面远近的点的影响。对于较小的γ,模型受到严格约束,会考虑训练集中的所有点,而没有真正获取到数据的模式、对于较大的γ,模型能很好地学习到模型。

11.SVM中的代价参数表示:

A.交叉验证的次数

B.使用的核

C.误分类与模型复杂性之间的平衡

D.以上均不是

答案:C

Tips:代价参数决定着SVM能够在多大程度上适配训练数据。如果你想要一个平稳的决策平面,代价会比较低;如果你要将更多的数据正确分类,代价会比较高。可以简单的理解为误分类的代价。

假定你使用SVM学习数据X,数据X里面有些点存在错误。现在如果你使用一个二次核函数,多项式阶数为2,使用松弛变量C作为超参之一,请回答12-13。

12.当你使用较大的C(C趋于无穷),则:

A.仍然能正确分类数据

B.不能正确分类

C.不确定

D.以上均不正确

答案:A

Tips: 采用更大的C,误分类点的惩罚就更大,因此决策边界将尽可能完美地分类数据。

13.如果使用较小的C(C趋于0),则:

A.误分类

B.正确分类

C.不确定

D.以上均不正确

答案:A

Tips:分类器会最大化大多数点之间的间隔,少数点会误分类,因为惩罚太小了。

14.如果我使用数据集的全部特征并且能够达到100%的准确率,但在测试集上仅能达到70%左右,这说明:

A.欠拟合   B.模型很棒   C.过拟合

答案:C

Tips:如果在训练集上模型很轻易就能达到100%准确率,就要检查是否发生过拟合。

15.下面哪个属于SVM应用

A.文本和超文本分类

B.图像分类

C.新文章聚类

D.以上均是

答案:D

Tips: SVM广泛应用于实际问题中,包括回归,聚类,手写数字识别等。

假设你训练SVM后,得到一个线性决策边界,你认为该模型欠拟合。据此回答16-18题:

16.在下次迭代训练模型时,应该考虑:

A.增加训练数据

B.减少训练数据

C.计算更多变量

D.减少特征

答案:C

Tips:由于是欠拟合,最好的选择是创造更多特征带入模型训练。

17.假设你在上一题做出了正确的选择,那么以下哪一项会发生:

1.降低偏差

2.降低方差

3.增加偏差

4.降低方差

A.1和2

B.2和3

C.1和4

D.2和4

答案:C

Tips:更好的模型会降低偏差并提高方差

18.假如你想修改SVM的参数,同样达到模型不会欠拟合的效果,应该怎么做?

A.增大参数C

B.减小参数C

C.改变C并不起作用

D.以上均不正确

答案:A

Tips:增大参数C会得到正则化模型

19.SVM中使用高斯核函数之前通常会进行特征归一化,以下关于特征归一化描述正确的是?

1.经过特征正则化得到的新特征优于旧特征

2.特征归一化无法处理类别变量

3.SVM中使用高斯核函数时,特征归一化总是有用的

A.1    B. 1 and 2    C. 1 and 3    D. 2 and 3

答案:B

假定你使用SVM来处理4类分类问题,你使用了one-vs-all策略,据此回答20-22

20.此种情况下要训练SVM模型多少次?

A.1

B.2

C. 3

D. 4

答案:D

Tips:使用one-vs-all策略就要训练4次 ,每次把一个类当成正类,其他的类当作负类,然后学习出4个模型,对新数据取函数值最大的那个类作为预测类别

21. 假定用one-vs-all训练一次SVM要10秒,那么总共应该训练多少秒?

A.20

B.40

C.60

D.80

答案:B

Tips:每个训练10秒,要训练4次,那就是40秒

22. 假设现在只有两个类,这种情况下SVM需要训练几次?

A.1

B.2

C.3

D.4

答案:A

Tips:两个类训练1次就可以了

假设你训练了一个基于线性核的SVM,多项式阶数为2,在训练集和测试集上准确率都为100%,据此回答23-24

23. 如果增加模型复杂度或核函数的多项式阶数,将会发生什么?

A.导致过拟合

B.导致欠拟合

C.无影响,因为模型已达100%准确率

D.以上均不正确

答案:A

Tips:增加模型复杂度会导致过拟合

24. 如果增加模型复杂度之后,你发现训练集上准确率还是100%,可能是什么原因造成的?

1.数据不变,适配更多的多项式项或参数,算法开始记忆数据中的一切

2.数据不变,SVM不必在更大的假设空间中搜索分类超平面

A.1

B.2

C.1 and 2

D.以上均不正确

答案:C

25.以下关于SVM核函数说法正确的是

1. 核函数将低维数据映射到高维空间

2. 是一个相似度函数(similarity function)

A.1

B.2

C.1 and 2

D.以上均不正确

答案:C

Overall Distribution

至今超过350人参与了这项测试,得分分布情况如下:

原文链接

干货好文,请关注扫描以下二维码:


考察数据科学家支持向量机(SVM)知识的25道题,快来测测吧相关推荐

  1. 为什么我劝你不要当数据科学家?

    作者丨Chris 译者丨Sambodhi 策划丨陈思 数据科学家这一职位越来越火热,人人都想从事数据科学,这不仅因为这份工作听上去高大上,更重要的是,它真的是一份高薪的工作.但是,数据科学家是人人都能 ...

  2. 如何成为一名数据科学家?(二)

    联合编译:Blake.高斐 编者注:作者Alec Smith是数据科学领域中资深HR,之所以写这篇文章是因为经常被问到一个问题:"如何才能获得一份数据科学家的职位?" 不仅这个问题 ...

  3. 21天混入数据科学家队伍

    2019独角兽企业重金招聘Python工程师标准>>> 在KDnuggets上,<检测伪数据科学家的20个问题>是1月份阅读量最高的文章,由于作者只是提问而没有给出答案, ...

  4. 中国数据科学家年薪有多少?

    近日,数据科学社群Kaggle发布了数据科学/机器学习业界现状调查报告.这份调查问卷的受访者囊括了全球50多个国家的16,000多位从业者,根据他们的问卷结果,大讲台老师带大家看看中国数据科学家的现状 ...

  5. OpenCV之ml 模块. 机器学习:支持向量机(SVM)介绍 支持向量机对线性不可分数据的处理

    支持向量机(SVM)介绍 目标 本文档尝试解答如下问题: 如何使用OpenCV函数 CvSVM::train 训练一个SVM分类器, 以及用 CvSVM::predict 测试训练结果. 什么是支持向 ...

  6. 世界最牛的25位顶尖大数据科学家

    从三个类别对这25位大师进行简介,虽然这个分类可能并不那么恰当,但是可以加深读者对他(她)们的了解. 科研学术界大师(Research Oriented Data Scientists) 这些科学家全 ...

  7. 当今世界最牛的25位顶尖大数据科学家

    在大数据技术飞速发展的今天,谁才是我们大数据科研与工业界中最有威望的科学家呢?下面我们来进行梳理,共罗列了25位当今世界,无论是在学术与工业界都产生巨大影响的数据科学家(Data Scientists ...

  8. 从图像处理到语音识别,25款数据科学家必知的深度学习开放数据集

    选自Analytics Vidhya,作者:Pranav Dar,机器之心编译. 本文介绍了 25 个深度学习开放数据集,包括图像处理.自然语言处理.语音识别和实际问题数据集. 介绍 深度学习(或生活 ...

  9. svm多分类_人工智能科普|机器学习重点知识——支持向量机SVM

    作为模式识别或者机器学习的爱好者,同学们一定听说过支持向量机这个概念,这可是一个,在机器学习中避不开的重要问题. 其实关于这个知识点,有一则很通俗有趣的传说: 很久以前,一个村庄里住着一位退隐的大侠, ...

最新文章

  1. magento 为用户注册增加一个字段(转)
  2. 导出Excel出现“异常来自 HRESULT:0x800A03EC”错误的解决方法(已验证)
  3. pentaho中Invalid byte 3 of 3-byte UTF-8 sequence的解决方法
  4. python3中的dict循环性能对比
  5. DCMTK:xmlParser的测试程序
  6. 轩逸车联网功能怎么用_手机上面的NFC功能怎么用的
  7. zabbix-server-mysql安装_zabbix server 安装部署
  8. 怎么实现hover_写CSS动效的常用套路(附demo的效果实现与源码)
  9. ECharts 定制 label 样式
  10. php curl 模拟Host,php模拟用户请求之CURL
  11. 创建一个1000w个随机浮点数的数组
  12. 河南大学软件学院宿舍楼综合布线设计方案
  13. 炫酷神器,AE插件Bodymovin.zxp的安装与使用
  14. Debian11 安装Chromium浏览器
  15. 统信UOS应用商店十月活动
  16. 【极富参考价值!】第1章 ClickHouse 简介《ClickHouse 企业级大数据分析引擎实战》...
  17. GTX1060安装gpu版tensorflow经验分享
  18. 【文字识别】OCR截图文字识别提取(无需安装)拖拽图片,打开图片,图片PDF转文字的好帮手
  19. 志愿者管理系统 php,志愿者信息管理系统
  20. Android开发 TextView

热门文章

  1. xml建模包括以下_为什么要进行建模仿真?
  2. php字符长度函数漏洞 ctf,CTF中常见php-MD5()函数漏洞
  3. leetcode 111 --- 二叉树最小深度
  4. linux7yum安装mysql,CentOS7 使用yum安装mysql
  5. python怎么导入os模块_python之os模块
  6. linux 7查内核,查看CentOS7内核版本及发行版本
  7. csky linux 编译内核,TQ2440的EmbedSky_hello模块编译内核问题及解决
  8. tomcat配置自动服务器地址,修改eclipse部署tomcat时服务器部署地址
  9. godaddy修改php版本,Godaddy美国主机Plesk面板修改PHP版本教程
  10. 与「韦神」齐名,他35岁任教清华!18岁一战成名,数学界颜值巅峰