1,箱形图的基本概念

箱形图(盒形图、盒须图)的理解:https://blog.csdn.net/symoriaty/article/details/93978817

箱形图三种中Q1 Q2 Q3的计算方式:https://blog.csdn.net/ningyanggege/article/details/82625947

三种:数据未分组按照从下到大的顺序计算。1)index正好是整数,直接计算 ;2)index是浮点数时,按照靠近的index左右权重比计算;3)向上累计和向下累计计算。

2,分箱操作

分箱操作是一种数据预处理的方法。目的:将连续变量离散化。

无监督分箱:

(1)等距离(等宽度)分箱:将变量的取值范围分为k个等宽的区间。

L =( max-min)/K  ->     [min,min+L]  [min+L,min+2L],...,[min+(K-1)L,max]

每个等份里面的实例数量可能不等。但是每个等份的长度相等。

(2)等频度(等深度)分箱:将变量按照从小到大的顺序排列,切分成K段。

举例子:销售记录价格排序:5,10,11,13,15,35,50,55,72,92,204,215 按照等频等深划分成四(K=4)个箱。

L = len(记录个数)/K = 12/4= 3。每段共三个数字。 [5,10,11] [13,15,35] [50,55,72],[92,204,215]  故数字15在第二个箱子中。

(3)k聚类分箱

用k均值聚类法将观测值聚为k类,但在聚类过程中需要保证分箱的有序性:第一个分箱中所有观测值都要小于第二个分箱中的观测值,第二个分箱中所有观测值都要小于第三个分箱中的观测值。[笔试应该不会出现,计算太费时间]

有监督分箱:

(1)卡方分箱

(2)Best-KS分箱

分箱评估:特征进行分箱后,需要对分箱后的每组(箱)进行WOE编码或者IV信息量。

参考文献: 【2】【3】有监督分箱。

【1】https://blog.csdn.net/qq_20449731/article/details/54881647?utm_source=blogxgwz3

【2】https://blog.csdn.net/bowenlaw/article/details/104968835?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.channel_param

【3】https://www.cnblogs.com/Christina-Notebook/p/10025470.html

【4】https://blog.csdn.net/qq_15111861/article/details/81531873

3,KMO检验

(1)简单相关系数(相关系数、线性相关系数、皮尔逊相关系数):衡量两个变量之间的线性关系。

(2)偏相关系数:有的时候X和Y之间的简单相关系数不能够很好的表示两者之间的相关性。因为Y可能受到其他因素的影响(多元回归分析中)。因此引入偏相关性系数来看变量之间的相关性。偏相关性就是:固定其他几个变量后,研究剩余两个变量之间的相关性。固定其他变量的时候,研究两个变量之间的关系,才是真的反映关系的。

(3)协方差:衡量两个变量的总体误差。

协方差定义为: Cov(X,Y)= E[(X-EX)(Y-EY)] = EXY-E(X)E(Y)

4,偏差、方差和误差

转自:https://www.cnblogs.com/hutao722/p/9921788.html

偏差(bias)是指训练过程中,训练预测值和真实值之间的偏离关系。每一次(单个模型)迭代训练的出来的模型,都会拿训练集数据预测,偏差就反应在预测值和实际值的匹配度上。准确度为96%,则说明是低偏差;反之,如果准确度只有70%,则说明是高偏差。

模型输出的期望和真实样本标签的差值。

方差是指在训练过程中,预测值的变化波动情况(同一批模型,在不同训练集上的情况,刻画数据扰动对模型的影响),描写的是预测值与预测均值差的平方和再求平均数。通常在深度学习训练中,初始阶段模型复杂度不高,为低方差;随着训练量加大,模型逐步拟合训练数据,复杂度开始变高,此时方差会逐渐变高。

D为不同的数据集,f(x;D)指的是在D训练集上的输出,指的是模型f对于x的输出的期望。

  • 低偏差,低方差:这是训练的理想模型,此时蓝色点集基本落在靶心范围内,且数据离散程度小,基本在靶心范围内;
  • 低偏差,高方差:这是深度学习面临的最大问题,过拟合了。也就是模型太贴合训练数据了,导致其泛化(或通用)能力差,若遇到测试集,则准确度下降的厉害 [模型复杂度高且太满足训练集要求];
  • 高偏差,低方差:这往往是训练的初始阶段 [训练准确率低,模型复杂度低->是一个线性函数,波动变化小];
  • 高偏差,高方差:这是训练最糟糕的情况,准确度差,数据的离散程度也差。

模型复杂度指的是:Y= w1x+b[模型复杂度低]    y=w1x+w2x+w3x+b[模型复杂度高]

泛化误差:f(x;D)指的是在D训练集上的输出,和D样本所带的标签之间的误差均值。(y和yD不同,可能真实样本标签和样本标签是不一致的,体现在工作人员标注的时候搞错了) y和yD体现的是噪声。

我们使用了如下的代价函数来评估泛化误差:

泛化误差 = 方差 + 偏差2 + 噪声

泛化误差一般指的是模型训练的loss值,方差指的是不同训练集下,训练效果和训练输出值之间的关系。偏差是指单一模型中,模型和实际值之间的差值。噪声是样本实际值和样本标注的实际值之间的误差。一般误差都规定为服从标准正态分布。

参考文献:【1】https://blog.csdn.net/stay_foolish12/article/details/89289564?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-5.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-5.channel_param

【2】https://blog.csdn.net/elvirangel/article/details/94549181

【3】https://blog.csdn.net/leichangqing/article/details/89090950

5,混淆矩阵

假设我们要解决一个二分类问题,我们已经建立好了模型,输出为0或1,初始时阈值设为0.5,如果大于0.5则为1,否则为0。如果我们用另一个大于0.5的阈值,那么现在关于模型说法,正确的是(B

A,模型分类准确率会降低

B,模型分类的召回率会降低或者不变

C,模型分类的召回率会升高

D,模型分类的准确率会升高或者不变

由于 Recall = TP/(TP+FN) ,TP+FN= 真实样本中标签为1的数据。所以TP+FN不变。由于阈值大于0.5,则预测为1的数量会降低,那么TP+FP会降低。TP+FP降低包含三种情况:TP低;FP低;TP,FP都低;确率为 (TP+TN)/总数  总数不会变,但是TP和TN不能够直接判定为降低或者升高。TP可能降低,TN可能升高。TP可能不变,TN升高。TP,TN可能都不变。

因此选择B

6,数据缺失值敏感的模型

缺失值参考文献:https://blog.csdn.net/yh0vlde8vg8ep9vge/article/details/78265671

在下列算法中,对于缺失值敏感的模型为(A):

A. Logistic Regression(逻辑回归)   B. 随机森林    C. C4.5     D. 朴素贝叶斯

BC基于树模型,对缺失值敏感度低;D朴素贝叶斯对缺失值也比较稳定;B逻辑回归是线性模型,对缺失值敏感。

经验法则(rule of thumb)供参考:

  • 树模型对于缺失值的敏感度较低,大部分时候可以在数据有缺失时使用。

  • 涉及到距离度量(distance measurement)时,如计算两个点之间的距离,缺失数据就变得比较重要。因为涉及到“距离”这个概念,那么缺失值处理不当就会导致效果很差,如K近邻算法(KNN)和支持向量机(SVM)。

  • 线性模型的代价函数(loss function)往往涉及到距离(distance)的计算,计算预测值和真实值之间的差别,这容易导致对缺失值敏感。

  • 神经网络的鲁棒性强,对于缺失数据不是非常敏感,但一般没有那么多数据可供使用。

  • 贝叶斯模型对于缺失数据也比较稳定,数据量很小的时候首推贝叶斯模型。

总结来看,对于有缺失值的数据在经过缺失值处理后:

  • 数据量很小,用朴素贝叶斯

  • 数据量适中或者较大,用树模型,优先 xgboost

  • 数据量较大,也可以用神经网络

  • 避免使用距离度量相关的模型,如KNN和SVM

7,组合和排列的概率问题

(1)4排,每排5个人,4本书给不同的4排的概率。

(2)A型血,B型血 ,O 和AB型。超过90%的概率,至少有一个人是B型血,共需要多少人。

8,KNN(最近邻算法)

一般情况下,KNN最近邻方法在( D)情况下效果最好

A 样本呈现团状分布

B 样本呈现链状分布

C 样本较多但典型性不好

D 样本较少但典型性好

KNN算法步骤:

(1)计算该点与其他已经知道标签的点的距离(欧氏距离等)

(2)选取距离最小的K个点

(3)按照一定的规则(以少胜多),将K个点中标签最多的那个标签作为该点的Label。

由于KNN要计算该点与其他所有点的距离,如果其他点过多,那么时间效率会非常低,因此有了kd树为了减少计算距离的次数(提高k近邻的搜索效率)。

KNN主要依靠相邻的K个点,这个成团状指的应该是所有样本呈团状分布。如下图,那么欧几里得距离就不容易计算出了。

9,决策树和随机森林

假设其他条件都保持一致, 决策树的预测结果和随机森林的预测结果对比正确的是:(C

A,决策树的预测结果有更高的方差和更低的偏差

B,决策树的预测结果有更高的方差和偏差

C,决策树的预测结果有更低的方差和更高的偏差

D,决策树的预测结果有更低的方差和偏差

决策树是随机森林的基分类器,作为基分类器它对于特定的某一些数据集,具有较低的偏差,但是将决策树挪到其他不同的训练集上时,具有较高的方差,数据扰动对其的影响大。随机森林是在决策树的基础上来做的,使其对不同的数据集适用,相对于决策树来说,具有较低的方差,较高的偏差。但是总体的泛化误差会降低。

Bagging算法是对训练样本进行采样,产生出若干不同的子集,再从每个数据子集中训练出一个分类器,取这些分类器的平均,所以是降低模型的方差(variance)。Bagging算法和Random Forest这种并行算法都有这个效果。

Boosting则是迭代算法,每一次迭代都根据上一次迭代的预测结果对样本进行权重调整,所以随着迭代不断进行,误差会越来越小,所以模型的偏差(bias)会不断降低。

参考文献:https://blog.csdn.net/gracejpw/article/details/102636381

10,众数、中位数

学校内的各年级人数分别为:一年级200人,二年级160人,三年级130人,四年级110人,则年级属性的众数为:(B

A,三年级    B,一年级    C,二年级   D,四年级

11,马氏距离

在一个n维的空间中, 最好的检测outlier(离群点)的方法是(C
A, 作正态分布概率图
B, 作盒形图(箱型图)
C, 马氏距离
D, 作散点图

盒形图就是箱型图,它可以看出样本的总体分布情况,但是具体某一个点的时候,比不过马氏距离。(距离是要通过计算的)。散点图也是一样的道理,在二维空间内还可以明显的看出离群点。但是维度高了之后,就不容易看出了。正态分布概率图不能看出离群点,只能说明数据的确是按照正态分布的,即使点处于正太分布的两端出,也不能说明是离群点还是正态中的正常点。

马氏距离:在欧几里得距离的基础上,考虑不同变量之间的相关性和量纲不同的基础上,进行两个变量之间差异性的探讨。可以做离群点检测。

参考文献:https://blog.csdn.net/hustqb/article/details/90290232

12,演绎推理

若GDP增长率大于3%,那么城市居民和农民的人均收入一定都增长了。
假设以上推论是正确的,那么下列哪项一定正确( B )
A.城市居民和农民的人均收入都增长了,那么GDP增长率一定大于3%
B.城市居民的人均收入增长了,而农民的人均收入却减少了,那么GDP增长率一定小于或等于3%
C.如果GDP增长率小于或等于3%,城市居民的人均收入一定减少了
D.即使城市居民和农民的人均收入都减少了,GDP增长率也可能大于3%

考查复合命题的推理。题干是一个充分条件假言命题

充分条件的假言推理有以下规则:(1)肯定前件就要肯定后件,否定后件就要否定前件;(2)否定前件不能否定后件,肯定后件不能肯定前件。该命题中前件为 GDP增长率大于3%,后件为城市居民和农民的人均收入一定增长。A项是肯定了后件,根据肯定后件不能肯定前件的规则,A项错误。C项是否定了前件,根据否定前件不能否定后件的规则,C项也是错误的。D项是否定了后件,根据否定后件就要否定前件的规则,应该推出 GDP增长率一定大于3%。D项也是错误的。

13,相关性问题考察

当我们构造线性模型时,我们注意变量间的相关性.在相关矩阵中搜索相关系数时,如果我们发现3对变量的相关系数是(Var1和Var2,Var2和Var3,Var3和Var1)是 -0.98,0.45,1.23.我们可以得出什么结论:( C)

1.Var1和Var2是非常相关的

2.因为Var1和Var2是非常相关的,我们可以去除其中一个

3.Var3和Var1的1.23相关系数是不可能的

A、1 and 3           B、1 and 2            C、1,2 and 3          D、1

相关系数的取值范围是(-1,0)或(0,1) 。2是对的,可以用来降维。

14,置信区间

置信区间是指有95%的信心认为当前这个置信区间包含总体参数。

一个零件的长度为x,区间(8.7,9.2)包含估计量的概率为95%。这句话翻译就是 置信度为95%的置信区间是(8.7,9.2)。

x为零件的估计量,区间(8.7,9.2)包含估计量的概率为95%。【估计量不是变量,是定值,是不变的】

调查部分参与校招的学生是否被录用后发现,置信度为95%的置信区间是(0.20,0.27),对置信区间的哪种解释正确(B

A,我们有95%确信这批所有参与校招的学生被录用的比例在0.20-0.27之间。 (所有参与调查的也不对)

B,参与校招的学生被录用的比例在0.20到0.27之间的概率为95%。

C,如果重新对参与校招相同数量的学生进行同样调查,有95%的概率这批学生被录用的比例在0.20到0.27之间。(False

D,我们95%确定这批参与调查的学生录用比例在0.20到0.27之间。

D选项 指录用比例在 0.20到0.27之间的概率为95%。不说落在,说包含。估计量是定值,而不是变量。

根据分析结果求得置信度为95%时,平均值的置信区间是(28.05±0.13)%, 意指( A )

A.在(28.05±0.13)%区间内包括总体平均值μ的把握有95%

B.未来测定的实验平均值x 有95%落入(28.05±0.13)%区间中 (False)

C.总体平均值μ有95%的把握落入(28.05±0.13)%区间中

D.已测定数据中,有95%落入(28.05±0.13)%区间中 (平均值的置信区间和所有值的置信区间不同)

数据分析岗笔试知识点总结相关推荐

  1. 字节跳动数据分析岗笔试分享

    @字节跳动数据分析岗笔试 笔试形式和内容 由于关于字节跳动数据分析的笔试分享经验较少,参加了字节的笔试后,想做一个记录,就写下了这篇文章.不知道自己笔试过了没有,希望能收到面试邀请吧,同时也希望可以帮 ...

  2. 字节跳动数据分析岗笔试分享笔试形式和内容

    @字节跳动数据分析岗笔试 笔试形式和内容 由于关于字节跳动数据分析的笔试分享经验较少,参加了字节的笔试后,想做一个记录,就写下了这篇文章.不知道自己笔试过了没有,希望能收到面试邀请吧,同时也希望可以帮 ...

  3. 笔经-腾讯2018暑期实习生-数据分析岗笔试经历

    发现今年虽然很多公司有了数据分析岗位面向本科生开放,但几乎数据分析师的实习笔试几乎都没有考编程,注意是几乎都没有考!这也给了我们一些启发,也说明现在的数据分析岗位职能方向更细化. 不定项选择(每题4分 ...

  4. 2020京东社招笔试编程题-数据分析岗

    一个朋友参加的2020京东社招数据分析岗的笔试,有两道编程题.留了第一题,大意就是根据每日限制如何出售股票使得总亏损最少. import math while 1:nm=list(map(int,in ...

  5. 在滴滴数据分析岗实习的8个月

    今天分享一下海潮兄弟的「数据分析岗」求职与工作经验,以下是海潮兄弟的自述,全文共4825字,6图,阅读大概需要15分钟. 作者介绍:双非院校刚毕业的统计硕士,目前在滴滴工作,有8个月的数据分析实习经历 ...

  6. 2019春招-网易数据分析工程师笔试

    招聘要求 数据分析工程师 您可以: 负责网易游戏.网易CC(直播平台).藏宝阁(虚拟道具电商)和网易大神(内容社交平台)等一至多款产品的数据分析工作: 配合产品.运营和营销等相关人员分析,理解需求,提 ...

  7. Java 开发岗面试知识点大全解析

    本人简介:北京邮电大学土著硕士研究生,CSDN博客专家,熟悉的技术为Java后台开发.在2017年暑期实习校招中拿到了百度.搜狐.京东和去哪儿网的实习Offer:在2018届校园招聘中,拿到了百度.小 ...

  8. 200411 快X数据分析岗笔经

    快X数据分析岗没找到过往的试题,攒人品人工回忆一下笔经 毫无悬念的挂了,笔试时间简直无人性,凌晨爬起来做题,脑子一团浆糊,草草的提前交了(其实还是我渣 邮件里说的无编程题目的意思是不需要你运行代码,以 ...

  9. 我在滴滴数据分析岗实习8个月的收获(文末附内推机会)

         作者:海潮      来源:数据管道 大家好,我是宝器! 今天分享一下交流群里海潮兄弟的「数据分析岗」求职与工作经验,以下是海潮兄弟的自诉,全文共4825字,6图,阅读大概需要15分钟. 作 ...

最新文章

  1. Oracle 用户表空间的创建和授权
  2. python中文名的发件人邮件读取解析_如何使用python收取读取邮件?
  3. linux journalctl 命令 查询systemd init 系统日志
  4. mysql查询优化explain命令详解
  5. javascript-抽象工厂模式
  6. 完整且易读的微信小程序的注册页面(包含倒计时验证码、获取用户信息)
  7. Flink 执行引擎:流批一体的融合之路
  8. AWS亚马逊ssh登录失败 Permissions 0644 for .pem are too open
  9. 用安卓设备通过otg完成电脑启动盘装机盘的制作,通过手机在U盘写入iso镜像
  10. Java内存模型详解
  11. sqlite3数据库-常用命令
  12. 母函数与指数型母函数模板
  13. android 7 语音助手,语音助手横评:iPhone 大战 Android 旗舰,谁更好用?
  14. 生成模型的2022年——人工智能AIGC顶级论文回顾
  15. 计算机二级您是系统管理用户,全国计算机等级考试(NCRE)考务管理系统考生网报手册...
  16. Torvalds的linux
  17. java聊天系统异常问题_聊天室bug问题
  18. intval()和(int)转换使用与区别
  19. 细粒度分类之NTS_NET解读
  20. 用队列实现栈(Java)

热门文章

  1. 分布式锁 哨兵模式_正确解锁分布式锁的各种姿势
  2. 把训练好的词向量模型可视化
  3. Java Activiti6.0 spring5 SSM 工作流引擎 审批流程 java项目框架
  4. 普及json格式相关问题
  5. 如何利用Python处理JSON格式的数据,建议收藏!!!
  6. kolla ansible各组件作用
  7. [Blockchain-3] Blockchains and Smart Contracts for the Internet of Things
  8. Python基础《扑克牌游戏》
  9. python处理异常值的代码_利用Python进行异常值分析实例代码
  10. 中兴交换机配置vlan地址