数据分析岗笔试知识点总结

1，箱形图的基本概念

箱形图（盒形图、盒须图）的理解：https://blog.csdn.net/symoriaty/article/details/93978817

箱形图三种中Q1 Q2 Q3的计算方式：https://blog.csdn.net/ningyanggege/article/details/82625947

三种：数据未分组按照从下到大的顺序计算。1）index正好是整数，直接计算；2）index是浮点数时，按照靠近的index左右权重比计算；3）向上累计和向下累计计算。

2，分箱操作

分箱操作是一种数据预处理的方法。目的：将连续变量离散化。

无监督分箱：

（1）等距离（等宽度）分箱：将变量的取值范围分为k个等宽的区间。

L =（ max-min）/K -> [min,min+L] [min+L,min+2L],...,[min+(K-1)L,max]

每个等份里面的实例数量可能不等。但是每个等份的长度相等。

（2）等频度（等深度）分箱：将变量按照从小到大的顺序排列，切分成K段。

举例子：销售记录价格排序：5，10,11,13,15,35,50,55,72,92,204,215 按照等频等深划分成四（K=4）个箱。

L = len（记录个数）/K = 12/4= 3。每段共三个数字。 [5,10,11] [13,15,35] [50,55,72],[92,204,215] 故数字15在第二个箱子中。

（3）k聚类分箱

用k均值聚类法将观测值聚为k类，但在聚类过程中需要保证分箱的有序性：第一个分箱中所有观测值都要小于第二个分箱中的观测值，第二个分箱中所有观测值都要小于第三个分箱中的观测值。[笔试应该不会出现，计算太费时间]

有监督分箱：

（1）卡方分箱

（2）Best-KS分箱

分箱评估：特征进行分箱后，需要对分箱后的每组（箱）进行WOE编码或者IV信息量。

参考文献：【2】【3】有监督分箱。

【1】https://blog.csdn.net/qq_20449731/article/details/54881647?utm_source=blogxgwz3

【2】https://blog.csdn.net/bowenlaw/article/details/104968835?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.channel_param

【3】https://www.cnblogs.com/Christina-Notebook/p/10025470.html

【4】https://blog.csdn.net/qq_15111861/article/details/81531873

3，KMO检验

（1）简单相关系数（相关系数、线性相关系数、皮尔逊相关系数）：衡量两个变量之间的线性关系。

（2）偏相关系数：有的时候X和Y之间的简单相关系数不能够很好的表示两者之间的相关性。因为Y可能受到其他因素的影响（多元回归分析中）。因此引入偏相关性系数来看变量之间的相关性。偏相关性就是：固定其他几个变量后，研究剩余两个变量之间的相关性。固定其他变量的时候，研究两个变量之间的关系，才是真的反映关系的。

（3）协方差：衡量两个变量的总体误差。

协方差定义为： Cov(X,Y)= E[(X-EX)(Y-EY)] = EXY-E(X)E(Y)

4，偏差、方差和误差

转自：https://www.cnblogs.com/hutao722/p/9921788.html

偏差（bias）是指训练过程中，训练预测值和真实值之间的偏离关系。每一次（单个模型）迭代训练的出来的模型，都会拿训练集数据预测，偏差就反应在预测值和实际值的匹配度上。准确度为96%，则说明是低偏差；反之，如果准确度只有70%，则说明是高偏差。

模型输出的期望和真实样本标签的差值。

方差是指在训练过程中，预测值的变化波动情况（同一批模型，在不同训练集上的情况，刻画数据扰动对模型的影响），描写的是预测值与预测均值差的平方和再求平均数。通常在深度学习训练中，初始阶段模型复杂度不高，为低方差；随着训练量加大，模型逐步拟合训练数据，复杂度开始变高，此时方差会逐渐变高。

D为不同的数据集，f(x;D)指的是在D训练集上的输出， $\overline{f}(x)$ 指的是模型f对于x的输出的期望。

低偏差，低方差：这是训练的理想模型，此时蓝色点集基本落在靶心范围内，且数据离散程度小，基本在靶心范围内；
低偏差，高方差：这是深度学习面临的最大问题，过拟合了。也就是模型太贴合训练数据了，导致其泛化（或通用）能力差，若遇到测试集，则准确度下降的厉害 [模型复杂度高且太满足训练集要求]；
高偏差，低方差：这往往是训练的初始阶段 [训练准确率低，模型复杂度低->是一个线性函数，波动变化小]；
高偏差，高方差：这是训练最糟糕的情况，准确度差，数据的离散程度也差。

模型复杂度指的是：Y= w1x+b[模型复杂度低] y=w1x+w2x+w3x+b[模型复杂度高]

泛化误差：f(x;D)指的是在D训练集上的输出,和D样本所带的标签之间的误差均值。（y和yD不同，可能真实样本标签和样本标签是不一致的，体现在工作人员标注的时候搞错了） y和yD体现的是噪声。

我们使用了如下的代价函数来评估泛化误差：

泛化误差＝方差＋偏差2 + 噪声

泛化误差一般指的是模型训练的loss值，方差指的是不同训练集下，训练效果和训练输出值之间的关系。偏差是指单一模型中，模型和实际值之间的差值。噪声是样本实际值和样本标注的实际值之间的误差。一般误差都规定为服从标准正态分布。

参考文献：【1】https://blog.csdn.net/stay_foolish12/article/details/89289564?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-5.channel_param&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-5.channel_param

【2】https://blog.csdn.net/elvirangel/article/details/94549181

【3】https://blog.csdn.net/leichangqing/article/details/89090950

5，混淆矩阵

假设我们要解决一个二分类问题，我们已经建立好了模型，输出为0或1，初始时阈值设为0.5，如果大于0.5则为1，否则为0。如果我们用另一个大于0.5的阈值，那么现在关于模型说法，正确的是（B）

A，模型分类准确率会降低

B，模型分类的召回率会降低或者不变

C，模型分类的召回率会升高

D，模型分类的准确率会升高或者不变

由于 Recall = TP/(TP+FN) ,TP+FN= 真实样本中标签为1的数据。所以TP+FN不变。由于阈值大于0.5，则预测为1的数量会降低，那么TP+FP会降低。TP+FP降低包含三种情况：TP低；FP低；TP,FP都低；确率为 (TP+TN)/总数总数不会变，但是TP和TN不能够直接判定为降低或者升高。TP可能降低，TN可能升高。TP可能不变，TN升高。TP,TN可能都不变。

因此选择B。

6，数据缺失值敏感的模型

缺失值参考文献：https://blog.csdn.net/yh0vlde8vg8ep9vge/article/details/78265671

在下列算法中，对于缺失值敏感的模型为（A）：

A. Logistic Regression（逻辑回归） B. 随机森林 C. C4.5 D. 朴素贝叶斯

BC基于树模型，对缺失值敏感度低；D朴素贝叶斯对缺失值也比较稳定；B逻辑回归是线性模型，对缺失值敏感。

经验法则(rule of thumb)供参考：

树模型对于缺失值的敏感度较低，大部分时候可以在数据有缺失时使用。
涉及到距离度量(distance measurement)时，如计算两个点之间的距离，缺失数据就变得比较重要。因为涉及到“距离”这个概念，那么缺失值处理不当就会导致效果很差，如K近邻算法(KNN)和支持向量机(SVM)。
线性模型的代价函数(loss function)往往涉及到距离(distance)的计算，计算预测值和真实值之间的差别，这容易导致对缺失值敏感。
神经网络的鲁棒性强，对于缺失数据不是非常敏感，但一般没有那么多数据可供使用。
贝叶斯模型对于缺失数据也比较稳定，数据量很小的时候首推贝叶斯模型。

总结来看，对于有缺失值的数据在经过缺失值处理后：

数据量很小，用朴素贝叶斯
数据量适中或者较大，用树模型，优先 xgboost
数据量较大，也可以用神经网络
避免使用距离度量相关的模型，如KNN和SVM

7，组合和排列的概率问题

（1）4排，每排5个人，4本书给不同的4排的概率。

（2）A型血，B型血，O 和AB型。超过90%的概率，至少有一个人是B型血，共需要多少人。

8，KNN(最近邻算法)

一般情况下，KNN最近邻方法在（ D）情况下效果最好

A 样本呈现团状分布

B 样本呈现链状分布

C 样本较多但典型性不好

D 样本较少但典型性好

KNN算法步骤：

（1）计算该点与其他已经知道标签的点的距离（欧氏距离等）

（2）选取距离最小的K个点

（3）按照一定的规则（以少胜多），将K个点中标签最多的那个标签作为该点的Label。

由于KNN要计算该点与其他所有点的距离，如果其他点过多，那么时间效率会非常低，因此有了kd树为了减少计算距离的次数（提高k近邻的搜索效率）。

KNN主要依靠相邻的K个点，这个成团状指的应该是所有样本呈团状分布。如下图，那么欧几里得距离就不容易计算出了。

9，决策树和随机森林

假设其他条件都保持一致，决策树的预测结果和随机森林的预测结果对比正确的是：（C）

A,决策树的预测结果有更高的方差和更低的偏差

B,决策树的预测结果有更高的方差和偏差

C,决策树的预测结果有更低的方差和更高的偏差

D,决策树的预测结果有更低的方差和偏差

决策树是随机森林的基分类器，作为基分类器它对于特定的某一些数据集，具有较低的偏差，但是将决策树挪到其他不同的训练集上时，具有较高的方差，数据扰动对其的影响大。随机森林是在决策树的基础上来做的，使其对不同的数据集适用，相对于决策树来说，具有较低的方差，较高的偏差。但是总体的泛化误差会降低。

Bagging算法是对训练样本进行采样，产生出若干不同的子集，再从每个数据子集中训练出一个分类器，取这些分类器的平均，所以是降低模型的方差（variance）。Bagging算法和Random Forest这种并行算法都有这个效果。

Boosting则是迭代算法，每一次迭代都根据上一次迭代的预测结果对样本进行权重调整，所以随着迭代不断进行，误差会越来越小，所以模型的偏差（bias）会不断降低。

参考文献：https://blog.csdn.net/gracejpw/article/details/102636381

10，众数、中位数

学校内的各年级人数分别为：一年级200人，二年级160人，三年级130人，四年级110人，则年级属性的众数为：（B）

A，三年级 B，一年级 C，二年级 D，四年级

11，马氏距离

在一个n维的空间中，最好的检测outlier(离群点)的方法是（C）
A，作正态分布概率图
B，作盒形图（箱型图）
C，马氏距离
D，作散点图

盒形图就是箱型图，它可以看出样本的总体分布情况，但是具体某一个点的时候，比不过马氏距离。（距离是要通过计算的）。散点图也是一样的道理，在二维空间内还可以明显的看出离群点。但是维度高了之后，就不容易看出了。正态分布概率图不能看出离群点，只能说明数据的确是按照正态分布的，即使点处于正太分布的两端出，也不能说明是离群点还是正态中的正常点。

马氏距离：在欧几里得距离的基础上，考虑不同变量之间的相关性和量纲不同的基础上，进行两个变量之间差异性的探讨。可以做离群点检测。

参考文献：https://blog.csdn.net/hustqb/article/details/90290232

12，演绎推理

若GDP增长率大于3%，那么城市居民和农民的人均收入一定都增长了。
假设以上推论是正确的，那么下列哪项一定正确( B )
A．城市居民和农民的人均收入都增长了，那么GDP增长率一定大于3%
B．城市居民的人均收入增长了，而农民的人均收入却减少了，那么GDP增长率一定小于或等于3%
C．如果GDP增长率小于或等于3%，城市居民的人均收入一定减少了
D．即使城市居民和农民的人均收入都减少了，GDP增长率也可能大于3%

考查复合命题的推理。题干是一个充分条件假言命题。

充分条件的假言推理有以下规则：(1)肯定前件就要肯定后件，否定后件就要否定前件；(2)否定前件不能否定后件，肯定后件不能肯定前件。该命题中前件为 GDP增长率大于3%，后件为城市居民和农民的人均收入一定增长。A项是肯定了后件，根据肯定后件不能肯定前件的规则，A项错误。C项是否定了前件，根据否定前件不能否定后件的规则，C项也是错误的。D项是否定了后件，根据否定后件就要否定前件的规则，应该推出 GDP增长率一定大于3%。D项也是错误的。

13，相关性问题考察

当我们构造线性模型时,我们注意变量间的相关性.在相关矩阵中搜索相关系数时,如果我们发现3对变量的相关系数是(Var1和Var2,Var2和Var3,Var3和Var1)是 -0.98,0.45,1.23.我们可以得出什么结论:( C)

1.Var1和Var2是非常相关的

2.因为Var1和Var2是非常相关的,我们可以去除其中一个

3.Var3和Var1的1.23相关系数是不可能的

A、1 and 3 B、1 and 2 C、1,2 and 3 D、1

相关系数的取值范围是(-1,0)或(0,1) 。2是对的，可以用来降维。

14，置信区间

置信区间是指有95%的信心认为当前这个置信区间包含总体参数。

一个零件的长度为x，区间（8.7,9.2）包含估计量的概率为95%。这句话翻译就是置信度为95%的置信区间是（8.7,9.2）。

x为零件的估计量，区间（8.7,9.2）包含估计量的概率为95%。【估计量不是变量，是定值，是不变的】

调查部分参与校招的学生是否被录用后发现，置信度为95%的置信区间是（0.20,0.27）,对置信区间的哪种解释正确（B）

A,我们有95%确信这批所有参与校招的学生被录用的比例在0.20-0.27之间。（所有参与调查的也不对）

B,参与校招的学生被录用的比例在0.20到0.27之间的概率为95%。

C,如果重新对参与校招相同数量的学生进行同样调查，有95%的概率这批学生被录用的比例在0.20到0.27之间。（False）

D,我们95%确定这批参与调查的学生录用比例在0.20到0.27之间。

D选项指录用比例在 0.20到0.27之间的概率为95%。不说落在，说包含。估计量是定值，而不是变量。

根据分析结果求得置信度为95%时，平均值的置信区间是（28.05±0.13)%, 意指( A )

A．在(28.05±0.13)%区间内包括总体平均值μ的把握有95%

B．未来测定的实验平均值x 有95%落入(28.05±0.13)%区间中 (False)

C．总体平均值μ有95%的把握落入(28.05±0.13)%区间中

D．已测定数据中，有95%落入(28.05±0.13)%区间中 (平均值的置信区间和所有值的置信区间不同)