原文链接：http://tecdat.cn/?p=5689

原文出处：拓端数据部落公众号

判别分析包括可用于分类和降维的方法。线性判别分析（LDA）特别受欢迎，因为它既是分类器又是降维技术。二次判别分析（QDA）是LDA的变体，允许数据的非线性分离。最后，正则化判别分析（RDA）是LDA和QDA之间的折衷。

本文主要关注LDA，并探讨其在理论和实践中作为分类和可视化技术的用途。由于QDA和RDA是相关技术，我不久将描述它们的主要属性以及如何在R中使用它们。

线性判别分析

LDA是一种分类和降维技术，可以从两个角度进行解释。第一个是解释是概率性的，第二个是更多的程序解释，归功于费舍尔。第一种解释对于理解LDA的假设是有用的。第二种解释可以更好地理解LDA如何降低维数。

Fisher的LDA优化标准

Fisher的LDA优化标准规定组的质心应尽可能分散。这相当于找到一个线性组合ž= aŤX，使得aT相对于类内方差的类间方差最大化。

LDA模型的复杂性

LDA的有效参数的数量可以通过以下方式导出。协方差矩阵不需要额外的参数，因为它已经由质心定义。由于我们需要估计K判别函数（以获得判定边界），这就产生了涉及p个元素的KK计算。因此，有效LDA参数的数量是Kp+（K-1）。

LDA摘要

在这里，我总结了LDA的两个观点，并总结了该模型的主要特性。

概率论

LDA使用贝叶斯规则来确定观察样本属于k类的后验概率。由于LDA的正常假设，后验由多元高斯定义，其协方差矩阵假定对于所有类是相同的。新的点通过计算判别函数分类δk（后验概率的枚举器）并返回类k具有最大概率δk。判别变量可以通过类内和类间方差的特征分解来获得。

费舍尔的观点

根据Fisher，LDA可以理解为降维技术，其中每个连续变换是正交的并且相对于类内方差最大化类间方差。此过程将特征空间转换为具有K−1维度的投射空间。在对输入数据进行扩展之后，可以通过在考虑类先验的情况下确定投射空间中的最接近的质心来对新点进行分类。

LDA的特性

LDA具有以下属性：

LDA假设数据是高斯数据。更具体地说，它假定所有类共享相同的协方差矩阵。
LDA在K−1维子空间中找到线性决策边界。因此，如果自变量之间存在高阶相互作用，则不适合。
LDA非常适合于多类问题，但是当类分布不平衡时应该小心使用，因为根据观察到的计数来估计先验。因此，观察很少被分类为不常见的类别。
与PCA类似，LDA可用作降维技术。请注意，LDA的转换本质上与PCA不同，因为LDA是一种考虑结果的监督方法。

数据集

为了举例说明线性判别分析，我们将使用语音识别数据集。该数据集对于展示判别分析很有用，因为它涉及五种不同的结果。

library(RCurl)
f <- getURL('phoneme.csv')
df <- read.csv(textConnection(f), header=T)
print(dim(df))

## [1] 4509  259

为了以后评估模型，我们将每个样本分配到训练或测试集中：

#logical vector: TRUE if entry belongs to train set, FALSE else
train <- grepl("^train", df$speaker)
# remove non-feature columns
to.exclude <- c("row.names", "speaker""g")
feature.df <- df[, !colnames(df) %<strong>in</strong>% to.exclude]
test.set <- subset(feature.df, !train)
train.set <- subset(feature.df, train)
train.responses <- subset(df, train)$g
test.responses <- subset(df, !train)$g

在R中拟合LDA模型

我们可以通过以下方式拟合LDA模型：

library(MASS)
lda.model <- lda(train.set, grouping = train.responses)

LDA作为可视化技术

我们可以通过在缩放数据上应用变换矩阵将训练数据转换为规范坐标。要获得与predict.lda函数返回的结果相同的结果，我们需要首先围绕加权平均数据居中：

## [1] TRUE

我们可以使用前两个判别变量来可视化数据：

绘制两个LDA维度中的数据显示三个集群：

群集1（左）由aa和ao音素组成
群集2（右下角）由dcl和iy音素组成
群集3（右上角）由sh音素组成

这表明两个维度不足以区分所有5个类别。然而，聚类表明可以非常好地区分彼此充分不同的音素。

我们还可以使用plot.lda函数绘制训练数据到所有判别变量对的映射，其中dimen参数可用于指定所考虑的维数：

为了可视化组的质心，我们可以创建自定义图：

解释后验概率

除了将数据转换为由分量x提供的判别变量之外，预测函数还给出后验概率，其可以用于分类器的进一步解释。例如：

## [1] "Posterior of predicted class 'sh' is: 1"
##        aa    ao   dcl    iy    sh
## aa  0.797 0.203 0.000 0.000 0.000
## ao  0.123 0.877 0.000 0.000 0.000
## dcl 0.000 0.000 0.985 0.014 0.002
## iy  0.000 0.000 0.001 0.999 0.000
## sh  0.000 0.000 0.000 0.000 1.000

各个班级的后验表格表明该模型对音素aa和ao最不确定，这与我们对可视化的期望一致。

LDA作为分类器

如前所述，LDA的好处是我们可以选择用于分类的规范变量的数量。在这里，我们仍将通过使用多达四个规范变量进行分类来展示降级LDA的使用。

##   Rank Accuracy
## 1    1     0.51
## 2    2     0.71
## 3    3     0.86
## 4    4     0.92

正如从变换空间的视觉探索所预期的那样，测试精度随着每个附加维度而增加。由于具有四维的LDA获得最大精度，我们将决定使用所有判别坐标进行分类。

为了解释模型，我们可以可视化分类器的性能：

在图中，预期的音素以不同的颜色显示，而模型预测通过不同的符号显示。具有100％准确度的模型将为每种颜色分配单个符号。

二次判别分析

QDA是LDA的变体，其中针对每类观察估计单个协方差矩阵。如果事先知道个别类别表现出不同的协方差，则QDA特别有用。QDA的缺点是它不能用作降维技术。

由于QDA估计每个类的协方差矩阵，因此它具有比LDA更多的有效参数。我们可以通过以下方式得出参数的数量。

因此，QDA参数的有效数量是ķ- 1 + K.p + K.p （p + 1 ）2K−1+Kp+Kp(p+1)2。

由于QDA参数的数量在pp是二次的，因此当特征空间很大时，应小心使用QDA。

QDA在R

我们可以通过以下方式执行QDA：

的QDA和LDA对象之间的主要区别是，QDA具有p×pp×p的变换矩阵对于每个类k∈{1,…,K}k∈{1,…,K}。这些矩阵确保组内协方差矩阵是球形的，但不会导致子空间减小。因此，QDA不能用作可视化技术。

让我们确定QDA在音素数据集上是否优于LDA：

## [1] "Accuracy of QDA is: 0.84"

QDA的准确度略低于全级LDA的准确度。这可能表明共同协方差的假设适合于该数据集。

规范的判别分析

由于RDA是一种正则化技术，因此当存在许多潜在相关的特征时。现在让我们评估音素数据集上的RDA。

R中的RDA

rda.preds <- predict(rda.model, t(train.set), train.responses, t(test.set))# determine performance for each alpha
rda.perf <- vector(, dim(rda.preds)[1])
for(i in seq(dim(rda.preds)[1])) {<span style="color:#888888"># performance for each gamma</span>res <- apply(rda.preds[i,,], 1, function(x) length(which(x == as.numeric(test.responses))) / length(test.responses))rda.perf[[i]] <- res
}
rda.perf <- do.call(rbind, rda.perf)
rownames(rda.perf) <- alphas

结论

判别分析对于多类问题特别有用。LDA非常易于理解，因为它可以减少维数。使用QDA，可以建模非线性关系。RDA是一种正则化判别分析技术，对大量特征特别有用。

如果您有任何疑问，请在下面发表评论。

最受欢迎的见解

1.用SPSS估计HLM层次线性模型模型

2.R语言线性判别分析（LDA），二次判别分析（QDA）和正则判别分析（RDA）

3.基于R语言的lmer混合线性回归模型

4.R语言Gibbs抽样的贝叶斯简单线性回归仿真分析

5.在r语言中使用GAM（广义相加模型）进行电力负荷时间序列分析

6.使用SAS，Stata，HLM，R，SPSS和Mplus的分层线性模型HLM

7.R语言中的岭回归、套索回归、主成分回归：线性模型选择和正则化

8.R语言用线性回归模型预测空气质量臭氧数据

9.R语言分层线性模型案例

拓端tecdat|R语言线性判别分析（LDA），二次判别分析（QDA）和正则判别分析（RDA）相关推荐

拓端tecdat|R语言逻辑回归（Logistic回归）模型分类预测病人冠心病风险
最近我们被客户要求撰写关于冠心病风险的研究报告,包括一些图形和统计输出. 相关视频:R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险逻辑回归Logistic模型原理和R语言分类预测冠 ...
拓端tecdat|R语言向量误差修正模型 (VECMs)分析长期利率和通胀率影响关系
最近我们被客户要求撰写关于向量误差修正模型的研究报告,包括一些图形和统计输出. 向量自回归模型估计的先决条件之一是被分析的时间序列是平稳的.但是,经济理论认为,经济变量之间在水平上存在着均衡关系,可以 ...
拓端tecdat|R语言用LOESS(局部加权回归)季节趋势分解（STL）进行时间序列异常检测
最近我们被客户要求撰写关于LOESS(局部加权回归)的研究报告,包括一些图形和统计输出. 这篇文章描述了一种对涉及季节性和趋势成分的时间序列的中点进行建模的方法.我们将对一种叫做STL的算法进行研究, ...
拓端tecdat|R语言线性回归和时间序列分析北京房价影响因素可视化案例
最近我们被客户要求撰写关于北京房价影响因素的研究报告,包括一些图形和统计输出. 目的房价有关的数据可能反映了中国近年来的变化: 人们得到更多的资源(薪水),期望有更好的房子人口众多独生子女政策: ...
R语言——线性判别分析（LDA）
R语言--线性判别分析* 线性判别分析是一种经典的线性学习方法,在二分类问题上最早由Fisher在1936年提出,亦称Fisher线性判别.线性判别的思想非常朴素:给定训练样例集,设法将样例投影到一条 ...
【视频】什么是Bootstrap自抽样及应用R语言线性回归预测置信区间实例|数据分享
最近我们被客户要求撰写关于Bootstrap的研究报告,包括一些图形和统计输出. 自抽样统计是什么以及为什么使用它? 本文将自抽样方法与传统方法进行比较,并了解它为何有用.并在R语言软件中通过对汽车速 ...
拓端tecdat荣获掘金社区入驻新人奖
2021年7月,由掘金发起了"入驻成长礼"颁奖活动.本次活动邀请到知名开发者.服务机构代表等业界人士. 据了解,掘金社区"新入驻创作者礼"主要对已经积累了一定历 ...
拓端tecdat荣获2022年度51CTO博主之星
相信技术,传递价值,这是51CTO每一个技术创作者的动力与信念,2022 年度,拓端tecdat 作为新锐的数据分析咨询公司,在51CTO平台上,不断的输出优质的技术文章,分享前沿创新技术,输出最佳生 ...
R语言ggplot2可视化绘制二维的密度图：在R中建立二维散点数据的连续密度热图、2D密度估计、MASS包中的kde2d函数实现2D密度估计、geom_density2d函数可视化二维密度图
R语言ggplot2可视化绘制二维的密度图:在R中建立二维散点数据的连续密度热图.2D密度估计.MASS包中的kde2d函数实现2D密度估计.geom_density2d函数可视化二维密度图目录
R语言glm函数构建二分类logistic回归模型、epiDisplay包logistic.display函数获取模型汇总统计信息（自变量初始和调整后的优势比及置信区间，回归系数的Wald检验的p值
R语言glm函数构建二分类logistic回归模型(family参数为binomial).使用epiDisplay包logistic.display函数获取模型汇总统计信息(自变量初始和调整后的优势比 ...

拓端tecdat|R语言线性判别分析（LDA），二次判别分析（QDA）和正则判别分析（RDA）