关于聚类分析、判别分析、主成分分析、因子分析等多元统计分析方法
转载自:http://blog.csdn.net/nieson2012/article/details/25408421
主成分分析与因子分析的区别 1. 目的不同: 因子分析把诸多变量看成由对每一个变量都有作用的一些公共因子和仅对某一个变量有作用的特殊因子线性组合而成,因此就是要从数据中控查出对变量起解释作用的公共因子和特殊因子以及其组合系数;主成分分析只是从空间生成的角度寻找能解释诸多变量变异的绝大部分的几组彼此不相关的新变量(主成分)。 2. 线性表示方向不同: 因子分析是把变量表示成各公因子的线性组合;而主成分分析中则是把主成分表示成各变量的线性组合。 3. 假设条件不同:主成分分析中不需要有假设;因子分析的假设包括:各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。 4. 提取主因子的方法不同:因子分析抽取主因子不仅有主成分法,还有极大似然法,主轴因子法,基于这些方法得到的结果也不同;主成分只能用主成分法抽取。 5. 主成分与因子的变化:当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的;而因子分析中因子不是固定的,可以旋转得到不同的因子。 6. 因子数量与主成分的数量:在因子分析中,因子个数需要分析者指定(SPSS根据一定的条件自动设定,只要是特征值大于1的因子主可进入分析),指定的因子数量不同而结果也不同;在主成分分析中,成分的数量是一定的,一般有几个变量就有几个主成分(只是主成分所解释的信息量不等)。 7. 功能:和主成分分析相比,由于因子分析可以使用旋转技术帮助解释因子,在解释方面更加有优势;而如果想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析。当然,这种情况也可以使用因子得分做到,所以这种区分不是绝对的。 |
1 、 聚类分析
基本原理:将个体(样品)或者对象(变量)按相似程度(距离远近)划分类别,使得同一类中的元素之间的相似性比其他类的元素的相似性更强。目的在于使类间元素的同质性最大化和类与类间元素的异质性最大化。
常用聚类方法:系统聚类法,K-均值法,模糊聚类法,有序样品的聚类,分解法,加入法。
注意事项:1. 系统聚类法可对变量或者记录进行分类,K-均值法只能对记录进行分类;
2. K-均值法要求分析人员事先知道样品分为多少类;
3. 对变量的多元正态性,方差齐性等要求较高。
应用领域:细分市场,消费行为划分,设计抽样方案等
2、 判别分析
基本原理:从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最近,离差最小等判别准则)。
常用判别方法:最大似然法,距离判别法,Fisher判别法,Bayes判别法,逐步判别法等。
注意事项:1. 判别分析的基本条件:分组类型在两组以上,解释变量必须是可测的;
2. 每个解释变量不能是其它解释变量的线性组合(比如出现多重共线性情况时,判别权重会出现问题);
3. 各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著差异时,判别函数不相同)。
相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大。
应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。
3、 主成分分析/ 因子分析
主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。
因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子。(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)
求解主成分的方法:从协方差阵出发(协方差阵已知),从相关阵出发(相关阵R已知)。
(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)
求解因子载荷的方法:主成分法,主轴因子法,极大似然法,最小二乘法,a因子提取法。
注意事项:1. 由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;
2. 对于度量单位或是取值范围在同量级的数据,可直接求协方差阵;对于度量单位不同的指标或 是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;
3.主成分分析不要求数据来源于正态分布;
4. 在选取初始变量进入分析时应该特别注意原始变量是否存在多重共线性的问题(最小特征根接近于零,说明存在多重共线性问题)。
5. 因子分析中各个公共因子之间不相关,特殊因子之间不相关,公共因子和特殊因子之间不相关。
应用领域:解决共线性问题,评价问卷的结构效度,寻找变量间潜在的结构,内在结构证实。
4、 对应分析/最优尺度分析
基本原理:利用降维的思想以达到简化数据结构的目的,同时对数据表中的行与列进行处理,寻求以低维图形表示数据表中行与列之间的关系。
对应分析:用于展示变量(两个/多个分类)间的关系(变量的分类数较多时较佳);
最优尺度分析:可同时分析多个变量间的关系,变量的类型可以是无序多分类,有序多分类或连续性变量,并 对多选题的分析提供了支持。
5、典型相关分析
基本原理:借用主成分分析降维的思想,分别对两组变量提取主成分,且使从两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关。
关于聚类分析、判别分析、主成分分析、因子分析等多元统计分析方法相关推荐
- 常见多变量/多元统计分析方法分类图
- 多元统计分析-主成分分析的原理与实现
目录 一.什么是主成分分析? 二.主成分分析的原理 三.主成分分析的应用 四.使用sklearn实现主成分分析 五.总结 一.什么是主成分分析? 主成分分析(Principal Component A ...
- 多元统计分析最短距离法_多元统计分析重点
多元统计分析重点宿舍版 第一讲:多元统计方法及应用:多元统计 方法分类(按变量.模型.因变量等) 多元统计分析应用 选择题:①数据或结构性简化运用的方法有:多元回归分析,聚类分析,主成分分 析, 因子 ...
- python 多元线性回归_多元统计分析之多元线性回归的R语言实现
多元统计分析之多元线性回归的R语言实现 多元统计分析--multivariate statistical analysis 研究客观事物中多个变量之间相互依赖的统计规律性.或从数学上说, 如果个体的观 ...
- 多元统计分析R语言建模| 1 概述
1.多元统计分析的历史: 受多种指标共同作用和影响的现象大量存在 多元统计分析方法就是利用数理统计方法来研究解决多指标问题的理论和方法 2.用途 变量之间相依性分析 构造预测模型,进行预报控制 进行数 ...
- 【多元统计分析】Python实现对应分析
(一)题目要求 数据集包含地区生产总值的四个相关指标:x1劳动者报酬,x2生产税净额,x3固定资产折旧,x4营业盈余.对各个地区生产总值进行对应分析,揭示不同地区的生产总值构成特征.要求:画出对应分析 ...
- 16种常用的数据统计分析方法汇总
经常会有朋友问到一个朋友,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习. (注:这些统计分析方法基本都是统计学的方法 ...
- 数学建模笔记(十五):多元统计分析及R语言建模(判别分析、聚类分析、主成分分析、因子分析,含数据代码注释,均可供运行)
文章目录 一.多元数据的数学表达 1.多元分析资料的一般格式与矩阵化表示 2.数据特征(一元数据与多元数据的均值和方差) 二.R软件基本使用 1.向量创建(c函数) 2.行列合并(rbind,cbin ...
- 【应用多元统计分析】上机四五——主成分分析因子分析
目录 一.主成分分析 1.princomp命令 2.screeplot命令 3.[例7.3.3]对[例6.3.3]中的数据从相关矩阵出发进行主成分分析 编辑(1)代码 (2)碎石图 (3)散点图 二 ...
最新文章
- android对OnTouchListener、OnClickListener等事件响应的研究
- 开源应用框架BitAdminCore:更新日志20180817
- tf.Variable 和 tf.get_variable的区别(2)
- element table 表格设置max-height 没有出现滚动条,多渲染了一列。
- shiro学习(14):springMVC结合shiro完成认证
- 美图秀秀 Mac版终于上线 关于美图秀秀 Mac版初体验
- 计算机应用基础 access,计算机应用基础第7章数据库应用基础Access
- js不区分大小写查找字符串
- 通过深度学习检测疟疾
- deepin安装tomcat
- 神奇的go语言(开始篇)
- 使用dotenv管理环境变量
- pycharm不认识numpy?_深度学习(CV方向)入坑不完全指南
- Java : 实体类不能序列化异常
- C++ this指针和const成员函数
- 易灵思FPGA-下载器选择指南
- ios平台实现视频H264硬编码及软编码(附完整demo)
- Domain Generalization数据集整理
- 从前端技术到体验科技
- IDS(Informix Dynamic Server)的基本概念总结
热门文章
- 拉普拉斯分布_理解拉普拉斯特征映射中的优化问题的约束条件
- Android报错:No resource found that matches the given name 'Theme.AppCompat.Light.NoActionBar'
- 编写kernel第一个Hello World
- dumpsys命令用法
- 设置开机不自动进入锁屏状态
- 防火墙和防火墙安全区域概述
- matlab y轴旋转面,Mayavi:绕y轴旋转
- springmvc06 静态资源
- Tcl Tutorial 笔记7 ·for incr
- risc-v 编译 linux,linux - 如何为RISC-V编译Linux Kernel 4.20 - 堆栈内存溢出