潜在类别分析LCA latent class analysis
由于论文需要用到此方法,这里做此学习记录,有需要的同学可一起学习进步。这里使用的软件为Mplus。
一、潜在类别分析的基础知识
潜在类别分析是潜在变量分析的一种,是将潜在变量理论与分类变量相结合的一种统计分析技术,是探讨存在统计学关联的分类外显变量背后的类别潜在变量的技术。LCA的目的在于利用最少的潜在类别数目解释外显分类变量之间的关联,并使各潜在类别内部的外显变量之间满足局部独立的要求。
1)潜在变量与外显变量
潜在变量与外显变量,也称潜变量与显变量,是结构方程模型中的两种主要变量。
外显变量是指日常生活中能够直接观测、统计的变量。
潜在变量是指不能被直接精确观测,或虽能被观测但尚需通过其它方法加以综合的指标。
一个潜在变量往往对应着多个外显变量,可以看作是对应的多个外显变量的抽象和概括,外显变量则可视为特定潜在变量的反映指标。
2)连续变量与类别变量
依据统计学概念,连续变量(continuous variables)指在一定区间内可以取任意值的变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。连续变量的测量结果是有意义的数值反应强度,例如身高几公分、体重几公斤等。在潜在变量分析中,即使被测量的结果是离散数值、无法作更精确的切割(例如家庭人数),但由于其数值具有测量大小的意义,可以进行加减乘除四则运算,也认为是连续变量的概念。
类别变量(categorical variables)是指仅仅代表某一特定类别,类别之间互有差别,但不能做四则运算的变量,例如性别、居住地区、宗教信仰、教育水平、医学上的疾病分类、牛物上的物种分类、管理学中的成功失败、对商品的满意程度等等。这些变量充斥着牛活,很容易被观察与测量,但其反映的是测量对象在本质上的类型上的差异,而非测量程度大小的概念,因此多半以人为的方式予以定义。
多半W人为的方式予以定义。
3)潜在变量分析与潜在类别分析
潜在变量分析与潜在类别分析都是研究潜在变量与外显变量关系的手段,区别在于分析变量的类型,潜在类别分析是潜在变量分析的一种特殊情况。
潜在类别模型(latent class model, LCM)是探讨LCA的模型化分析技术。
它与传统因素分析最大的不同在于变量的形式:因素分析处理的是连续变量,潜在类别模型处理的是类别变量。一个完整的LCM的建立需要经过模型的概率参数化与模型构建、参数估计与模型拟合、潜在分类三个步骤。
(1)概率参数化
潜在类别模型最突破性的原理是将类别变量的概率转换成模型的参数,亦即概率参数化(probabilistic parameterization),这其中的类别变量包括潜在变量与外显变量,所以模型中包含的概率参数也分为两类:潜在类别概率(latent classprobabilities)与条件概率(conditional probabilities)。
1)潜在类别概率
潜在类别巧率即潜在变量义所对应的参数,完整的数学形式为:
2)条件概率
在LCA的各潜在类别中,随机抽取一个样本,在外显变量上做出各种选择对应的概率称为条件概率。理解条件概率的关键有两点:
第一,需要对各外显变量进行分水平处理,同一外显变量各水平之间完全独立。
第二,分水平处理后的不同外显变量各水平之间完全独立。
在高铁旅客选择行为研究中,由前文分析可知,旅客属性、产品属性、购票行为对客流分布造成的差异是有统计关联的,即旅客选择行为中,三者之间并非相互独立,而是存在一定交叉的。所以在潜在类别模型建立之前,需要对三者所对应的外显变量进行分水平处理,并保证分水平处理后各外显变量不同水平之间彼此完全独立。
例如:①性别分为2个水平:男、女。②出行距离分为3个水平:短途、中途、长途。③购票方式分为4个水平:车站、代售点、互联网、自动售票机。
现以A.B.C分别表示性别、出行距离、购票方式,且其分别具有不同的水平: I=2,J=3,K=4,则分别表示假设旅客属于潜在变量第T类情况下,对A外显变量选择i,对B外显变量选择j,对C外显变量选择k的条件概率:
这些条件概率类似于因素分析中的因素负荷(factor loading),用于说明各潜在类别与外显变量之间的关系,亦即可以协助研究者解释各潜在类别的内容与性质。在各潜在类别中,较大的条件概率值,表示潜在变量对于该外显变量的影响较强,比重较大。
考虑到某一潜在类别下任意一个旅客必然会在A这一外显变量的不同水平之间做出唯一的选择,因此A对应的1个水平的条件概率之和为1.00,同理, B、C分别对应的JK个水平的条件概率之和也为1.00:
(2)模型构建
在完成概率参数化过程以后,进行模型的构建。模型的目标函数是求一个联,合概率(jointprobability) P(A=i,B=j,C=k),用
表示,含义为旅客对A外显变量选择i、对B外显变量选择j的同时,对C外显变量选择k的联合概率。出由于各外显变量不同水平之间完全独立,所以目标函数的最终形式为:
一般而言,潜在类别概率表示了潜在变量X的不同水平的比重,即表示各潜在类别群体大小,而条件概率则更多用于解释各潜在类别的属性特征及意义。
参数估计与模型拟合
(1)极大似然估计量
在LCM中,模型求解的方法主要是极大似然法,至于迭代过程中所使用的算法有EM (expectation-maximization)、NR (Newton-Raphson)等不同算法,其中LCM中广泛使用的是EM算法,其最大优点是具有不受初始值选择影响的稳健性,缺点则是迭代次数较多,且不提供标准误差的估计数。对于一个具有T个潜在类别的潜在变量X的LCM模型,极大似然估计函数如下:
初始值导出后,反复估算得到新的估计数,直到估计数的变化小于一定的程度(低于容忍值tolerance)才停止估计,即LCM参数估计迭代达成收敛。所获得的联合概率估计数即可应用于模型适配检验。
(3)模型适配检验
LCM适配检验方法主要有Pearsonx2、似然比(likelihood ratio, LR)卡方统计量G2,以及AIC指标(Akaike information criterion)和BIC指标(Bayesianinformation criterion),一般认为,各项适配指标均以越小越好,当样本数超过数千人以上或是模型的参数数目较少时,采取BIC指标检验为宜。
潜在分类
分类是LCA的最终目的。潜在类别分析的最后步骤,是将所有的旅客分类到适当的潜在类别中去,分类的原理是利用贝氏理论。假设某一旅客对前文A、B、C三个外显变量的选择行为分别为i、j、k,依据潜在类别模型可以分别求得该旅客属于1至T类潜在类别的概率 (其中t=1,2, …T),此求出该旅客属于第t类的后验概率:
利用公式4-6求出各该旅客属于各个潜在类别的后验概率后,根据后验概率大小判断该旅客应归入的潜在类别,
例如,第t类的后验概率最大,则此旅客归为第t类。对所有旅客进行后验概率的计算与比较,从而实现分类的目的。
为什么要使用该方法?什么情况可使用此方法?
优势
与传统聚类分析的比较
传统的聚类分析方法存在一些固有的不足之处,以最常用的K-means聚类分析为例,其存在以下缺点
- K-means算法随意选择初始的聚类中心,使得聚类效果时好时坏。
2)要事先制定K的值,人为决定存在较大误差。
3)当数据量不多时,输入的数据的顺序不同会导致结果不同。
4)无法确定哪个属性对聚类的贡献更大。
此外,传统的聚类分析方法多是在主成份分析的基础上进行聚类。而主成份分析的本质是减少变量个数、以少数变量来解释尽可能全的信息,并且通过正交变换来使得到的主成份保持独立,这就造成了必然有缺失的信息不能被解释。
LCA在目的与功能上可以看作是主成份分析与聚类分析的结合,其本质是寻找潜在的共同因素(即潜在变量),相比传统聚类分析而言,其具有以下优点:
1)不需剔除变量,保证了外显变量反映的信息的完整度。 - LCA可以对给定的类别数目建模,并比较得到最合适的模型,减少了人为指定K所造成的误差。
- LCA与输入数据的顺序、数据各变量之间的相互顺序无关。
LCA应用领域
潜在变量分析在社会科学研究领域有着重要的地位, LCA也得到了广泛的应用,例如医学、教育学、社会学、心理学等
在医学研究中,若假设心理疾病是一种潜在的特质,没有一个客观明确的诊断标准,而医生也只能通过一些外显的测量,例如对病人语言、行为方面比较,用概率的描述将诊断结果转化为潜在的特质,来界定其是否有心理疾病以及患病程度等。
在教育学领域,为了解学生对科目掌握程度的情况,通过做题测试来进行间接测量,掌握程度就是潜在变量,每个学生对每一道题给出的结果,可以作为观测统计得到的外显变量取值。
在管理学中的能力、信任、自尊、动机、成功等概念,也是人们为了理解和研究社会而建立的假设概念,并不存在直接测量的操作方法,可以作为潜在变量,通过一些问答或其他统计方法间接测量得到外显变量取值
又如假设需要调查对于某个商品的满意度, "满意度”就是潜在变量,是一个不可测量、抽象的概念,为了了解客户对于商品的满意度,就需要设计一系列的问题及指标,例如商品价格、包装、质量、购买途径等等,这些问卷上的题目,就是与“满意度”这个潜在变量对应的外显变量,是可以直接测量得到的。
推荐参考书籍
王孟成、毕向阳 潜变量建模与mplus应用进阶篇
潜在类别分析LCA latent class analysis相关推荐
- Mplus教程:如何做潜在类别分析LCA
之前潜在类别分析已经给大家写的很详细了,不过都是基于R软件的,我发现一个很奇怪的地方哦,找我做潜类别的基本都不用R,找我解决R语言问题的基本都不知道潜类别是干啥的,看样子做潜变量分析还是mplus受众 ...
- 潜在类别分析之R语言篇
潜在类别分析(LCA)是通过对类别型的外显变量和潜在变量之间的关系建立统计模型,来估计外显变量之间的关系. 潜在类别分析要求潜在类别变量均为二分类变量.详细代码如下: # 安装包 install.pa ...
- 概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)
概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA) 目录 概率潜在语义分析(Probabilistic Latent Semantic Anal ...
- R数据分析:潜在转化分析LTA的做法和解释(一)
之前给大家写了很多潜在类别分析的教程Mplus教程:如何做潜在类别分析LCA R数据分析:用R语言做潜类别分析LCA Mplus数据分析:潜在类别分析(LCA)流程(详细版) R数据分析:再写潜在类别 ...
- [统计模型] 基于R的潜在剖面分析(LPA)
本文主要介绍基于R进行潜在剖面分析(Latent Profile Aanalysis, LPA). 关于潜在类别分析LCA/潜在剖面分析LPA的概念和区别,可以参考一下这篇文章: 潜在类别分析LCA ...
- 【译】潜在语义分析Latent Semantic Analysis (LSA)
目录 目录 概述 Tutorial LSA的工作原理 How Latent Semantic Analysis Works 实例A Small Example Part 1 - Creating th ...
- 潜在语义分析(Latent Semantic Analysis)
潜在语义分析(Latent Semantic Analysis) 潜在语义分析(Latent Semantic Analysis, LSA)是自然语言处理中的一种方法或技术.潜在语义分析(LSA)的主 ...
- 潜在语义分析(Latent Semantic Analysis,LSA)
文章目录 1. 单词向量空间.话题向量空间 1.1 单词向量空间 1.2 话题向量空间 2. 潜在语义分析算法 2.1 例子 3. 非负矩阵分解算法 4. TruncatedSVD 潜在语义分析实践 ...
- 概率潜在语义分析(PLSA)(probabilistic latent semantic analysis)
概率潜在语义分析,听名字里边的'概率'一词,就知道这和一般的统计(频数统计/ tfidf 统计)不一样.我们知道LSA是对单词-文本矩阵(频数或tfidf组成的矩阵)进行奇异值分解,LSA的最重要的中 ...
最新文章
- OPPOr7sm恢复出厂设置一直卡在开机界面
- linux系列(六):rmdir命令
- boost::dag_shortest_paths用法的测试程序
- 入门干货之用DVG打造你的项目主页-Docfx、Vs、Github
- 误删docker0网桥之后怎么办呢?
- 原生JS大揭秘—数据类型
- php wiki搭建,wiki网站搭建
- Java SQL注入学习笔记
- WDS+ADK+MDT 部署轻触式系统安装(1)《准备》
- 淘宝B2C上线 马云初试将阿里巴巴三合一
- 【转】博弈论——acm
- cesium-Web页面优化总结
- DDR2(SDRAM)初始化 28个步骤总结
- 洛谷P2678 Java解法
- python爬取携程酒店评论_python爬取携程酒店列表
- 验证码研究入门必读(验证码是什么,有什么用,分类,设计,破解,未来发展)
- 【ACL2021】对话系统:情感、个性与主题转换
- Android 经典 Crash 分析,Android Crash 原理分析
- matlab+whisker,科学网—如何绘制箱线图(Box- Whisker Chart) - 陆绮的博文
- rds mysql 恢复到本地_阿里云RDS数据库备份文件恢复到本地mysql数据库
热门文章
- 如何修改“开机启动系统引导选项”?
- 关于客户机未连接 (32104) 的处理
- outlook添加新账户服务器信息怎么填,outlook如何再添加一个新账户?
- Google收购免费问答网站Aardvark
- Materials Studio软件启动问题:Failed to initialise from settings. xml cleanly
- zabbix无法自动发现并监测华为AR路由器设备温度的解决办法
- vscode设置git和svn(自行下载)
- XSS跨站脚本攻击原理与常见的脚本及《XSS跨站脚本攻击剖析与防御》摘录总结
- 华为一直宣传自主操作系统却没有真正使用,原因为何?
- |英文阅读||权力的游戏|_卷一_序章|No.01