python根据品种散点图鸢尾花_SPSS分析技术:典型判别分析;由鸢(yuan)尾花分类发展而来的分析方法...
前面介绍的因子分析和聚类分析都是围绕变量进行的分析,这里的变量不分因变量和自变量。因子分析通过变量结构的研究,达到降低维度的目的,使数量很多的变量浓缩成少量的互相独立的公因子,简化了后续的分析;聚类分析通过研究个案(记录)共有的属性变量,依据它们之间距离的远近,将数量众多的个案(记录)分成几个类型。
判别分析有很多类型,今天介绍的是典型判别分析,从分析原理来看,其与因子分析类似;从模型结构来看,则与前面介绍的逻辑回归相似。
典型判别分析原理
判别分析与因子分析和聚类分析不同,判别分析需要区分因变量和自变量,其中因变量是分类型数据(定类或定序),而自变量可以是任何尺度的数据,只是分类型自变量需要以虚拟变量的形式进入判别模型。以上这些和逻辑回归模型是一致的,不同之处在于判别分析的目的是建立原始变量的线性组合,使得根据因变量划分的不同类别之间差异最大,而逻辑回归模型的拟合方法是极大似然法,它们在模型拟合方法上是完全不同的。如果自变量中连续型变量较多,那么判别分析更为准确,如果分类型变量较多,则逻辑回归分析较为好用,大家可以根据实际分析结果来选择。
判别分析的能够用于很多领域,它可以根据已知样本的分类情况来判断未知待判样本的类别归属。例如,客户信用风险判别、客户分类、地层判断、模式识别等,是应用相当广泛的多元统计技术。
典型判别分析是基于方差分析的思想创造出来的,它试图找到一个由原始自变量组成的线性函数,使得不同总体的组间差异与组内差异的比值最大。如下方左图所示,在原始变量X1和X2组成的坐标系中,两个总体在两个坐标轴上都有部分重合;可喜的是,通过将原始变量X1和X2线性组合,可以得到一个新变量(判别函数),它可以把两个总体区分开。因此只需使用新判别函数代替两个原始变量对两个总体进行区别,就能得到更好的结果,这就是典型判别分析的基本思想。
判别分析与因子分析
从上面介绍的典型判别分析原理来看,其与因子分析的原理有类似的地方,它们都是通过原始变量的线性组合得到新的变量,从而实现分析目的。它们的区别主要可以概括成以下两个方面:
判别分析是因果模型,研究自变量如何影响因变量,而因子分析是相依模型,没有因变量和自变量之分。
判别分析的原始变量线性组合的目的是找到新的维度(变量),使得因变量的不同类别之间的差异最大。因子分析的原始变量线性组合的目的是找到新的维度,减少原始变量的个数,避免原始变量的共线性关系影响后续分析。
案例分析
判别分析最初是由费舍尔(Fisher)在植物分类研究中提出的,英文简写为LDF/DF,也就是线性判别分析(Linear
DiscriminantAnalysis)。今天案例所使用的数据就是费舍尔当初提出判别分析所用的鸢(yuan)尾花的植株尺寸数据。
该数据包含刚毛鸢尾花、变色鸢尾花、佛吉尼亚鸢尾花的花萼长、花萼宽、花瓣长和花瓣宽数据,希望能够使用这四个变量建立判别不同类型鸢尾花的模型。数据如下图所示:
分析步骤
1、选择菜单【分析】-【分类】-【判别式】。将品种选入分组变量;将鸢尾花的四个尺寸变量选为自变量。自变量进入方式选择一起进入。如果需要对自变量进行筛选,也可以选择步进法,选中步进法后【方法】按钮将亮起,可以选择距离计算方式。点击【定义范围】,因为本案例鸢尾花的三个品种代码分别为1,2,3,所以最小值填写1,最大值填写3。
2、点击【分类】按钮,按照如下方式选择。显示框中的内容是判别分析得结果表格。重点强调留一分类,表示按照数据的顺序,间隔一个记录选择进入判别分析模型,最终一半记录用于模型分析,另一半记录用于模型效果验证。图框内可供选择的图形有三种,合并图和分组图区别在于因变量的三个类型是放入一张图还是分成三张图显示。
3、点击【保存】按钮,将所有三个选项选中,分析结束后,会在数据中新生成三个变量。
4、点击确定,输出结果。
结果解释
1、判别函数特征值;前面介绍过,判别分析与因子分析的原理类似,判别函数的提取方式和因子分析是一样的,通过原始变量的线性组合,因此下表的解读也一样。特征根代表携带原始变量的信息量大小,从特征根计算得到方差解释度(方差百分比)。本案例只提取两个判别函数,第一个判别函数能够解释99%的原始变量信息。
2、特征根显著性检验;原假设是各分组的均值向量相等,也就是不同分组之间的重心完全重合,无法进行判别区分。从结果可知,三种鸢尾花的尺寸重心在判别函数1和判别函数2的坐标轴上没有重合,因此两个判别函数都有意义。
3、标准化系数表格;
上表显示两个判别函数由各个变量组成的标准化系数,由此可以了解变量对判别函数的影响大小。同时可以写出标准化的判别函数式。
4、结构矩阵;判别得分与自变量间的相关系数。结果中用星号标出与两个判别函数相关性更大的自变量。有结果可知,判别函数1主要与花瓣长变量相关,花萼长、花萼宽和花瓣宽则与判别函数2相关性更大。由前面的特征根知道,判别函数1携带99%的自变量信息,因此可以推断花瓣长变量在判别分析中起了最主要的作用。
5、判别得分计算公式;
根据上表可以写出两个判别得分的计算公式,这里所用的变量数据为原始数据:
6、三个鸢尾花品种在两个判别函数坐标系内的坐标。
前面的判别函数检验就是检验三个品种在两个判别函数上的取值是否相等。在获得三个品种的重心后,只需比较每个个案离哪个重心距离近,就将该个案判别为哪个类别。
7、领域图;两个判别函数分别构成了图形的两个坐标轴,而三个品种的重心用星号表示,整个平面被两条分界线分开。每个个案的判别得分处于哪个部分,就属于哪个品种。
8、典型判别函数散点图;从散点图看,三个品种的鸢尾花在两个判别函数坐标系内被区分的很开,效果很不错。
9、判别结果;从结果可知,150个个案有147个被正确分类。而使用“留一分类”方法(一半个案用于判别函数拟合,另一半用于验证)得到的结果是146个个案被正确判断,准确率都很高,说明该判别分析结果可以用于预测。
python根据品种散点图鸢尾花_SPSS分析技术:典型判别分析;由鸢(yuan)尾花分类发展而来的分析方法...相关推荐
- python根据品种散点图鸢尾花_[Python机器学习]鸢尾花分类 机器学习应用
1.问题简述 假设有一名植物学爱好者对她发现的鸢尾花的品种很感兴趣.她收集了每朵鸢尾花的一些测量数据: 花瓣的长度和宽度以及花萼的长度和宽度,所有测量结果的单位都是厘米. 她还有一些鸢尾花的测量数据, ...
- python根据品种散点图鸢尾花_python机器学习入门到精通--实战分析(三)
利用sklearn分析鸢尾花 前面两篇文章提到了机器学习的入门的几个基础库及拓展练习,现在我们就对前面知识点进行汇总进行一个简单的机器学习应用,并构建模型. 练习即假定一名植物专家收集了每一朵鸢尾花的 ...
- java 计算移动平均线_基于Java语言开发的个性化股票分析技术:移动平均线(MA)...
基于Java语言开发的个性化股票分析技术:移动平均线(MA) 基于 Java 语言开发的个性化股票分析技术:移动平均线(MA)移动平均线(MA)是以道·琼斯的"平均成本概念"为理论 ...
- 这些大酒店用大数据和分析技术对我们做了什么?
酒店和酒店服务业每天在接待数以百万计的旅客,每一个旅客在办理入住手续时自然都抱有不同的期望.满足这些期望是让客人成为回头客的关键,如今酒店和休闲设施运营商日益借助先进的分析解决方案,了解如何做到让客人 ...
- 《大数据》专题征文:大数据可视分析技术与应用
点击上方蓝字关注我们 <大数据>专题征文:大数据可视分析技术与应用 (截稿时间:2020年12月31日) 随着信息技术的飞速发展,特别是网络的普及,人类产生的数据量呈现爆炸式增长.而可视化 ...
- 正确认识智能视频分析技术
两极的观点 智能视频分析技术乃是这两年安防领域的一个重要话题,随着多家国外厂商产品进入国内市场,令国内的安防市场业内之人似乎在一夜之间发现了一个新奇的物件,许多人都在热烈地讨论它,议论它.欢呼 ...
- 智能视频分析技术及应用扫盲
题记:如果四年前你没听说过智能视频分析系统,那很正常,如果你现在还不知道什么是智能视频系统(IVS)系统,那作为一个安防人,说明你已经落伍了.因为它是未来监控的发展方向,行业称之为第五代电视监控技术, ...
- SPSS分析技术(导航页)
版本号:20171027 直接点击蓝色文章名称即可阅读! 持续更新,获取最新版本请前往[分析软件]-[SPSS]! 平台学习指南 1 如何通过"SPSS生活统计学"微信公众号学习数 ...
- 细胞多重分析技术市场现状研究分析报告-
辰宇信息咨询市场调研公司最近发布-<2022-2028中国细胞多重分析技术市场现状研究分析与发展前景预测报告 > 内容摘要 本文研究中国市场细胞多重分析技术现状及未来发展趋势,侧重分析在中 ...
最新文章
- placement new机制初探
- 烂泥:学习ssh之ssh无密码登陆
- Mac连接远程Linux管理文件(samba)
- python 关于excelcsv与cookie的部分笔记
- 甲骨文将Exadata Cloud转化为内部软件包
- halcon求取区域顶点
- linux at查看进程命令,at命令 - Linux命令大全 | linux教程
- highcharts第一篇---简介和使用
- Elasticsearch安装X-Pack插件
- 小米人APK改之理(APK IDE)
- 【笔记】EFCore SQLite 拼音汉字互换
- 计算机程序图标在哪,我的文档不见了 我的文档路径在哪 找回图标方法_电脑软硬件应用网_做中国最专业的计算机应用解决技术网站...
- [Python]根据ip地址计算子网掩码位数
- 溶剂可及性(一):基本概念
- app如何更换用户头像信息呢?不妨这样做
- Python -- 找出100以内的所有质数
- Win32 游戏开发:贪吃蛇 上篇
- 笨重POS机遇到便捷APP谁更有优势?
- 安全合规--53--数据分类分级标准汇总
- Android学习笔记----解决“com.android.dex.DexIndexOverflowException: method ID not in [0, 0xffff]: 65536”问题