SAS数据分析之判别分析
判别分析与聚类分析有非常类似的特性,因此,在多数数据分析的教材中,这两章是一前一后出现的,简而言之,聚类分析,其实是判别分析的基础,即在聚类分析的基础上,总结出各类的权值,将待判样本与各类权值做对比,距离最近的,即为一类。
以下,给出我在判别分析实验中做的一个小例子。
判别分析
人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。衡量人生的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。今从2007年世界各国人文发展指数(2005年)的排序中,选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。试用距离判别对以下数据资料进行判别分析,并据此对待选的四个国家进行判别归类,并使用Fisher 判别写出判别函数。
G 国家 人均GDP(美元) 出生时的预期寿命(岁) 成人识字率(%) 初等、中等和高等教育入学率(%)
第一类:高发展水平国家 1 美国 41890 77.9 99.5 93.3
1 德国 29461 79.1 99.2 88
1 希腊 23381 78.9 96 99
1 新加坡 29663 79.4 92.5 87.3
1 意大利 28529 80.3 98.4 90.6
1 韩国 22029 77.9 99 96
第二类:中等发展水平国家 2 古巴 6000 77.7 99.8 87.6
2 罗马尼亚 9060 71.9 97.3 76.8
2 巴西 8402 71.7 88.6 87.5
2 泰国 8677 69.6 92.6 71.2
2 菲律宾 5137 71 92.6 81.1
2 土耳其 8407 71.4 87.4 68.7
第三类:低发展水平国家 3 尼泊尔 1550 62.6 48.6 58.1
3 尼日利亚 1128 46.5 69.1 56.2
3 喀麦隆 2299 49.8 67.9 62.3
3 巴基斯坦 2370 64.6 49.9 40
3 越南 3071 73.7 90.3 63.9
3 印度尼西亚 3843 69.7 90.4 68.2
待判组 日本 31267 82.3 99 85.9
印度 3452 63.7 61 63.8
中国 6757 72.5 90.9 69.1
南非 11110 50.8 82.4 77
这是在判别分析中非常经典的例题,以下给出SAS代码:
距离判别
data exp;
/*生成训练样本数据集ex_6_2_1; 数据为坐标数据*/
input g $ name $ x1 x2 x3 x4;
cards;
1 美国 41890 77.9 99.5 93.3
1 德国 29461 79.1 99.2 88
1 希腊 23381 78.9 96 99
1 新加坡 29663 79.4 92.5 87.3
1 意大利 28529 80.3 98.4 90.6
1 韩国 22029 77.9 99 96
2 古巴 6000 77.7 99.8 87.6
2 罗马尼亚 9060 71.9 97.3 76.8
2 巴西 8402 71.7 88.6 87.5
2 泰国 8677 69.6 92.6 71.2
2 菲律宾 5137 71 92.6 81.1
2 土耳其 8407 71.4 87.4 68.7
3 尼泊尔 1550 62.6 48.6 58.1
3 尼日利亚 1128 46.5 69.1 56.2
3 喀麦隆 2299 49.8 67.9 62.3
3 巴基斯坦 2370 64.6 49.9 40
3 越南 3071 73.7 90.3 63.9
3 印度尼西亚 3843 69.7 90.4 68.2
;
data testexp; /*生成待判样品数据集ex1*/
input name $ x1 x2 x3 x4;
cards;
日本 31267 82.3 99 85.9
印度 3452 63.7 61 63.8
中国 6757 72.5 90.9 69.1
南非 11110 50.8 82.4 77
;
proc discrim data=exp testdata=testexp testout=fexp list listerr testlist testlisterr crosslist crosslisterr ;
class g;
var x1 x2 x3 x4;
run;
proc print data=fexp;run;
以下是程序结果:
Fish判别
data exp;
input g $ name $ x1 x2 x3 x4;
cards;
1 美国 41890 77.9 99.5 93.3
1 德国 29461 79.1 99.2 88
1 希腊 23381 78.9 96 99
1 新加坡 29663 79.4 92.5 87.3
1 意大利 28529 80.3 98.4 90.6
1 韩国 22029 77.9 99 96
2 古巴 6000 77.7 99.8 87.6
2 罗马尼亚 9060 71.9 97.3 76.8
2 巴西 8402 71.7 88.6 87.5
2 泰国 8677 69.6 92.6 71.2
2 菲律宾 5137 71 92.6 81.1
2 土耳其 8407 71.4 87.4 68.7
3 尼泊尔 1550 62.6 48.6 58.1
3 尼日利亚 1128 46.5 69.1 56.2
3 喀麦隆 2299 49.8 67.9 62.3
3 巴基斯坦 2370 64.6 49.9 40
3 越南 3071 73.7 90.3 63.9
3 印度尼西亚 3843 69.7 90.4 68.2
;
proc candisc data=exp out=outcan simple;
class g;
var x1 x2 x3 x4;
proc print data=outcan;
run;
proc plot ;
plot can2*can1=g; /*如果不足两个典型变量则不产生散点图*/
run;
最后四个观测的归类结果为19号(日本)观测为高发展水平国家,第20号(印度)为第3类,即低发展水平国家,21号(中国)和22号(南非)归为中等发展水平国家。
SAS数据分析之判别分析相关推荐
- 清华大学大数据能力提升项目三名学生斩获2017年中国高校SAS数据分析大赛亚军
2017年11月20日,2017中国高校SAS数据分析大赛颁奖典礼在钓鱼台国宾馆举行.清华大学今年首次组队参赛,在与北京大学.人民大学.复旦大学等1036支参赛团队激烈比拼后,清华大学大数据能力提升项 ...
- “十月围城”中国高校SAS数据分析大赛将再燃战火
ZDNet至顶网软件频道消息: SAS公司正式宣布启动"汇丰杯"--2015年中国高校SAS数据分析大赛.大赛面向全国高校数据分析相关专业的在校本科生与研究生,是非盈利性的公益大赛 ...
- 视频教程-SAS数据分析:从入门到企业实战-数据挖掘
SAS数据分析:从入门到企业实战 10年一线开发及项目管理经验,6年以上大数据项目架构.实施.开发与运维经验,骨灰级大数据玩家,对Hadoop.Storm.Spark.Flink.Kylin.Drui ...
- 视频教程-完整的Python和SAS数据分析-大数据
完整的Python和SAS数据分析 北美运筹学硕士,统计学博士 就职于北美各大银行,信用局,交通和零售企业和咨询公司 李盛刚 ¥168.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+ ...
- 2013中国高校SAS数据分析大赛完美落幕
文章讲的是2013中国高校SAS数据分析大赛完美落幕,2013年11月11日消息,由商业分析软件与服务供应商SAS公司发起的"2013年中国高校SAS数据分析大赛"完美落幕,颁奖典 ...
- 从数据小白到大赛黑马,他们如是说 | 专访2017中国高校SAS数据分析大赛亚军团队
近日,2017年中国高校SAS数据分析大赛在北京举办了颁奖仪式,来自清华大学大数据能力提升项目的三位学生(王存光.姚超.李继凡)组队参赛,并一举斩获了亚军殊荣.这项以"高校数据分析人才&qu ...
- 从数据小白到大赛黑马,他们如是说 | 专访2017中国高校SAS数据分析大赛亚军团队...
近日,2017年中国高校SAS数据分析大赛在北京举办了颁奖仪式,来自清华大学大数据能力提升项目的三位学生(王存光.姚超.李继凡)组队参赛,并一举斩获了亚军殊荣.这项以"高校数据分析人才&qu ...
- 数据分析方法——判别分析
5.1 距离盘被 5.1.1 2个总体的距离判别 最常见的是欧氏距离,d(x,y)=sqrt(Σ(x-y)^2). 但是由判别分析中采用欧氏距离不合适,因为没有考虑总体分布的分散性信息,通常采用的是马 ...
- 16种常用的数据分析方法-判别分析
判别分析又称为线性判别分析(Linear Discriminant Analysis).产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法. 判别分析方法 ...
最新文章
- 【推荐】Flex+asp.net上传文件
- 【Flutter】Flutter 混合开发 ( Flutter 与 Native 通信 | 在 Flutter 端实现 EventChannel 通信 )
- Apache RocketMQ 4.8.0,DLedger 模式全面提升!
- 两个子线程不冲突_多线程操作可见性
- 关于vc++调用 exe文件的问题
- html 父元素右下角,html – 如何在父元素和父元素的兄弟元素上显示子元素?
- Go语言实战 - 网站性能优化第一弹“七牛云存储”
- Photoshop7.0安装步骤
- Springer LNCS Latex 模板 无法下载
- java中POJO、PO、BO、VO、DTO和DAO的概念
- 机器学习:02 特征工程和决策树回归
- 润乾报表统计图各属性功能介绍
- 融入动画技术的交互应用——解压小游戏“蒲公英与星”
- 计算机网络在资源共享信息交换的体会,计算机网络学习心得体会.doc
- linux 开启rsh权限,开启rsh服务
- pythonif多个条件同时满足_Python基础:条件控制if
- c语言编程实现简单三子棋游戏
- win7局域网自建ftp服务器,win7系统搭建FTp服务器局域网内传输文件的解决教程
- 滴滴实时计算平台在运营监控方面的应用
- 计算机中的三类总线是什么,计算机的三类总线分别是什么?
热门文章
- PHP+mysql寿光蔬菜大棚宣传平台-计算机毕业设计源码88288
- 国密算法SSL安全通道Tomcat7的配置,适配360国密浏览器,密信国密浏览器,海泰红莲花国密浏览器
- 欧几里得度量.txt
- matlab 画实心矩形,用matlab画最小外接矩形
- networkmanager connect Ap by bssid fail
- https://blog.csdn.net/lu_embedded/article/details/82997438
- lhgdialog 弹出窗口插件 API
- 嵌入式Linux编程基础ppt,嵌入式LinuxC高级编程.ppt
- 雅酷互动flash as2简易教程第3篇
- [半平面交]小凸想跑步 LibreOJ2008