判别分析与聚类分析有非常类似的特性,因此,在多数数据分析的教材中,这两章是一前一后出现的,简而言之,聚类分析,其实是判别分析的基础,即在聚类分析的基础上,总结出各类的权值,将待判样本与各类权值做对比,距离最近的,即为一类。
以下,给出我在判别分析实验中做的一个小例子。

判别分析

人文与发展指数是联合国开发计划署于1990年5月发表的第一份《人类发展报告》中公布的。该报告建议,目前对人文发展的衡量指标应当以人生的三大要素为重点。衡量人生的三大要素的指标分别为:实际人均GDP指数、出生时的预期寿命指数、受教育程度指数(由成人识字率指数和综合总人学率指数按2/3、1/3的权重加权而得),将一生三个指数合成为一个指数就是人文发展指数。今从2007年世界各国人文发展指数(2005年)的排序中,选取高发展水平、中等发展水平和低发展水平国家各6个作为三组样品,另选四个国家作为待判样品,资料如下表所示。试用距离判别对以下数据资料进行判别分析,并据此对待选的四个国家进行判别归类,并使用Fisher 判别写出判别函数。
G 国家 人均GDP(美元) 出生时的预期寿命(岁) 成人识字率(%) 初等、中等和高等教育入学率(%)
第一类:高发展水平国家 1 美国 41890 77.9 99.5 93.3
1 德国 29461 79.1 99.2 88
1 希腊 23381 78.9 96 99
1 新加坡 29663 79.4 92.5 87.3
1 意大利 28529 80.3 98.4 90.6
1 韩国 22029 77.9 99 96
第二类:中等发展水平国家 2 古巴 6000 77.7 99.8 87.6
2 罗马尼亚 9060 71.9 97.3 76.8
2 巴西 8402 71.7 88.6 87.5
2 泰国 8677 69.6 92.6 71.2
2 菲律宾 5137 71 92.6 81.1
2 土耳其 8407 71.4 87.4 68.7
第三类:低发展水平国家 3 尼泊尔 1550 62.6 48.6 58.1
3 尼日利亚 1128 46.5 69.1 56.2
3 喀麦隆 2299 49.8 67.9 62.3
3 巴基斯坦 2370 64.6 49.9 40
3 越南 3071 73.7 90.3 63.9
3 印度尼西亚 3843 69.7 90.4 68.2
待判组 日本 31267 82.3 99 85.9
印度 3452 63.7 61 63.8
中国 6757 72.5 90.9 69.1
南非 11110 50.8 82.4 77

这是在判别分析中非常经典的例题,以下给出SAS代码:

距离判别

data exp;
/*生成训练样本数据集ex_6_2_1; 数据为坐标数据*/
input g $ name $ x1 x2 x3 x4;
cards;
1   美国  41890   77.9    99.5    93.3
1   德国  29461   79.1    99.2    88
1   希腊  23381   78.9    96  99
1   新加坡 29663   79.4    92.5    87.3
1   意大利 28529   80.3    98.4    90.6
1   韩国  22029   77.9    99  96
2   古巴  6000    77.7    99.8    87.6
2   罗马尼亚    9060    71.9    97.3    76.8
2   巴西  8402    71.7    88.6    87.5
2   泰国  8677    69.6    92.6    71.2
2   菲律宾 5137    71  92.6    81.1
2   土耳其 8407    71.4    87.4    68.7
3   尼泊尔 1550    62.6    48.6    58.1
3   尼日利亚    1128    46.5    69.1    56.2
3   喀麦隆 2299    49.8    67.9    62.3
3   巴基斯坦    2370    64.6    49.9    40
3   越南  3071    73.7    90.3    63.9
3   印度尼西亚   3843    69.7    90.4    68.2
;
data testexp;    /*生成待判样品数据集ex1*/
input name $ x1 x2 x3 x4;
cards;
日本  31267   82.3    99  85.9
印度  3452    63.7    61  63.8
中国  6757    72.5    90.9    69.1
南非  11110   50.8    82.4    77
;
proc discrim  data=exp testdata=testexp testout=fexp list listerr testlist testlisterr crosslist  crosslisterr ;
class g;
var x1 x2 x3 x4;
run;
proc print data=fexp;run;

以下是程序结果:




Fish判别

data exp;
input g $ name $ x1 x2 x3 x4;
cards;
1   美国  41890   77.9    99.5    93.3
1   德国  29461   79.1    99.2    88
1   希腊  23381   78.9    96  99
1   新加坡 29663   79.4    92.5    87.3
1   意大利 28529   80.3    98.4    90.6
1   韩国  22029   77.9    99  96
2   古巴  6000    77.7    99.8    87.6
2   罗马尼亚    9060    71.9    97.3    76.8
2   巴西  8402    71.7    88.6    87.5
2   泰国  8677    69.6    92.6    71.2
2   菲律宾 5137    71  92.6    81.1
2   土耳其 8407    71.4    87.4    68.7
3   尼泊尔 1550    62.6    48.6    58.1
3   尼日利亚    1128    46.5    69.1    56.2
3   喀麦隆 2299    49.8    67.9    62.3
3   巴基斯坦    2370    64.6    49.9    40
3   越南  3071    73.7    90.3    63.9
3   印度尼西亚   3843    69.7    90.4    68.2
;
proc candisc data=exp out=outcan simple;
class g;
var x1 x2 x3 x4;
proc print data=outcan;
run;
proc plot ;
plot  can2*can1=g; /*如果不足两个典型变量则不产生散点图*/
run;





最后四个观测的归类结果为19号(日本)观测为高发展水平国家,第20号(印度)为第3类,即低发展水平国家,21号(中国)和22号(南非)归为中等发展水平国家。

SAS数据分析之判别分析相关推荐

  1. 清华大学大数据能力提升项目三名学生斩获2017年中国高校SAS数据分析大赛亚军

    2017年11月20日,2017中国高校SAS数据分析大赛颁奖典礼在钓鱼台国宾馆举行.清华大学今年首次组队参赛,在与北京大学.人民大学.复旦大学等1036支参赛团队激烈比拼后,清华大学大数据能力提升项 ...

  2. “十月围城”中国高校SAS数据分析大赛将再燃战火

    ZDNet至顶网软件频道消息: SAS公司正式宣布启动"汇丰杯"--2015年中国高校SAS数据分析大赛.大赛面向全国高校数据分析相关专业的在校本科生与研究生,是非盈利性的公益大赛 ...

  3. 视频教程-SAS数据分析:从入门到企业实战-数据挖掘

    SAS数据分析:从入门到企业实战 10年一线开发及项目管理经验,6年以上大数据项目架构.实施.开发与运维经验,骨灰级大数据玩家,对Hadoop.Storm.Spark.Flink.Kylin.Drui ...

  4. 视频教程-完整的Python和SAS数据分析-大数据

    完整的Python和SAS数据分析 北美运筹学硕士,统计学博士 就职于北美各大银行,信用局,交通和零售企业和咨询公司 李盛刚 ¥168.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+ ...

  5. 2013中国高校SAS数据分析大赛完美落幕

    文章讲的是2013中国高校SAS数据分析大赛完美落幕,2013年11月11日消息,由商业分析软件与服务供应商SAS公司发起的"2013年中国高校SAS数据分析大赛"完美落幕,颁奖典 ...

  6. 从数据小白到大赛黑马,他们如是说 | 专访2017中国高校SAS数据分析大赛亚军团队

    近日,2017年中国高校SAS数据分析大赛在北京举办了颁奖仪式,来自清华大学大数据能力提升项目的三位学生(王存光.姚超.李继凡)组队参赛,并一举斩获了亚军殊荣.这项以"高校数据分析人才&qu ...

  7. 从数据小白到大赛黑马,他们如是说 | 专访2017中国高校SAS数据分析大赛亚军团队...

    近日,2017年中国高校SAS数据分析大赛在北京举办了颁奖仪式,来自清华大学大数据能力提升项目的三位学生(王存光.姚超.李继凡)组队参赛,并一举斩获了亚军殊荣.这项以"高校数据分析人才&qu ...

  8. 数据分析方法——判别分析

    5.1 距离盘被 5.1.1 2个总体的距离判别 最常见的是欧氏距离,d(x,y)=sqrt(Σ(x-y)^2). 但是由判别分析中采用欧氏距离不合适,因为没有考虑总体分布的分散性信息,通常采用的是马 ...

  9. 16种常用的数据分析方法-判别分析

    判别分析又称为线性判别分析(Linear Discriminant Analysis).产生于20世纪30年代,是利用已知类别的样本建立判别模型,为未知类别的样本判别的一种统计方法. ​ 判别分析方法 ...

最新文章

  1. 【推荐】Flex+asp.net上传文件
  2. 【Flutter】Flutter 混合开发 ( Flutter 与 Native 通信 | 在 Flutter 端实现 EventChannel 通信 )
  3. Apache RocketMQ 4.8.0,DLedger 模式全面提升!
  4. 两个子线程不冲突_多线程操作可见性
  5. 关于vc++调用 exe文件的问题
  6. html 父元素右下角,html – 如何在父元素和父元素的兄弟元素上显示子元素?
  7. Go语言实战 - 网站性能优化第一弹“七牛云存储”
  8. Photoshop7.0安装步骤
  9. Springer LNCS Latex 模板 无法下载
  10. java中POJO、PO、BO、VO、DTO和DAO的概念
  11. 机器学习:02 特征工程和决策树回归
  12. 润乾报表统计图各属性功能介绍
  13. 融入动画技术的交互应用——解压小游戏“蒲公英与星”
  14. 计算机网络在资源共享信息交换的体会,计算机网络学习心得体会.doc
  15. linux 开启rsh权限,开启rsh服务
  16. pythonif多个条件同时满足_Python基础:条件控制if
  17. c语言编程实现简单三子棋游戏
  18. win7局域网自建ftp服务器,win7系统搭建FTp服务器局域网内传输文件的解决教程
  19. 滴滴实时计算平台在运营监控方面的应用
  20. 计算机中的三类总线是什么,计算机的三类总线分别是什么?

热门文章

  1. PHP+mysql寿光蔬菜大棚宣传平台-计算机毕业设计源码88288
  2. 国密算法SSL安全通道Tomcat7的配置,适配360国密浏览器,密信国密浏览器,海泰红莲花国密浏览器
  3. 欧几里得度量.txt
  4. matlab 画实心矩形,用matlab画最小外接矩形
  5. networkmanager connect Ap by bssid fail
  6. https://blog.csdn.net/lu_embedded/article/details/82997438
  7. lhgdialog 弹出窗口插件 API
  8. 嵌入式Linux编程基础ppt,嵌入式LinuxC高级编程.ppt
  9. 雅酷互动flash as2简易教程第3篇
  10. [半平面交]小凸想跑步 LibreOJ2008