数模分析第五天---判别分析
由往年美赛题分析
需由函数来判别新样本属于哪个总体,由此我们引入判别分析。
距离判别
简单来说就是通过样品到总体的距离来判断属于哪个总体。
欧几里得距离
A到G1的中心欧几里得距离比到G2中心的欧几里得距离近,是否A处的样品属于总体1呢?
而总体G1的样本则非常集中,因此A处的样品属于总体G 2 的概率明显大于属于总体G1的概率,也就是说,A处的样品属于总体G2的“可能性”明显大于属于总体G1的“可能性”。
我们得出:
用欧几里得距离来度量样品到总体的距离具有局限性。
马氏距离
要判断新样本来自哪个总体,则只需计算新样本到两个总体的马氏距离。
进一步简化该判别式,可用以下方法:
通常地, a称为判别系数向量, W 称为线性判别函数。在实际应用中,总体的均值和协方差阵一般是未知的,我们所知道的仅仅是一组样本或者观测值, 在这种情况下,就需要利用数理统计的知识对各项数值进行估计。
距离判别不足
距离判别方法简单实用,容易实现,并且结论的意义明确。但距离判别有以下缺点:
(1) 没有考虑各总体本身出现的可能性;
(2) 错判造成的损失在距离判别中也没有考虑。
为了克服这些不足,下面介绍Bayes 判别。
贝叶斯判别
所谓贝叶斯(Bayes) 判别,就是在考虑各总体的先验概率和错判损失情况下, 给出空间的一个划分使得运用此划分来判别归类时,所带来的平均错判损失最小。
先验概率可定为蠓虫的6/15,9/15,也可设置为一致或是由经验和文献进行估计。
错判损失可由经验和文献进行估计。
记错判损失为:
L(j | i) (i,j=1,2…k)
精确计算误判概率是一个非常困难的问题,实际应用中,一般根据一定的规则来估计误判概率
(1) 利用训练样本为检验集,用判别方法对训练样本进行判断,统计误判的样本个数,计算误判样本占总样本的比例,并作为误判概率的估计值;
(2) 当训练样本足够大时,从训练样本中预留一部分作为检验集, 记录判错比率, 作为误判概率的估计
(3) 运用舍一法:每次预留一个样本来检验,用剩下的样本建立判别准则,循环检验完所有训练样本, 记录判错的比率, 以此作为误判概率的估计值。
确定平均损失
能找到D使得g(D)即平均损失最小,即为贝叶斯判别的解。
解题步骤
在介绍了判别分析方法后,具体解题步骤如下:
检验判别模型
1.回代误判法
n12:属于G1被误判属于G2的样本个数。
n21: 属于G2被误判属于G1的样本个数。
则回代误判率为:
2.交叉验证法
从G1的n1个样本中每次留一个作为验证样本, 其余n1 -1个与G2的n2个一起作为训练样本建立判别准则, 检验验证样本。
总结
距离判别方法思路简单、直观,应用广泛,特别是线性距离判别模型.
距离判别方法的缺点:没有考虑环境中不同总体出现的概率会有差别。没有涉及误判造成的损失.。而Bayes 判别模型弥补了这些缺陷。
模型检验用的回代误判法虽然简单,缺点是建立与检验判别准则使用相同的样本,往往会低估误判率。交叉验证法 虽计算量较大,但克服了回代法的缺点 ,是一种较好的检验方法。
数模分析第五天---判别分析相关推荐
- 数模笔记(五):变异系数法
数模笔记(一):线性规划.整数规划及非线性规划 数模笔记(二):层次分析法 数模笔记(三):灰色系统分析方法 数模笔记(四):插值与拟合 一.原理 若某项指标的数值差异较大,能明确区分开各被评价对象, ...
- 数模培训第五周——数据处理方法
灰色系统模型及预测 灰色系统模型在数据处理和预测中经常使用. 灰色系统理论建模特点:原始数据必须等时间间距. 处理思路:首先对原始数据进行累加,弱化原始时间序列数据的随 机因素.然后建立生成数的微分方 ...
- 一文速学数模-时序预测模型(五)指数平滑法详解+Python代码实现
目录 前言 一.指数平滑法 1.简介 2.特点 3.基本原理 4.优缺点 优点 缺点</
- 数模笔记(三):灰色系统分析方法
数模笔记(一):线性规划.整数规划及非线性规划 数模笔记(二):层次分析法 数模笔记(三):灰色系统分析方法 数模笔记(四):插值与拟合 数模笔记(五):变异系数法 数模笔记(六):两变量相关性分析与 ...
- 数模笔记(一):线性规划、整数规划及非线性规划1.0
数模笔记目录 数模笔记(一):线性规划.整数规划及非线性规划 数模笔记(二):层次分析法 数模笔记(三):灰色系统分析方法 数模笔记(四):插值与拟合 数模笔记(五):变异系数法 数模笔记(六):两变 ...
- 数模第五次作业:自己实现斯皮尔曼相关系数
数模自用 1.斯皮尔曼系数及P值计算 %利用第一种方法计算斯皮尔曼相关系数 %即先对X和Y两个指标的数据进行等级的排序 %并计算等级差 %将其平方 %利用公式计算得出 function [R,P]=f ...
- CT 系统参数标定及反投影重建成像-2017数模国赛论文A298编程分析
CT 系统参数标定及反投影重建成像-2017数模国赛论文A298编程分析 之前的同学已经讲解清楚了这篇论文建模的主要思路,我主要讲解代码对建模思路的实现. 本文提到的论文下载地址:http://dxs ...
- 数模第一次作业:层次分析法分析养殖场动物方案
学习数模自用代码,方便队友复制粘贴写论文 1.判断一致性 %计算一致性% 创建一个矩阵(默认) % A =[1 1 4 1/3 3; % 1 1 4 1/3 3; % 1/4 1/4 1 1/3 1/ ...
- lda 吗 样本中心化 需要_机器学习 —— 基础整理(四):特征提取之线性方法——主成分分析PCA、独立成分分析ICA、线性判别分析LDA...
本文简单整理了以下内容: (一)维数灾难 (二)特征提取--线性方法 1. 主成分分析PCA 2. 独立成分分析ICA 3. 线性判别分析LDA (一)维数灾难(Curse of dimensiona ...
最新文章
- 关于微型计算机主板的描述错误的是,2016年9月计算机一级考试试题及答案「单选」...
- Apache Flink 零基础入门(十三)Flink 计数器
- MySQL安装与基本使用
- 图解SQL Join用法
- 三种CSS样式的引用方式
- sas infile和filename
- 21. PE结构-PE各个结构的基本概念
- webpack配置路径问题
- java html转图片_Python一键转Java?“Google翻译”你别闹
- OpenCV在jni中使用混合高斯背景模型出现的通道匹配错误
- Java教程:Java String字符串和整型int的相互转换
- [.net 面向对象程序设计进阶] (9) 序列化(Serialization) (一) 二进制流序列化
- 每天一算法(二)实现栈的push pop 操作,并可以输出栈的最小值
- 国外NetDevOps资源工具清单分享
- FileZilla Client 3.26.1 发布,FTP 解决方案
- H3C-云计算技术专题培训(分享六)
- Python实现Word文档翻译
- VS_MFC:压缩文件存储空间
- 申请了雅虎邮箱的全新域名@yahoo.cn ID
- BT源代码学习心得(十):客户端源代码分析(相关对象一览) -- 转贴自 wolfenstein (NeverSayNever)