由往年美赛题分析


需由函数来判别新样本属于哪个总体,由此我们引入判别分析。

距离判别

简单来说就是通过样品到总体的距离来判断属于哪个总体。

欧几里得距离



A到G1的中心欧几里得距离比到G2中心的欧几里得距离近,是否A处的样品属于总体1呢?
而总体G1的样本则非常集中,因此A处的样品属于总体G 2 的概率明显大于属于总体G1的概率,也就是说,A处的样品属于总体G2的“可能性”明显大于属于总体G1的“可能性”。
我们得出:
用欧几里得距离来度量样品到总体的距离具有局限性。

马氏距离



要判断新样本来自哪个总体,则只需计算新样本到两个总体的马氏距离。

进一步简化该判别式,可用以下方法:

通常地, a称为判别系数向量, W 称为线性判别函数。在实际应用中,总体的均值和协方差阵一般是未知的,我们所知道的仅仅是一组样本或者观测值, 在这种情况下,就需要利用数理统计的知识对各项数值进行估计。

距离判别不足

距离判别方法简单实用,容易实现,并且结论的意义明确。但距离判别有以下缺点:
(1) 没有考虑各总体本身出现的可能性;
(2) 错判造成的损失在距离判别中也没有考虑。
为了克服这些不足,下面介绍Bayes 判别。

贝叶斯判别

所谓贝叶斯(Bayes) 判别,就是在考虑各总体的先验概率错判损失情况下, 给出空间的一个划分使得运用此划分来判别归类时,所带来的平均错判损失最小。

先验概率可定为蠓虫的6/15,9/15,也可设置为一致或是由经验和文献进行估计。
错判损失可由经验和文献进行估计。
记错判损失为:
L(j | i) (i,j=1,2…k)


精确计算误判概率是一个非常困难的问题,实际应用中,一般根据一定的规则来估计误判概率
(1) 利用训练样本为检验集,用判别方法对训练样本进行判断,统计误判的样本个数,计算误判样本占总样本的比例,并作为误判概率的估计值;
(2) 当训练样本足够大时,从训练样本中预留一部分作为检验集, 记录判错比率, 作为误判概率的估计
(3) 运用舍一法:每次预留一个样本来检验,用剩下的样本建立判别准则,循环检验完所有训练样本, 记录判错的比率, 以此作为误判概率的估计值。

确定平均损失


能找到D使得g(D)即平均损失最小,即为贝叶斯判别的解。

解题步骤

在介绍了判别分析方法后,具体解题步骤如下:

检验判别模型

1.回代误判法

n12:属于G1被误判属于G2的样本个数。
n21: 属于G2被误判属于G1的样本个数。
则回代误判率为:

2.交叉验证法
从G1的n1个样本中每次留一个作为验证样本, 其余n1 -1个与G2的n2个一起作为训练样本建立判别准则, 检验验证样本。

总结

距离判别方法思路简单、直观,应用广泛,特别是线性距离判别模型.
距离判别方法的缺点:没有考虑环境中不同总体出现的概率会有差别。没有涉及误判造成的损失.。而Bayes 判别模型弥补了这些缺陷。
模型检验用的回代误判法虽然简单,缺点是建立与检验判别准则使用相同的样本,往往会低估误判率。交叉验证法 虽计算量较大,但克服了回代法的缺点 ,是一种较好的检验方法。

数模分析第五天---判别分析相关推荐

  1. 数模笔记(五):变异系数法

    数模笔记(一):线性规划.整数规划及非线性规划 数模笔记(二):层次分析法 数模笔记(三):灰色系统分析方法 数模笔记(四):插值与拟合 一.原理 若某项指标的数值差异较大,能明确区分开各被评价对象, ...

  2. 数模培训第五周——数据处理方法

    灰色系统模型及预测 灰色系统模型在数据处理和预测中经常使用. 灰色系统理论建模特点:原始数据必须等时间间距. 处理思路:首先对原始数据进行累加,弱化原始时间序列数据的随 机因素.然后建立生成数的微分方 ...

  3. 一文速学数模-时序预测模型(五)指数平滑法详解+Python代码实现

    目录 前言 一.指数平滑法 1.简介 2.特点 3.基本原理 4.优缺点 优点 缺点</

  4. 数模笔记(三):灰色系统分析方法

    数模笔记(一):线性规划.整数规划及非线性规划 数模笔记(二):层次分析法 数模笔记(三):灰色系统分析方法 数模笔记(四):插值与拟合 数模笔记(五):变异系数法 数模笔记(六):两变量相关性分析与 ...

  5. 数模笔记(一):线性规划、整数规划及非线性规划1.0

    数模笔记目录 数模笔记(一):线性规划.整数规划及非线性规划 数模笔记(二):层次分析法 数模笔记(三):灰色系统分析方法 数模笔记(四):插值与拟合 数模笔记(五):变异系数法 数模笔记(六):两变 ...

  6. 数模第五次作业:自己实现斯皮尔曼相关系数

    数模自用 1.斯皮尔曼系数及P值计算 %利用第一种方法计算斯皮尔曼相关系数 %即先对X和Y两个指标的数据进行等级的排序 %并计算等级差 %将其平方 %利用公式计算得出 function [R,P]=f ...

  7. CT 系统参数标定及反投影重建成像-2017数模国赛论文A298编程分析

    CT 系统参数标定及反投影重建成像-2017数模国赛论文A298编程分析 之前的同学已经讲解清楚了这篇论文建模的主要思路,我主要讲解代码对建模思路的实现. 本文提到的论文下载地址:http://dxs ...

  8. 数模第一次作业:层次分析法分析养殖场动物方案

    学习数模自用代码,方便队友复制粘贴写论文 1.判断一致性 %计算一致性% 创建一个矩阵(默认) % A =[1 1 4 1/3 3; % 1 1 4 1/3 3; % 1/4 1/4 1 1/3 1/ ...

  9. lda 吗 样本中心化 需要_机器学习 —— 基础整理(四):特征提取之线性方法——主成分分析PCA、独立成分分析ICA、线性判别分析LDA...

    本文简单整理了以下内容: (一)维数灾难 (二)特征提取--线性方法 1. 主成分分析PCA 2. 独立成分分析ICA 3. 线性判别分析LDA (一)维数灾难(Curse of dimensiona ...

最新文章

  1. 关于微型计算机主板的描述错误的是,2016年9月计算机一级考试试题及答案「单选」...
  2. Apache Flink 零基础入门(十三)Flink 计数器
  3. MySQL安装与基本使用
  4. 图解SQL Join用法
  5. 三种CSS样式的引用方式
  6. sas infile和filename
  7. 21. PE结构-PE各个结构的基本概念
  8. webpack配置路径问题
  9. java html转图片_Python一键转Java?“Google翻译”你别闹
  10. OpenCV在jni中使用混合高斯背景模型出现的通道匹配错误
  11. Java教程:Java String字符串和整型int的相互转换
  12. [.net 面向对象程序设计进阶] (9) 序列化(Serialization) (一) 二进制流序列化
  13. 每天一算法(二)实现栈的push pop 操作,并可以输出栈的最小值
  14. 国外NetDevOps资源工具清单分享
  15. FileZilla Client 3.26.1 发布,FTP 解决方案
  16. H3C-云计算技术专题培训(分享六)
  17. Python实现Word文档翻译
  18. VS_MFC:压缩文件存储空间
  19. 申请了雅虎邮箱的全新域名@yahoo.cn ID
  20. BT源代码学习心得(十):客户端源代码分析(相关对象一览) -- 转贴自 wolfenstein (NeverSayNever)

热门文章

  1. 虚拟机win7 DNS 不可用
  2. 普通人利用寒假一个月可以学会的四个赚钱技能
  3. windows 查找目录下文件中包含某个字符的文件
  4. 短视频查重机制及去重方法
  5. LeetCode第7题:整数反转
  6. Nature子刊 | 你知我意:精神病人的威胁性评估的fMRI标志物
  7. 天燃气站与加油站应该如何安装摄像头?
  8. Problem B: 薪酬计算
  9. 7-10 计算工资 (15分)
  10. 计算机文化与计算思维基础课后题答案,第章 计算机文化与计算思维基础.pdf