2019年上海市数学建模讲座笔记(2)概率统计模型
概率统计模型讲座笔记
概率统计模型占比例越来越大,大数据时代统计方面的问题反映在建模中
思考:数据的处理,算法时间复杂度注意
常用统计方法
多元统计分析工具,出镜率很高
【1】假设检验
分为:参数假设检验和非参数假设检验
【2】方差分析ANOVA
备注:这里原理记录的比较粗糙,请读者海涵,因为这些讲座本身是让学生从整体,从宏观上进行了解,进行把握。所以,以下笔记可能有点跳跃,缺少必要的知识点。
功能:很好反应统计的思想
单因素方差分析 one way ANOVA
问题导出:养鸡增重研究:做实验 ,区分饲料对鸡重量的影响
问题一般化:
现在有三种饲料,实际问题不止三种,饲料是因素 ,一般化为n种因素 。
下面两个假设
所有的ai等于0,有的饲料好,有的饲料差
为了数学处理的方便,需要
第二个假设:epslo服从正态分布,为了检验所需要
老师给的tips:模型需要后面来写,后面在有眉目的时候需要不断比较,给出假设,不是一上来就详细地在论文上写。
假设检验: H0:所有的ai等于零
特别:平方和分解
统计思想的角度,特别重要
所有的因素 Ai ,每一行 得到y1.的平均值,手机里面有照片
平方和分析:
两个求和 y平均养的鸡的平均重量和 miu不一样,miu是品种
ST 整齐划一 值很小,反应个体总差异
是什么造成的呢?
是饲料还是个体
现在着重饲料
从代数角度:加一项减一项
(a+b)^2拆分,交叉项等于零
yi.-y平均, 得到是不同种饲料和平均差异
前面是个体差异
记为 Se 个体差异 SA 因素造成的差异
这个方法是平方和分解
任务是侦测SA这个因素是不是显著,看SA和Se之间占比大小,只有SA比Se相差很大情况下,才有用
除以自由度,平均一下 ,F=MSA/MSe
F越大,越显著
假设:正态分布,F就是F分布
如果不是正态分布,不是F分布
统计思想有了,下面看竞赛真题
2012年高教社杯 竞赛A题 葡萄酒的评价
(粗略的讲解了一下)
品评葡萄酒质量。
问题:一批酒,两组品酒师,一组10个人,分别对酒打分,葡萄酒好坏也不知道。
第一个问题:两组评价有无差异,那一组更可靠
假设检验的问题
如果是正态分布,如果不是正态总体需要非参数检验
检验出来略有差异,
第二个问题:哪一组更可靠
答案不一样,怎么思考这道题呢?
大多数人考虑方差,波动小,同一个葡萄酒观点比较接近,就认为是好的队。其实不够
只考虑了一个方面
用方差分析的思想:评判员的一致性还要考虑葡萄酒的一致性
分开考虑 比较F比。F比大的,评委更靠谱一点
以上是关于赛题的一些讨论
【3】回归分析
掌握:回归分析
【4】判别分析
美赛出过题,或多或少有很多
人工智能和判别分析有关
蠓的分类 198几年竞赛题
可以分类
用数据图表述
AF 和APF两种类
横坐标:触角长度
纵坐标:翅膀长度
建立判别准则,判别不同种类的蠓
第二个问题,测量两个长度,判断是哪一个类型
第三个问题:如果Apf是益虫,Af是害虫,如何对判别做出修正。
判别分析已经完全解决了这类问题
直观上来讲 画一条线 来分类
判别分析介绍距离判别,贝叶斯判别,fisher判别
现在最流行的贝叶斯判别
(1)贝叶斯统计思想:本质上害虫看成益虫 造成的损失和 益虫看成害虫造成的损失是不对等的。 整体上造成的损失最小。思路
(2)fisher观点:降维
直观画线,判别分析最大难度不是蠓的分类,因为只有两个指标,难度是指标不止两个,指标是n个,出现多维指标
空间都没有感觉,难度在这儿。
提出思路:降维 投影
讲一下思想:
降维有技巧,从二维入门,已经不需要降维了。从二维分析为讲问题方便
一个方法:坐标轴旋转,投影到轴上,也可以分的很开
类推,从三维降维到二维,找到一个方向,一个角度
思想:
第一个:两个指标:组间距,组内距 组间距尽量大,组内距尽量小。
很多组,平均值之间的距离越大越好
但是组很多,需要组平均值 组间距:平方和
这个也是方差分析的思想:刚才的F,组间距和组内距
【5】聚类分析
经常用
【6】主成分分析
老师提到:出题老师出题的时候会考虑,有思路:这道题学生应该怎么做
有的题目和主成分不相干还有人用这种方法来做。
第一:主成分有用,有的可以用,有的不能用。
建模的tips:
模型起作用,需要回答原始问题
写出几个模型,需要写出模型的优缺点,说明哪一个解决什么问题
主成分分析使用:
和fisher 大同小异:降维,减少指标的个数
举例美赛的例子
毒品,什么时候政府干预,有数据,得出毒品起源地在哪里。
大量的指标,精炼出来:指标精简
很多指标有内在联系,找到少数几个指标来刻画这个问题
指标反应的内容可能共享,构建主成分
研究涉及p个指标,p维随机向量
新的指标底系
均值miu
主成分基本原则和关系:(有四条)
1线性组合
2数目少
3主成分线性不相关
4主成分保留绝大多数信息
利用是spss软件
问题实例:
城市指标对城市综合实力进行评价,总共17个指标
主成分分析数据处理:标准化处理
和线性代数很有关
计算特征方程和特征根
回去好好看这部分内容。
统计的主成分到达80%就可以
线性组合之前需要去量纲,标准化过程
成分 component 乘上 标准化的比例
得到主成分需要解释第几个主成分是干嘛用的
存在有大小的问题,
第一个地区经济发展
第二主成分:文化发展
第三个:粗糙一点,农村发展
从这个例子看主成分的应用
得到的各种主成分:信息集中,每个主成分刻画的是哪一个方面的问题。
spss使用:有一个选项,主成分旋转,在spss里面有这个,解决的是主成分不明确的问题。
还需要回归的问题,判别分析等等
和其他搭配起来用。
总结一下:
这次讲座主要讲解了概率统计相关的模型和知识。
第一。统计方法现在在大数据时代是非常重要的。需要多花时间研究统计的理论。
第二。这次讲座的知识点:假设检验,方差分析ANOVA(统计思想很重要,老师特别强调这个),回归分析,判别分析(贝叶斯,fisher),聚类分析,主成分分析等等。其中老师着重讲解的是方差分析,判别分析,主成分分析( 但是,老师建议在数模比赛中少用主成分分析)。
第三。借着这次数模的比赛好好学习,系统一下相关的统计知识,比赛是途径,学习知识才是最主要的。但是另外一个老师讲竞赛的目的就是拿奖,就是证明我比你强。
第四。统计思想很重要。
最后:以上是笔者2019年参加上海市建模培训的笔记与思考。没有详细地介绍各种方法,只是宏观上、整体上记录了一下概率统计相关的知识。希望各位读者能够按需求来阅读,当然如果是想学习具体的算法,这篇博客可能不适合您。当然,如果本篇博客涉嫌侵权,请联系删除。
2019年上海市数学建模讲座笔记(2)概率统计模型相关推荐
- 2019年上海市数学建模讲座笔记(1)竞赛真题讲解
<竞赛真题> 2018年国赛A题讲解:<数学建模及其应用>杂志,第一期,复旦大学蔡志杰老师 关于选题 竞赛规则的变化 开始时间:礼拜四,9.12晚上6点开始.下载题目 去年40 ...
- 2019年上海市数学建模讲座(3)微分方程建模方法
第三场微分方程建模讲座笔记 主讲人:董程栋,上海财经大学数学学院 微分方程: 定义:联系着自变量,未知函数与它的导数之间的关系式 物体冷却过程中的数学模型 牛顿冷却定律:物体温度变化速度与物体和介质温 ...
- (一)准备阶段 2019年研究生数学建模D题《汽车行驶工况构建》
2019年研究生数学建模比赛,我们组选择的是D题目--<汽车行驶工况构建>. 选题分析 其实题目一发下来后,基本确定了这几个题目的已知条件.难易程度.问题结果要求等等,具体分析画了个思维导 ...
- 【数学建模学习笔记【集训十天】之第六天】
数模学习目录 Matplotlib 学习 Matplotlib简介 Matplotlib 散点图 运行效果如下: Matplotlib Pyplot 运行效果如下: 关于plot() 运行效果如下: ...
- 数学建模学习笔记(2.3)lingo软件求解线性规划问题
数学建模学习笔记(2.3)lingo软件求解线性规划问题 lingo软件的优势在于体积小,专注于解决优化问题 且编程语言通俗易懂,没有门槛 对于刚刚接触数学建模同学比较友善 当然对于已经参与建模很久的 ...
- 数学建模培训课程笔记——线性规划
数学建模培训课程笔记--线性规划 文章目录 数学建模培训课程笔记--线性规划 前言 一.线性规划 1.什么是规划(了解) 2.LP问题模型 二.整数(线性)规划 ILP 割平面法: 0-1线性规划例题 ...
- 数学建模算法笔记(2)——主成分分析
数学建模算法笔记(2)–主成分分析 目的:主成分分析的主要目的是希望用较少的变量去解释原来资料中的大部分变异,将我 们手中许多相关性很高的变量转化成彼此相互独立或不相关的变量,实际上是一种降维方法. ...
- 数学建模学习笔记(1)数学模型的特点和分类
数学建模学习笔记(1)数学模型的特点和分类 ps:学习的教材为姜启源著的<数学模型(第四版)> 领取数模资料和更多内容请关注公众号:拾壹纪元 传送门: 线性规划(LP)问题 https:/ ...
- 线性规划问题的数学建模matlab,数学建模讲座之三——利用Matlab求解线性规划问题(linprog函数).ppt...
数学建模讲座之三--利用Matlab求解线性规划问题(linprog函数) 利用Matlab求解线性规划问题 线性规划是一种优化方法,Matlab优化工具箱中有现成函数linprog对如下式描述的LP ...
最新文章
- 聊聊 HashMap 和 TreeMap 的内部结构
- NeurIPS 2020 接收率创史低,千篇论文被摘要拒稿,官方:错误率只有 6%
- SSVEP脑机接口及数据集处理
- linux系统性能优化及瓶颈分析
- wxWidgets:wxShowEvent类用法
- 【翻译】怎样使用css制作迷人的button
- C语言 显示器键盘io
- 自动生成 Makefile 的全过程详解
- Spring中的观察者模式
- UVA1584 UVALive3225 Circular Sequence【水题】
- form表单居中_HTML基本结构、命名及对表单专项练习解释
- c语言荷兰国旗问题算法,荷兰国旗问题
- Centos7重置Mysql 8.0.1 root 密码
- 计算机专业软考初级有用吗,软考:初级程序员考试有没有必要考?
- 网络流量监控iptraf
- NVMe 2.0 Telemetry
- 你想知道的全都有 五一节日购机全攻略
- 知云文献翻译 mac文献翻译软件
- 【Akka】Akka 传递消息
- 以政府门户网站统筹电子政务发展
热门文章
- HDU 2722 Here We Go(relians) Again (spfa)
- android imageButton 透明图片
- 简单的选择排序(内部排序)
- poj 3469 Dual Core CPU 最小割
- Oracle_11g_R2安装手册(图文教程)
- sum除以count 和avg 的区别_EXCEL函数之计数COUNT系列
- java检测安卓程序退出_java-我的Android应用程序的gameLoop线程在退出...
- jetty java 实例_Maven+Jetty+Servlet 简单示例
- 【控制】《鲁棒控制-线性矩阵不等式处理方法》-俞立老师-第7章-保性能控制
- 第十七章 大规模机器学习-机器学习老师板书-斯坦福吴恩达教授