注:参考视频教程---网易云课堂《统计建模轻松入门》张文彤

  • 传统模型:

,

y:因变量 ;  x:自变量 ;  :未知参数;  :扰动函数。

其中,第一个加项是自变量对因变量的影响,反映出的是共性特征;而第二个加项反映出的是个性特征。

在统计建模中,需要求出的第一个加项的表达式,并根据分布,估计出未知参数。

传统模型的弊端:

  1. 只能用于求解简单的显示表达式,且比较复杂的函数关系无法表示出;
  2. 只能用于自变量和因变量可区分的情形

  • 变量的测量尺度:

测量尺度:指用怎样的精确程度来测量感兴趣的指标。

  1. 名义尺度:信息量最低,=无序多分类
  2. 顺序尺度:=有序分类,无法衡量类与类之间的差异多少;
  3. 标度尺度:可以衡量之间的差距,定距尺度无绝对零点,只能作加减;定比尺度,有绝对零点,可做加减乘除。
级别 变量类型
名称级

定类变量

顺序级 定序变量
间隔级 定距变量
比例级 比例变量

其中,定类变量又可称为,无序变量;定序变量,称为顺序变量;定距变量、定比变量,都称为定量变量。

级别从上到下依次降低,值得注意的是:高级别的可以抛弃部分信息转化成低级别的变量,比如:一个班级的考试成绩从0到100,原属于定比变量,但是可以将其划分为0-60、60-80、80-100分别设为不及格、合格、优秀等三类,属于顺序变量(定序变量);再进一步抛弃信息:超过60 的记“好”,不然记“坏”,则属于定类变量。

而低级别的无法转化为高级别的,因为这一过程中,需要人为添加信息,往往不准确。


  • 模型分类:

如果自变量和因变量可以区分:

(生存分析模型中需要注意:生存时间、结局。)

如果自变量和因变量不能区分:

  • 根据目的分类:

聚类方法:应用于市场细分、协同推荐

预测方法:回归模型、时间序列模型

关联归纳方法:购物篮分析、序列分析

  • 根据方法原理分类:

1.基于传统统计模型的推断方法

在抽样理论的支持下,首先假定预测比那辆和应i选哪个因素间诚信啊某冲公式化的联系,然后采用假设检验的方法来验证相应的假设是否成立,并给出相应的参数估计值。

2. 基于机器识别基数的自动化方法

非推断性方法,没有前提假设,直接从数据集中寻找关联,后采用验证数据集对找到的关联加以验证。


  • 损失函数:

损失函数:衡量模型的信息损失或是预测错误程度的函数。
模型拟合的最终目标:损失函数最小。

对不同类型的变量,常见的损失函数有:

  1. 对分类变量:错分比例,分类预测正确性,熵;
  2. 对连续变量:残差所代表的信息量的综合及其所导致的损失,最小乘法中的残差平方和,离均值绝对值之和(最小一乘法)。

注意:因为因子分析和主成分分析没有目标,所以也就不存在损失函数。
有监督的学习,才需要损失函数。

凸函数,convex function ,局部最小值是全局最小值。比如图一,图二。

非凸函数,局部最小值不是全局最小值,如图三。

要尽量把损失函数构造成凸函数,这样一来,求最小值较为容易---此时最小值就是极小值。


  • 控制模型的复杂程度:惩罚项

惩罚,即扣分。

在理想的损失函数的基础上加一个惩罚项,用于表达模型的复杂程度,以避免一味地追求精确而使得模型过于复杂。

  • 由来:

将原模型:原损失函数 = 模型精确性衡量指标;

修正为:新损失函数  = 模型精确性衡量指标 + 模型复杂度衡量指标;

但是,考虑到在不同的实际应用中所要求的精确和复杂也许不是同等地位的,于是加权,进一步地修正如下:

原损失函数 = 模型精确性衡量指标 + 模型复杂度衡量指。

  • 正则化的别名:
  1. 在机器学习中,正则化(regularization);
  2. 在统计学领域,模型惩罚项(penalty);
  3. 在数学上,范数(norm);
  • 基本作用:

保证模型尽可能的简单,避免参数过多导致过拟合;约束模型特性,加入一些先验知识,例如稀疏、低秩。正则化函数一般是模型复杂度的单调递增函数,模型越复杂,代价越大。

  • 几种常见的正则化/惩罚项/范数类型:

L0正则化:复杂度指标为模型中非零参数的个数;易理解,但数学上很难求解;

L1正则化:为模型中各个参数绝对值(加权)之和 ,比如几何学上的曼哈顿距离(街区距离,我觉得就是各个分量做差,再取绝对值的那种距离),主要用于特征选择/筛选变量,实例:Lasson回归。

L2正则化 :为模型中各个参数平方(加权)之和的开方,即欧氏距离,主要用于防止过拟合,实例:岭回归。

Ln正则化:为模型中各个参数n次方(加权)之和的开n次方。

统计建模--学习笔记1相关推荐

  1. 数学建模学习笔记(1)数学模型的特点和分类

    数学建模学习笔记(1)数学模型的特点和分类 ps:学习的教材为姜启源著的<数学模型(第四版)> 领取数模资料和更多内容请关注公众号:拾壹纪元 传送门: 线性规划(LP)问题 https:/ ...

  2. [电离层建模学习笔记]开源程序M_GIM学习记录

    [电离层建模学习笔记]开源程序M_GIM学习记录 文章目录 [电离层建模学习笔记]开源程序M_GIM学习记录 1. 程序相关信息 2. 程序学习记录 2.1 采用的数据说明 2.2 程序运行前 2.3 ...

  3. 【数学建模学习笔记【集训十天】之第六天】

    数模学习目录 Matplotlib 学习 Matplotlib简介 Matplotlib 散点图 运行效果如下: Matplotlib Pyplot 运行效果如下: 关于plot() 运行效果如下: ...

  4. 数学建模学习笔记(2.3)lingo软件求解线性规划问题

    数学建模学习笔记(2.3)lingo软件求解线性规划问题 lingo软件的优势在于体积小,专注于解决优化问题 且编程语言通俗易懂,没有门槛 对于刚刚接触数学建模同学比较友善 当然对于已经参与建模很久的 ...

  5. DELMIA学习笔记(三)人体建模学习笔记

    这篇笔记比较多,直接上传了,有需要的可下载,也可私聊白嫖. DELMAI人体建模学习笔记.pdf-其它文档类资源-CSDN下载DELMAI人体建模学习笔记更多下载资源.学习资料请访问CSDN下载频道. ...

  6. 数学建模学习笔记之评价问题聚类分析法

    数学建模学习笔记之评价问题聚类分析法 物以类聚.人以群分. 聚类分析是一个很大的概念,显然根据分类的依据不同会出现很多很多聚类的方法.例如K-Means .Sequential Leader.Mode ...

  7. 逻辑斯蒂回归_逻辑斯蒂回归详细解析 | 统计学习方法学习笔记 | 数据分析 | 机器学习...

    本文包括: 重要概念 逻辑斯蒂回归和线性回归 二项逻辑斯谛回归模型 逻辑斯蒂回顾与几率 模型参数估计 多项逻辑斯谛回归 其它有关数据分析,机器学习的文章及社群 1.重要概念: 在正式介绍逻辑斯蒂回归模 ...

  8. oracle事务数统计,【学习笔记】Oracle数据库收集统计信息的两种方法介绍案例

    天萃荷净 分享一篇关于Oracle数据库收集统计信息的办法,Oracle DBMS_STATS与Oracle analyze使用方法案例 今天群里面讨论DBMS_STATS和analyze,这里进行了 ...

  9. 统计学习方法 学习笔记(十):决策树

    这一个学习笔记将要了解决策树,在研一上机器学习这门课的时候,老师在讲到这一节的时候,举了一个例子我现在还能记得:你们坐在这里上课,就像这个决策树一样,在你人生中的每一个重要结点,你都做出了选择,经过多 ...

最新文章

  1. 从0开始搭建编程框架——主框架和源码
  2. oracle glogin.sql sql _user,为什么我的login.sql不执行?
  3. 【linux】route使用小结
  4. 技术人生,专家本色——采访张善友老师后的一点感受
  5. java实现c语言的函数_C语言tolower函数介绍、示例和实现
  6. Win11如何开启聚焦功能?Win11开启聚焦功能的方法
  7. 记Dorado7学习(5)
  8. itest手机考试有监控吗_itest考试有声音监控吗?
  9. WOai wojiao
  10. OpenSSL Cipher 加密解密 Ruby on Rails
  11. python打气球小游戏(一)
  12. MSDC 4.3 接口规范(3)
  13. mac添加Chrome插件的方法
  14. 无损批量合并视频 附工具
  15. web前端期末大作业 html+css+javascript网页设计实例 企业网站制作 (绿色植物网站设计)
  16. IP地址中的A、B、C类地址详解
  17. 计算机邵博士网课,程序设计入门——C语言(邵绪强)
  18. matlab关于年月日的程序,自己编的小程序!Matlab日期计算
  19. (介孔sio2) 介孔二氧化硅微球的应用
  20. js 利用Unicode码随机生成中文昵称

热门文章

  1. Flutter 自定义动画 — 数字递增动画和文字逐行逐字出现或消失动画
  2. 计算机操作员试题2018,计算机操作员初级试题及答案(精选).doc
  3. 二手房交易流程和税费
  4. java控制台打印输出 中文乱码 解决办法
  5. java实现doc互转docx
  6. 3D游戏建模制作流程介绍,这么复杂繁琐,小白劝退警告
  7. HashMap数据结构
  8. sze品牌创始人的故事
  9. 移动web——学习笔记整理
  10. linux4.4 内核 netlink,wpa_supplicant与内核nl80211通信之Generic Netlink