数据整体服从正态分布,那样本均值和方差则相互独立。正太分布具有很多好的性质,很多模型假设数据服从正态分布。例如线性回归(linear regression),它假设误差服从正态分布,从而每个样本点出现的概率就可以表示成正态分布的形式,将多个样本点连乘再取对数,就是所有训练集样本出现的条件概率,最大化这个条件概率就是LR要最终求解的问题。这里这个条件概率的最终表达式的形式就是我们熟悉的误差平方和。

ML中很多model都假设数据或参数服从正态分布,但是如果数据不服从正态分布怎么办?搜罗到这篇文章:http://udel.edu/~mcdonald/stattransform.html,是关于处理生物领域数据的handbook,很不错,里面用data transformations 方式来解决数据分布的这个问题。这里列举两种,有兴趣的可以看链接文章或继续搜索文章来研究。(希望哪个网友搜罗到好文章也给俺分享下)

    data transformations步骤如下,
(1)首先根据数据样本画出均值和方差曲线
(2)如果均值和方差不相关,则不需要转换
(3)如果方差正比于均值,则进行square root transformation转换
(4)如果标准差正比于均值,则进行logarithmic transformation转换

检验数据正态性的方法有几大类,其中最为直观计算量也最小的就是图示法,里面有QQ图(分位数图)(@敲代码的张洋 说这个是最屌丝的方法,哈哈)、PP图(百分位数图)、SP图(稳定化概率图)。先不深入研究了,用到了再好好研究下吧。

正态分布具有很多好的性质,很多模型假设数据服从正态分布。但是如果数据不服从正态分布怎么办?相关推荐

  1. 前端面试宝典(内容很多,也有很多重复)

    文章转自:http://blog.csdn.net/liuwengai/article/details/52751565?locationNum=1&fps=1 二.JS基础 1.javasc ...

  2. 神经网络模型的模型假设,神经网络模型预测控制

    人工智能怎么样 人工智能技术关系到人工智能产品是否可以顺利应用到我们的生活场景中.在人工智能领域,它普遍包含了机器学习.知识图谱.自然语言处理.人机交互.计算机视觉.生物特征识别.AR/VR七个关键技 ...

  3. 不会做特征工程的 AI 研究员不是好数据科学家!上篇 - 连续数据的处理方法 本文作者:s5248 编辑:杨晓凡 2018-01-19 11:32 导语:即便现代机器学习模型已经很先进了,也别

    不会做特征工程的 AI 研究员不是好数据科学家!上篇 - 连续数据的处理方法 雷锋网(公众号:雷锋网) AI 科技评论按:眨眼间我们就从人工特征.专家系统来到了自动特征.深度学习的人工智能新时代,众多 ...

  4. em模型补缺失值_基于EM算法数据单变量缺失处理方法研究

    龙源期刊网 http://www.qikan.com.cn 基于 EM 算法数据单变量缺失处理方法研究 作者:黄铉 来源:<科技传播> 2015 年第 20 期 摘 要 数据分析方法大都针 ...

  5. 神经网络模型的模型假设,人工神经网络预测模型

    神经网络可以用来预测时间序列吗 神经网络是可以用来预测时间序列.例如神经网络人口预测. 已知1990至2009年的某地区人口数[112830424456496050635674766592105124 ...

  6. VIC水文模型入门攻略(中)VIC的数据和输入文件准备

    更正:上篇末尾关于运行汇流程序的部分,在"STEHE.stnloc"文件中需要修改的部分应改为NONE而非none.希望没有太多人因此造成困扰- VIC的输入文件都有啥 其实VIC ...

  7. 数据分析模型和工具_数据分析师工具包:模型

    数据分析模型和工具 You've cleaned up your data and done some exploratory data analysis. Now what? As data ana ...

  8. 持续学习常用6种方法总结:使ML模型适应新数据的同时保持旧数据的性能

    来源:Deep IMBA 本文约4800字,建议阅读9分钟 本文将讨论6种方法,使模型可以在保持旧的性能的同时适应新数据,并避免需要在整个数据集(旧+新)上进行重新训练. 持续学习是指在不忘记从前面的 ...

  9. Kaggle经典数据分析项目:泰坦尼克号生存预测!1. 数据概述与可视化2. 数据预处理3. 模型训练4. 模型优化(调参)

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习 ,不错过 Datawhale干货 作者:陈锴,中山大学,Datawhale成员 最近有很多读者留言,希望 ...

最新文章

  1. 【独立开发人员er Cocos2d-x实战 009】Cocos2dx 菜单项CCMenu使用
  2. Image Filters for IOS
  3. 作为前端,你不得不知道的SEO
  4. python的dir()和__dict__属性的区别
  5. VTK:绘图之ChartsOn3DScene
  6. C++primer第一章 开始
  7. 测试Markdown
  8. java requestbody map_java-如何将Map转换为RequestBody?
  9. KnockoutJS-与服务端交互
  10. java 内核驱动程序_内核第三讲,进入ring0,以及编写第一个内核驱动程序.
  11. 人脸识别算法二:Fisherface(LDA)
  12. Android Robolectric 加载运行本地 So 动态库
  13. 关于MYSQL的 insert 的一些方法说明
  14. 有东西,可以倚老卖老,可以倚少卖少
  15. Origin软件使用TIPS
  16. java中CAE画实心圆的参数_java绘图中RenderingHints 参数
  17. 培训机构常见sql查询练习题目,你会做吗?
  18. 2019.12.31大一练习赛
  19. 常见编程代码命名风格
  20. ArcEngine10 ecp 授权

热门文章

  1. Unicode 编码表
  2. 使用JS获取当前页面的URL(网址信息)
  3. 共享存储集群规范化部署
  4. 【免费活动·硅谷】中国区块链行业研究和应用落地最新成果分享
  5. 实用 | 数据挖掘的十大算法
  6. 小菜鸟之Oracle数据库
  7. CSS非布局样式-字体
  8. Siemens Logo!Soft Comfort 8.3
  9. 人类的“三观”与意识形态(上)
  10. 华微电力智能巡检系统帮助广州供电局成倍提高输电线路巡检的效率和质量