随机过程简介

随机过程的本质有两个要点:

一是随机,随机说明任何时候结果都存在不确定性,即分布函数(或者概率密度函数)

二是过程,过程体现的是时间;在时间t时,随机变量服从某一分布,另一时刻随机变量服从某一分布;

如图所示:(随机过程中的所有随机变量服从高斯分布,就是高斯过程,泊松过程同理)

独立同分布的定义

独立同分布是指随机过程中,任何时刻的取值都为随机变量,如果这些随机变量服从同一分布,并且互相独立,那么这些随机变量是独立同分布

如果随机变量 X1 和 X2 独立,是指 X1 的取值不影响 X2 的取值,X2 的取值也不影响 X1 的取值,且随机变量 X1 和 X2 服从同一分布,这意味着X1和X2具有相同的分布形状和相同的分布参数,对离随机变量具有相同的分布律,对连续随机变量具有相同的概率密度函数,有着相同的分布函数,相同的期望、方差

例如,实验条件保持不变,那么一系列的抛硬币的正反面结果是独立同分布

机器学习为什么往往需要有独立同分布假设

机器学习就是利用当前获取到的数据进行训练学习,用以对未来的数据进行预测、模拟。所以都是建立在历史数据之上,采用模型去拟合未来的数据。因此需要我们使用的历史数据具有总体的代表性

我们要从已有的数据(经验) 中总结出规律来对未知数据做决策,如果获取训练数据是不具有总体代表性的,就是特例的情况,那规律就会总结得不好或是错误,因为这些规律是由个例推算的,不具有推广的效果

通过独立同分布的假设,就可以大大减小训练样本中个例的情形

机器学习并不总是要求数据同分布。在不少问题中要求样本(数据)采样自同一个分布是因为希望用训练数据集训练得到的模型可以合理用于测试集,使用同分布假设能够使得这个做法解释得通。由于现在的机器学习方向的内容已经变得比较广,存在不少机器学习问题并不要求样本同分布,比如一些发表在机器学习方向上的online算法就对数据分布没啥要求,关心的性质也非泛化性

机器学习中的独立同分布(I.I.D.)假设相关推荐

  1. 机器学习中输入空间、特征空间、假设空间

    容易迷糊的几个概念: 输入空间:X 输出空间:Y 特征空间: 每一条样本被称作是一个实例,通常由特征向量表示,所有特征向量存在的空间称为特征空间. 特征空间有时候与输入空间相同,有时候不同(例如wor ...

  2. 贝叶斯网络之父Judea Pearl力荐、LeCun点赞,这篇长论文全面解读机器学习中的因果关系...

    来源:机器之心 作者:Bernhard Schölkopf 图灵奖得主.贝叶斯网络之父 Judea Pearl 曾自嘲自己是「AI 社区的反叛者」,因为他对人工智能发展方向的观点与主流趋势相反.Pea ...

  3. 机器学习中的模型评价、模型选择及算法选择

    链客,专为开发者而生,有问必答! 此文章来自区块链技术社区,未经允许拒绝转载. 正确使用模型评估.模型选择和算法选择技术无论是对机器学习学术研究还是工业场景应用都至关重要.本文将对这三个任务的相关技术 ...

  4. 机器学习中你不可不知的几个算法常识

    机器学习中你不可不知的几个算法常识 https://mp.weixin.qq.com/s/Fh-eQm41DI3rkKjEgC1Yig 本文是<机器学习宝典>第 2 篇,读完本文你能够掌握 ...

  5. 机器学习中的相似性度量 (转)

    在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的"距离"(Distance).采用什么样的方法计算 ...

  6. 机器学习中数据集的拆分

    转自:https://feisky.xyz/machine-learning/basic/datasets.html 通常将数据集分为三类,分为俩类的是留出法. 在机器学习中,通常将所有的数据划分为三 ...

  7. 机器学习中的相似性度量总结

    来自 机器学习算法那些事公众号 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的"距离"(Dist ...

  8. 相对熵与交叉熵_详解机器学习中的熵、条件熵、相对熵、交叉熵

    目录 信息熵 条件熵 相对熵 交叉熵 总结 一  信息熵 (information entropy) 熵 (entropy) 这一词最初来源于热力学.1948年,克劳德·爱尔伍德·香农将热力学中的熵引 ...

  9. 机器学习中的相似性度量(转载)

    在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的"距离"(Distance).采用什么样的方法计算 ...

最新文章

  1. 号称3个月发布最强量子计算机,卖口罩的霍尼韦尔凭什么?
  2. Eclipse java反编译插件之jadclipse
  3. python导入excel数据-Python导入数值型Excel数据并生成矩阵操作
  4. Activiti邮件任务
  5. 关于优酷开放SDK之onPrepareListener
  6. iOS - AsyncSocket 的使用
  7. Logistic回归与梯度上升算法
  8. matplotlib 设置标注方向_Matplotlib绘制带主题及聚类类标的散点图
  9. WCF 第十二章 对等网 使用自定义绑定实现消息定向
  10. 通过GPUImage实现40+种滤镜与实时美颜功能
  11. linux安装远程桌面管理工具xrdp
  12. xp无法访问文件共享服务器,XP不能访问Windows7共享文件之解决办法
  13. 解决no session问题的三种方式
  14. html5峰会2015,2015 iWeb峰会与第四届HTML5峰会  7月19日上海站重磅开幕
  15. Web前端大作业、基于HTML+CSS+JavaScript响应式个人相册博客网站
  16. Windows内存清理篇——小结
  17. Django实现单点登录(SSO)
  18. C++打开文件夹中的多个文件并计算文件中数据的平均值
  19. 中国企业“战略迷失悲剧”逼近高发期--中国房地产企业即将迎来倒闭潮
  20. 高通8155/8295 boot分析

热门文章

  1. strstr函数及模拟
  2. MyBatis 多表关联查询
  3. 【解决】Expanding invalid MinMaxAABB
  4. ZigBee学习之11——MAC层API解读2
  5. View的foreground属性
  6. win2008 R2 安装VS2003
  7. Python包下载常用whl文件汇总:最全的Python whl集合
  8. Python基本编程题
  9. SequoiaDB巨杉数据库-卸载
  10. esp32对接阿里云生活物联网平台 天猫精灵控制 云智能APP远程控制 ali-sdk开发