一些基本的数学概念,LDA的表述
随机变量[1]:通常将取值具有不确定性(随机性)的变量称为随机变量。
过程:个人理解,说到过程,通常都有一个时间的概念,再泛化一点可以泛化到空间的概念,毕竟时间维度可以看做时空空间的一个维度。随着空间位置(时间)的变化,有不同表现,这种现象叫做过程。个人理解:过程是不同的分布参数沿着时间维度的串联,或者分布参数沿着某个空间维度的串联。前提是:所有的分布是同一类分布,只不过分布的参数不同。某个分布随时间的变化,叫做这个分布的一个过程,如高斯过程,就是高斯分布随时间的变化(高斯分布的参数:均值和方差,随时间的变化)。这个变化曲线可以看做是一个函数。
随机过程[1]:在空间中,每个位置上它都呈现出一个随机变量。如果空间取为时间域,那么它在每一个时刻都呈现为一个随机变量。如果从时间域看,它是时间t的一个函数,反映 随时间的变化过程。
随机过程的特点[1]:
随机过程具有以下特点:
(1)在指定的时刻t,的变量是一个随机变量。
(2)当指定时刻t时,变量的数学期望是确定的。
(3)不同时刻的随机变量的期望是不同的,随机变量的期望是时间的函数。
因此,随机过程具有二重性:
(1)随机性:指定时刻,它是一个随机变量。
(2)函数特性:不同时刻的随机变量的均值是时间的函数。
高斯过程:高斯过程是一种特殊的随机过程,在每个时刻(或空间位置)的随机变量的分布都服从一个高斯分布,不过高斯分布的参数(均值和方差)是时间(或空间位置)的函数。
回归:输入变量与输出变量均为连续变量的预测问题称为回归问题[2]。常用的说法是:输出变量关于输入变量的回归[1]。个人理解:回归就是输入变量与输出变量之间的关联关系(或映射函数)的参数的确定的过程,这是一个由粗到精的收敛过程。由输入预测连续变量的输出越来越准的过程。
回归分析:回归分析(regression analysis)指的是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。 [百度百科]
高斯过程回归:参考以上随机过程的定义,个人理解,高斯过程的输入变量是时间t,输出变量是t时刻随机变量的概率分布,这个分布是一个高斯分布,对于指定的时刻,随机变量所服从的高斯分布的参变量:均值和方差是确定的。高斯过程最终要输出的是一个概率密度(?),是一个连续变量,所以预测高斯过程输出的任务是一个回归任务。
再泛化一些,高斯过程输入的是一个空间位置,输出的是这个空间位置的高斯分布的均值和方差(?与上对比),是一个连续变量,所以这是一个回归任务。
高斯过程回归的讲解可参考:快速入门高斯过程(Gaussian process)回归预测 - 知乎 。我还没看,但据评论说不错。
狄利克雷分布:
狄利克雷过程:参考最通俗易懂的白话狄利克雷过程(Dirichlet Process) - 知乎
狄利克雷过程混合:
gamma函数:阶乘的更一般形式[3]。
函数: 给定明确的输入变量,得到唯一的输出值。
二项分布: 多次抛硬币。
n次实验,每次实验朝上的概率是p,朝下的概率是(1-p),则二项分布就是n次实验,k次朝上,(n-k)次朝下的概率,(所谓分布就是某个事件发生的概率密度函数),二项分布的定义公式如下:
二项分布有两个参数:n和p,一个变量:k。
beta函数:beta函数基于gamma函数定义,是gamma函数的函数。beta函数与gamma函数的关联关系如下:
beta 分布(beta distribution):beta分布有两个参数:和,一个输入变量:x,beta分布的概率密度函数如下:
beta分布的期望:
多项分布(multinomial distribution):多项分布就是投骰子。
多项分布1是二项分布的推广扩展,在 n 次独立试验中每次只输出 k 种结果中的一个,且每种结果都有一个确定的概率 p。多项分布给出了在多种输出状态的情况下,关于成功次数的各种组合的概率。[3]
个人理解:n次独立实验,每次可能有k种输出结果,不同组合形式出现的概率。
多项分布的公式(参考二项分布):
示例:
在上面的多项式分布中出现了阶乘,而阶乘可以用gamma函数来表示,所以,多项式分布可以用gamma函数来表示。
多项分布用gamma函数(阶乘)表示:
这里有一个小小的疑问,为什么x_i有了一个+1的操作?
狄利克雷分布(dirichlet distribution)
dirichlet 分布是 beta 分布在多项情况下的推广。dirichlet分布的概率密度函数如下:
二项分布与beta分布的关系:
说明:
- \alpha + \beta = n
- \alpha是正面朝上的次数
- \beta是反面朝上的次数
- x是 正面朝上的概率
- 1-x是反面朝上的次数。
所以,二项分布可以变换为beta分布。
多项分布与dirichlet分布:多项分布也可以转换为dirichlet分布
多项分布是二项分布的推广;dirichlet分布是beta分布的推广;二项分布可以转换为beta分布,对应的,多项分布也可以转换为dirichlet分布。
dirichlet分布 VS beta分布:
beta分布:
dirichlet分布:
根据公式,可见,dirichlet分布是beta分布的多项扩展。
总结:
所以,beta分布是不是可以理解为二项分布?不同的是输入变量与参变量的角色互换?beta分布的参数有两个,\alpha和\beta,分别代表结果1和结果2出现的次数,输入变量只有1个:x,结果1出现的概率。
dirichlet分布可以理解为多项分布?不同的是输入变量与参变量的角色互换?dirichlet分布的参数有k个,代表k种结果,每种结果出现的次数,输入变量是k维的,代表每种结果出现的概率。
LDA
LDA八卦中的描述:
更好的表述方式:
[1]《随机过程理论与应用》 樊平毅编著
[2]《统计学习方法》李航著
[3] LDA漫游指南。
一些基本的数学概念,LDA的表述相关推荐
- python朴素贝叶斯调参_邹博机器学习升级版II附讲义、参考书与源码下载(数学 xgboost lda hmm svm)...
课程介绍 本课程特点是从数学层面推导最经典的机器学习算法,以及每种算法的示例和代码实现(Python).如何做算法的参数调试.以实际应用案例分析各种算法的选择等. 1.每个算法模块按照"原理 ...
- 定义并调用函数输出 fibonacci 序列_科学网—Zmn-0351 薛问天:再谈数学概念的定义,评新华先生《0345》...
Zmn-0351 薛问天:再谈数学概念的定义,评新华先生<0345> [编者按.下面是薛问天先生发来的文章.是对<Zmn-0345>新华先生文章的评论.现在发布如下,供网友们共 ...
- 决策树算法(一)——一些重要的数学概念
写在前面的话 趁着现在我还是高中数理化老师,偶尔兼职英语老师的时候赶紧抓紧时间写点有关计算机科学技术的东西.一来是表示我对计算机的热爱,二来,当然是最重要的咯,满足一下我强大的虚荣心.哈哈哈哈!想想高 ...
- 4-8岁那些最难的数学概念,美国老师用一套绘本让孩子秒懂
▲ 数据汪特别推荐 点击上图进入玩酷屋 在美国,有不少数学故事类的绘本,小木今天推荐的这套<Math is categorical>就经常被美国老师用于课堂的教学,亚马逊的评价也是接近5星 ...
- pca数学推导_PCA背后的统计和数学概念
pca数学推导 As I promised in the previous article, Principal Component Analysis (PCA) with Scikit-learn, ...
- 多元函数概念思维导图_(重要!)高中数学概念品味+思维导图(全)-2020年1月13日更新 第16章(最后一章) 统计初步...
作者:本质教育 李泽宇 (有问题请私信联系) 本文将用思维导图的形式,通过文字和视频 1)总结整个高中数学的知识点 2)带着大家精读,理解每一个概念定理 从而建立扎实的数学基础.本文工作量很大,我会持 ...
- 趣图:21 副 GIF 动图让你了解各种数学概念
趣图:21 副 GIF 动图让你了解各种数学概念 "让我们面对它;总的来说数学是不容易的,但当你征服了问题,并达到新的理解高度,这就是它给你的回报." --Danica McKel ...
- 分数换算小数补0法_小学数学概念+知识点顺口溜汇总+常用单位换算汇总
小学数学概念 年月日 一三五七八十腊(12月), 三十一天永不差; 四六九冬(11月)三十日; 平年二月二十八, 闰年二月把一加. 100以内的质数口诀 2.3.5.7和11, 13后面是17, 19 ...
- 看完数学概念背后的故事,让孩子的数学兴趣激增1000倍!
▲ 点击查看 英国著名科学家霍金在撰写<时间简史>的时候,出版商郑重其事地建议道:"你的书里多一条数学公式,就会失去一部分读者." 可见对数理化的害怕,也没有国界,大家 ...
- 叉乘点乘混合运算公式_人教版小学二年级数学概念、公式汇总(附应用题),开学前给孩子预习!...
二年级数学概念.公式 第一单元 长度单位 1.常用的长度单位:米.厘米. 2.测量较短物体通常用厘米作单位,测量较长物体通常用米作单位. 3.测量物体长度的方法:将物体的左端对准直尺 的"0 ...
最新文章
- centos mysql 存储_Centos更改mysql数据存储文件位置
- ORA-04031 错误
- c++ 预处理命令 #if, #ifdef, #ifndef, #else, #elif, #endif用法
- 纪念币预约服务器无响应,为啥纪念币从0点开约?
- VB讲课笔记09:过程
- 腾讯云大数据团队主导Apache社区新一代分布式存储系统Ozone 1.0.0发布
- 汉化:Termius for Mac(SSH客户端)
- 总会用到的系列2:你不理财财不理你的基金定投
- matlab混沌信号 仿真,MATLABSimulink混沌理论仿真.doc
- 谷歌,Google,Chrome,检查工具栏常用功能介绍
- 常见Http响应头部 responses header
- 采用JDBC解释java SPI机制和线程上下文类加载器 —————— 开开开山怪
- pandas学习task05变形
- Windows简单TCPIP服务
- 【ESP32S3学习笔记】LVGL相关结构体学习——lv_disp_drv_t
- [1]: the default discovery settings are unsuitable for production use; at least one of [discovery.se
- 互联网人的乐理基础(三)
- 牛顿拉夫逊基波潮流计算通用型程序,runpf函数的替换
- 2020年广东工业大学837信号与系统真题自编答案
- 理工科学生看点什么书比较好
热门文章
- 主机连接wifi,如何设置虚拟机上网方式
- Linux CGLIB升级,cglib升级建议
- 简要说明php数组的类型,php数组的概述及分类与声明代码演示
- html编辑器 开发原理,在线所见即所得HTML编辑器的实现原理浅析
- designer pyqt5 界面切换_PyQT5堆叠布局:切换界面(QStackedLayout)
- 企业信息化投入中咨询服务_嘉萱企业管理咨询服务 让发展中的企业真正实现全面性效益增长...
- python如何请求curl_Python爬虫偷懒神器 —— 一键构造请求头!
- anaconda和python有什么不一样_看着一样的胶带,价格为什么不一样?
- spriteatlas 白屏的问题_Discuz白屏问题解决思路
- sql查询前50条_您必须知道的前50条SQL查询