Newton Method in Maching Learning
牛顿方法:转自http://blog.csdn.net/andrewseu/article/details/46771947
本讲大纲:
1.牛顿方法(Newton’s method)
2.指数族(Exponential family)
3.广义线性模型(Generalized linear models)
1.牛顿方法
假设有函数:,我们希望找到满足的值. 这里是实数.
牛顿方法执行下面的更新:
下图为执行牛顿方法的过程:
简单的来说就是通过求当前点的导数得到下一个点.用到的性质是导数值等于该点切线和横轴夹角的正切值.
令,我们可以用同样的算法去最大化
牛顿方法的一般化:
如果是一个向量,那么:
其中,是对的偏导数;
H称为黑塞矩阵(Hessian matrix),是一个n*n的矩阵,n是特征量的个数,并且(==当年学的各种名词又开始在脑海里翻滚==)
牛顿方法的收敛速度比批处理梯度下降快很多,很少次的迭代就能够非常接近最小值了;但是当n很大时,每次迭代求黑塞矩阵和黑塞矩阵的逆代价是很大的.
与其不同,梯度下降方法采用的步长如下:
2.指数族
指数族形式:
其中,被称为自然参数(natural parameter)或者典范参数(canonical parameter);
T(y)是充分统计量(sufficient statistic)(对于我们考虑的分布来说,通常T(y)=y);
是日志分配函数(log partition function),是一个规范化常数,使得分布的和为1.
给定T,a,b,通过改变参数得到不同的分布.
下面展示伯努利(Bernoulli)和高斯分布(Gaussian distribution)都是指数分布族的特例:
伯努利分布可以写成:
因此,令(有趣地发现其反函数为),并且,
高斯分布:
回忆我们对线性回归求导时,方差对我们最终结果并没有任何影响.为了使问题简化,令于是有,
得:
指数分布族还包括很多其他的分布:
多项式分布(multinomial)
泊松分布(poisson):用于计数的建模
伽马分布(gamma),指数分布(exponential):用于对连续非负的随机变量进行建模
β分布,Dirichlet分布:对小数建模
3.GLMS
为了导出GLM,作三个假设:
(1)
(2)给定x,我们的目标是预测T(y)的预期值. 在大部分例子中,我们有T(y)=y,因此意味着我们通过学习得到的假设满足(这个假设对logistic回归和线性回归都成立)
(3)自然参数和输入变量是线性相关的,也就是说(如果自然参数是向量,则)
3.1普通的最小二乘法
为了说明普通的最小二乘法是GLM的特例,设定目标变量y(在GLM术语中叫响应变量-response variable)是连续的,并且假设服从高斯分布,高斯分布写成指数族的形式,有得到:
3.2 logistic回归
考虑logistic,我们感兴趣的是二元分类,也就是说很容易想到指数分布族的伯努利分布,有,同理得到:
正则响应函数(canonical response function):
正则链接函数(canonical link function):
3.3 softmax 回归
当分类问题的y取值不止两个时,我们需要采用多项式分布(multinomial distribution).
在推导多项式分布的GLM之前,先把多项式分布表达成指数族.
为了参数化多项式分布的k各可能结果,有人可能会用k个参数来说明每一种情况的可能性,但是这些参数是冗余的,并且并不是独立的(由于知道任何其中的k-1个,剩下的一个就可以求出,因为满足). 因此我们用k-1个参数对多项分布进行参数化,.
定义,如下,
介绍一个很有用的记号,,例如1{2=3}=0,1{3=5-2}=1.
因此T(y)和y的关系为.
并且有,因此:
链接函数为,,为了方便,定义.
可得:
因此,反代回去得到响应函数:
从η到的映射叫做softmax函数.
根据假设3,得到:
这个应用于分类问题(当),叫做softmax回归(softmax regression).是logistic回归的推广.
与最小二乘法和logistic回归类似,
再通过梯度上升或者牛顿方法求出θ.
Newton Method in Maching Learning相关推荐
- 牛顿法 Newton Method
上一次我们讨论了具有 Q-线性收敛性的普通的 gradient descent 方法,今天我们要介绍一种收敛速度更快的算法:Newton Method(或者叫 Newton's Method). 可能 ...
- PDGAN: A Novel Poisoning Defense Method in Federated Learning Using Generative Adversarial Network笔记
前言 论文 "PDGAN: A Novel Poisoning Defense Method in Federated Learning Using Generative Adversari ...
- 牛顿法(Newton‘s method)和拟牛顿法(quasi Newton method)
简述 在看伊恩·古德费洛的深度学习,4.3节基于梯度的优化方法时提到 仅使用梯度信息的优化算法称为 一阶优化算法 ,如梯度下降. 使用Hessian矩阵的优化算法称为 二阶最优化算法 ,如牛顿法. 牛 ...
- Maching Learning 学习资料
A星(A*, A Star)算法详解 CSDN技术主题月----"深度学习"代码笔记专栏 UC Berkeley CS188 Intro to AI 本文转自博客园Grandyan ...
- maching learning入门(六)
ml入门(六)powered by @李宏毅 第十五课(Reinforcement Learning) 让机器根据不同的action将会得到不同的response,可能是不好的,也可能是好的.rein ...
- ESimCSE: Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding
ESimCSE:用于无监督句子嵌入对比学习的增强样本构建方法 Xing Wu 1,2,3 , Chaochen Gao 1,2 ∗ , Liangjun Zang 1 , Jizhong Han 1 ...
- maching learning入门(一)
ml入门(一)powered by @李宏毅 第一课(机器学习总览) ml基本步骤 1 找出一个function set 2 让maching拥有衡量一个function好坏的能力 loss fun ...
- maching learning入门(五)
ml入门(五)powered by @李宏毅 第十三课(RNN,recurrent neural network,循环神经网络) 全连接神经网络和卷积神经网络他们都只能单独的取处理一个个的输入,前一个 ...
- Maching Learning
Machine learning system type 机器学习的类型划分主要基于以下几点: Whether or not they are trained with human supervisi ...
最新文章
- DataGridView 判断新增行:
- 【采用】互联网反欺诈体系建设
- 终于,一键打通微信和QQ
- selenium模拟鼠标和键盘操作的基本方法
- 视觉工程师面试指南_选择正确视觉效果的终极指南
- 99%的面试官都会问到的Java面试题
- struts2 国际化
- butterfly配置 hexo_Hexo博客之butterfly主题优雅魔改系列(持续更新)
- 详解如何挑战4秒内百万级数据导入SQL Server(转)
- 防御SQL注入的方法总结
- Openlayers GPS(度分秒)和经纬度坐标相互转换
- 手机如何在线图片识别?3大教程,一键轻松图片转文字
- MAC OS读取NTFS格式硬盘
- 记win10家庭版系统C:\Users用户名中文改英文 详细教程
- python处理excel
- CS1526号错误是什么
- python画玫瑰花(含文字)
- 边云协同,边缘云更出彩
- python高清壁纸_爬虫 抓取王者荣耀所有英雄皮肤高清壁纸(完美版本)
- java飞机大战设计收获_飞机大战编写以及Java的面向对象总结
热门文章
- c 编程 mysql结果集_使用mysql C语言API编写程序—MYSQL数据库查询操作(执行查询操作,获取查询结果的字段数,记录行数,...
- python小工具小发明_【kimol君的无聊小发明】—用python写截屏小工具
- 一厕难求!NASA悬赏三万五千美元,只为一个能在月球上用的马桶
- 一只蝙蝠的自述在朋友圈火了:千万不要再吃野味了!
- 见识过世界的强大,才能拥有掌握世界的力量
- 每个人都应该学习编程,因为它会教你如何思考
- 最全知识点总结!| 大数据学习路线指南
- python从入门到爬虫_python爬虫从入门到放弃(一)之初识爬虫
- 联想 android 5.1 root权限,联想A520手机ROOT权限图文教程(附联想A520root工具)
- 制作oracle11g yum源,利用安装盘简单制作yum源