习题2-8和2-9和2-10
2-8问题描述
以回归问题为例,假设样本的真实分布为 p r ( x , y ) p_r{(x,y)} pr(x,y),并采用平方损失函数,模型 f ( x ) f(x) f(x)的期望错误为:
R ( f ) = E ( x , y ) p r ( x , y ) [ ( y − f ( x ) ) 2 ] \mathcal{R}\left( f \right) =\mathbb{E}_{\left( x,y \right) ~p_r\left( x,y \right)}\left[ \left( y-f\left( x \right) \right) ^2 \right] R(f)=E(x,y) pr(x,y)[(y−f(x))2]
那么最优模型为:
f ∗ ( x ) = E y p r ( y ∣ x ) [ y ] f^*\left( x \right) =\mathbb{E}_{y~p_r\left( y|x \right)}\left[ y \right] f∗(x)=Ey pr(y∣x)[y]
验证上述公式。
解析
这涉及到了概率论中的条件期望,先去整理条件期望去了 ,这里我对条件期望是真的没有太多的记忆了,这里用的大多是其性质推导。这里我参考了答案
f f f可测,所以 f ( x ) f(x) f(x)关于“变量 x x x生成的 σ \sigma σ代数”可测,那么,由条件期望的性质,我们有:
E [ f 2 ( x ) ∣ x ] = f 2 ( x ) , a , e ; E [ y f ( x ) ∣ x ] = f ( x ) E [ y ∣ x ] , a , e \mathbb{E}\left[ f^2\left( x \right) |x \right] =f^2\left( x \right) ,a,e;\mathbb{E}\left[ yf\left( x \right) |x \right] =f\left( x \right) \mathbb{E}\left[ y|x \right] ,a,e E[f2(x)∣x]=f2(x),a,e;E[yf(x)∣x]=f(x)E[y∣x],a,e
从而有:
R ( f ) = E [ ( y − f ( x ) ) 2 ] = E ( E [ ( y − f ( x ) ) 2 ∣ x ] ) \mathcal{R}\left( f \right) =\mathbb{E}\left[ \left( y-f\left( x \right) \right) ^2 \right] =\mathbb{E}\left( \mathbb{E}\left[ \left( y-f\left( x \right) \right) ^2|x \right] \right) R(f)=E[(y−f(x))2]=E(E[(y−f(x))2∣x])
= E ( E [ y 2 ∣ x ] + E [ f 2 ( x ) ∣ x ] − 2 E [ y f ( x ) ∣ x ] ) \ \ \ \ \ \ =\mathbb{E}\left( \mathbb{E}\left[ y^2|x \right] +\mathbb{E}\left[ f^2\left( x \right) |x \right] -2\mathbb{E}\left[ yf\left( x \right) |x \right] \right) =E(E[y2∣x]+E[f2(x)∣x]−2E[yf(x)∣x])
= E ( E [ y 2 ∣ x ] + f 2 ( x ) − 2 f ( x ) E [ y ∣ x ] ) \ \ \ \ \ \ =\mathbb{E}\left( \mathbb{E}\left[ y^2|x \right] +f^2\left( x \right) -2f\left( x \right) \mathbb{E}\left[ y|x \right] \right) =E(E[y2∣x]+f2(x)−2f(x)E[y∣x])
由条件期望形式的Jensen 不等式有 E [ y 2 ∣ x ] ≥ ( E [ y ∣ x ] ) 2 \mathbb{E}\left[ y^2|x \right] \ge \left( \mathbb{E}\left[ y|x \right] \right) ^2 E[y2∣x]≥(E[y∣x])2,将此式代入上式进行放缩,我们有;
R ( f ) ≥ E ( f ( x ) − E [ y ∣ x ] ) 2 ≥ 0 \mathcal{R}\left( f \right) \ge \mathbb{E}\left( f\left( x \right) -\mathbb{E}\left[ y|x \right] \right) ^2\ge 0 R(f)≥E(f(x)−E[y∣x])2≥0
故而 R ( f ∗ ) = 0 R(f^*)=0 R(f∗)=0等价于 E ( f ∗ ( x ) − E [ y ∣ x ] ) 2 = 0 \mathbb{E}\left( f^*\left( x \right) -\mathbb{E}\left[ y|x \right] \right) ^2=0 E(f∗(x)−E[y∣x])2=0等价于 f ∗ ( x ) = E [ y ∣ x ] f^*\left( x \right) =\mathbb{E}\left[ y|x \right] f∗(x)=E[y∣x]
2-9问题描述
试着分析什么因素会导致模型出现如下图高偏差和高方差的情况?
解析
偏差(Bias),是指一个模型在不同训练集上的平均性能和最优模型的差异,可以用来衡量一个模型的差异,可以用来衡量一个模型的拟合能力。
方差(Variance) 是指一个模型在不同训练集上的差异,可以用来衡量一个模型是否容易过拟合。
可能是选择的模型和数据集相差甚远
高偏差代表选的模型的拟合能力较差,高方差说明模型容易过拟合无泛化能力。下图表示了机器学习模型的期望误差、偏差和方差随复杂度的变化情况。
随着模型的复杂度增加,模型的拟合能力变强,偏差减少而方差增大,从而导致过拟合。以结构风险最小化为例,我们可以调整正则化系数 λ \lambda λ来控制模型的复杂度。当 λ \lambda λ变大时,总的期望错误反而会上升,因此一个好的 λ \lambda λ需要在偏差和方差之间取得较好的平衡。
2-10问题
验证公式(2.66)
解析:
这道题目整体上还算是很好理解的,我们将平方项展开然后利用数学期望的性质来化简就可以了。公式敲得手疼
E D [ ( f D ( x ) − f ∗ ( x ) ) 2 ] \mathbb{E}_D\left[ \left( f_D\left( x \right) -f^*\left( x \right) \right) ^2 \right] ED[(fD(x)−f∗(x))2]
= E D [ ( f D ( x ) − E D [ f D ( x ) ] + E D [ f D ( x ) ] − f ∗ ( x ) ) 2 ] =\mathbb{E}_D\left[ \left( f_D\left( x \right) -\mathbb{E}_D\left[ f_D\left( x \right) \right] +\mathbb{E}_D\left[ f_D\left( x \right) \right] -f^*\left( x \right) \right) ^2 \right] =ED[(fD(x)−ED[fD(x)]+ED[fD(x)]−f∗(x))2]
= E D [ ( f D ( x ) − E [ f D ( x ) ] ) 2 ] + E D [ ( E D [ f D ( x ) ] − f ∗ ( x ) ) 2 ] + E D [ 2 ( f D ( x ) − E D [ f D ( x ) ] ) ( E D [ f D ( x ) ] − f ∗ ( x ) ) ] =\mathbb{E}_D\left[ \left( f_D\left( x \right) -\mathbb{E}\left[ f_D\left( x \right) \right] \right) ^2 \right] +\mathbb{E}_D\left[ \left( \mathbb{E}_D\left[ f_D\left( x \right) \right] -f*\left( x \right) \right) ^2 \right] +\mathbb{E}_D\left[ 2\left( f_D\left( x \right) -\mathbb{E}_D\left[ f_D\left( x \right) \right] \right) \left( \mathbb{E}_D\left[ f_D\left( x \right) \right] -f*\left( x \right) \right) \right] =ED[(fD(x)−E[fD(x)])2]+ED[(ED[fD(x)]−f∗(x))2]+ED[2(fD(x)−ED[fD(x)])(ED[fD(x)]−f∗(x))]
= E D [ ( f D ( x ) − E [ f D ( x ) ] ) 2 ] + E D [ E D 2 [ f D ( x ) ] + f ∗ 2 ( x ) − 2 f ∗ ( x ) E D [ f D ( x ) ] ] + E D [ 2 f D ( x ) E D [ f D ( x ) ] − 2 f D ( x ) f ∗ ( x ) − 2 E D 2 [ f D ( x ) ] + 2 E D [ f ( x ) ] f ∗ ( x ) ] =\mathbb{E}_D\left[ \left( f_D\left( x \right) -\mathbb{E}\left[ f_D\left( x \right) \right] \right) ^2 \right] +\mathbb{E}_D\left[ \mathbb{E}_D^2\left[ f_D\left( x \right) \right] +f*^2\left( x \right) -2f*\left( x \right) \mathbb{E}_D\left[ f_D\left( x \right) \right] \right] +\mathbb{E}_D\left[ 2f_D\left( x \right) \mathbb{E}_D\left[ f_D\left( x \right) \right] -2f_D\left( x \right) f*\left( x \right) -2\mathbb{E}_D^2\left[ f_D\left( x \right) \right] +2\mathbb{E}_D\left[ f\left( x \right) \right] f*\left( x \right) \right] =ED[(fD(x)−E[fD(x)])2]+ED[ED2[fD(x)]+f∗2(x)−2f∗(x)ED[fD(x)]]+ED[2fD(x)ED[fD(x)]−2fD(x)f∗(x)−2ED2[fD(x)]+2ED[f(x)]f∗(x)]
= E D [ ( f D ( x ) − E [ f D ( x ) ] ) 2 ] + E D 2 [ f D ( x ) ] + E D [ f ∗ 2 ( x ) ] − 2 E D [ f D ( x ) ] E D [ f ∗ ( x ) ] + 2 E D ( f D ( x ) ) E D [ f D ( x ) ] − 2 E D [ f D ( x ) f ∗ ( x ) ] − 2 E D 2 [ f D ( x ) ] + 2 E D [ f D ( x ) ] E D ( f ∗ ( x ) ) =\mathbb{E}_D\left[ \left( f_D\left( x \right) -\mathbb{E}\left[ f_D\left( x \right) \right] \right) ^2 \right] +\mathbb{E}_D^2\left[ f_D\left( x \right) \right] +\mathbb{E}_D\left[ f*^2\left( x \right) \right] -2\mathbb{E}_D\left[ f_D\left( x \right) \right] \mathbb{E}_D\left[ f*\left( x \right) \right] +2\mathbb{E}_D\left( f_D\left( x \right) \right) \mathbb{E}_D\left[ f_D\left( x \right) \right] -2\mathbb{E}_D\left[ f_D\left( x \right) f*\left( x \right) \right] -2\mathbb{E}_D^2\left[ f_D\left( x \right) \right] +2\mathbb{E}_D\left[ f_D\left( x \right) \right] \mathbb{E}_D\left( f*\left( x \right) \right) =ED[(fD(x)−E[fD(x)])2]+ED2[fD(x)]+ED[f∗2(x)]−2ED[fD(x)]ED[f∗(x)]+2ED(fD(x))ED[fD(x)]−2ED[fD(x)f∗(x)]−2ED2[fD(x)]+2ED[fD(x)]ED(f∗(x))
= E D [ ( f D ( x ) − E [ f D ( x ) ] ) 2 ] + ( E D [ f D ( x ) ] − f ∗ ( x ) ) 2 =\mathbb{E}_D\left[ \left( f_D\left( x \right) -\mathbb{E}\left[ f_D\left( x \right) \right] \right) ^2 \right] +\left( \mathbb{E}_D\left[ f_D\left( x \right) \right] -f*\left( x \right) \right) ^2 =ED[(fD(x)−E[fD(x)])2]+(ED[fD(x)]−f∗(x))2
注意 f ∗ ( x ) f*\left( x \right) f∗(x)为常数。
习题2-8和2-9和2-10相关推荐
- coursera 吴恩达 -- 第一课 神经网络和深度学习 :第三周课后习题 Key concepts on Deep Neural Networks Quiz, 10 questions
有两道题没有图片...难受
- C++Primer中文版(第4版)第四章习题答案
习题4.1 假设get_size是一个没有参数并返回int值的函数,下列哪些定义是非法的?为什么? unsigned buf_size = 1024 (a) int ia[buf_size]; (b) ...
- 从零开始学数据分析之——《笨办法学Python》(习题0-10)
写在前面 三十而立之年,开始自学数据分析,工作比较清闲,现发帖记录自己的数据分析之路,数据分析要学很多的东西,经过多月的摸索,目前分两个方面开始学习: ·知识方面:数学为王,拿起书本,重学<概率 ...
- 考研OS备考|计算机操作系统|汤小丹慕课版|课后习题答案|复试拓展
本文主要是考研复试备考自用,所以课后习题答案主要是简答题部分,此外还有其他的简答补充.如果发现有误,欢迎在评论区或者私信指出. 计算机操作系统|汤小丹慕课版|课后习题答案|考研备考 第1章 操作系统引 ...
- 《C语言程序设计》第4版 何钦铭、颜晖主编 课后习题答案 第7章 习题7
一.选择题 A D D C C B 二.填空题 1.2 3 5 0 2.i=1 x[i-1] 3.a[i]>x j=n-1;j>=i;j-- a[i]=x 4.7 5 5 ...
- 工程经济学计算机答案,工程经济学课后习题答案计算题刘晓君答案
1.9现有一项目,其现金流量为:第一年末支付1000万元,第二年末支付1500万元,第 三年收益200万元,第四年收益300万元,第五年收益400万元,第六年到第十年每年收 益500万元,第十一年收益 ...
- 基于mpi的奇偶排序_并行程序设计(第2版)pdf
并行程序设计(第2版) 内容简介 本书系统介绍并行程序设计原理及应用.除介绍常用的一些算法范例,包括分治.流水.同步计算.主从及工作池,还介绍了一些常用的经典数值和非数值算法,如排序.矩阵相乘.线性方 ...
- 计算机组成原理第3版谢树煜,计算机组成原理(第3版)
章绪论1 1.1计算机的基本特性1 1.1.1二进制数据2 1.1.2存储程序2 1.1.3逻辑运算2 1.1.4高速电子开关电路2 1.1.5数字编码技术2 1.2计算机的基本组成3 1.2.1基本 ...
- 计算机python程序设计导论,程序设计导论:Python计算与应用开发实践(原书第2版)...
程序设计导论:Python计算与应用开发实践(原书第2版) 语音 编辑 锁定 讨论 上传视频 <程序设计导论:Python计算与应用开发实践(原书第2版)>是2018年机械工业出版社出版的 ...
- linux系统基础与应用,Linux操作系统:基础、原理与应用
<Linux操作系统:基础.原理与应用> 第1部分基础篇 第1章操作系统概述/3 1.1认识操作系统3 1.1.1操作系统的概念3 1.1.2操作系统的功能4 1.2操作系统的发展与现状5 ...
最新文章
- 工作5年后才明白的道理:不起眼的技能中,藏着你的未来
- 450刀的eGPU vs 谷歌Colab,谁更划算?
- 所有配置_一张图看懂iPhone12的所有配置!
- Android Activity 和 ViewGroup中事件触发和传递机制
- 【NLP】一文搞懂NLP中的对抗训练
- Eureka-eureka原理分析
- python ssh 远程登录路由器执行命令_ssh批量登录并执行命令(python实现)
- lbp matlab程序,求教大神给解释一下LBP特征提取每部分程序是干什么的
- 你在面试时是否无意中暴露了缺点?资深面试官如何从细节中看候选人的软实力...
- 三星note10 android q,【极光ROM】-【三星NOTE10/NOTE10+/5G N97XX-855】-【V6.0 Android-Q-TE1】...
- ArcGis-学习笔记6-4 空间插值简介
- mysql 修改wait_timeout
- 街头篮球常常服务器连接中断,街头篮球总是掉线,街头篮球打一局就掉线
- NBIOT BC26 opencpu物联网应用案例详细解析
- 黑苹果oc清除nvram_自己组装一台“iMac”是什么体验(下):AMD 平台也能吃上黑苹果...
- 女生被渣,或许自己才是最大的黑手
- 快递查询单号查询,对物流进行分析
- 微型计算机的内存乘储器,微型计算机及接口技术名词解释题及解答题
- java静态方法mult_学会使用函数式编程的程序员(第3部分)
- 儿童保健管理系统技术方案