2-8问题描述

以回归问题为例,假设样本的真实分布为 p r ( x , y ) p_r{(x,y)} pr​(x,y),并采用平方损失函数,模型 f ( x ) f(x) f(x)的期望错误为:
R ( f ) = E ( x , y ) p r ( x , y ) [ ( y − f ( x ) ) 2 ] \mathcal{R}\left( f \right) =\mathbb{E}_{\left( x,y \right) ~p_r\left( x,y \right)}\left[ \left( y-f\left( x \right) \right) ^2 \right] R(f)=E(x,y) pr​(x,y)​[(y−f(x))2]
那么最优模型为:
f ∗ ( x ) = E y p r ( y ∣ x ) [ y ] f^*\left( x \right) =\mathbb{E}_{y~p_r\left( y|x \right)}\left[ y \right] f∗(x)=Ey pr​(y∣x)​[y]
验证上述公式。

解析

这涉及到了概率论中的条件期望,先去整理条件期望去了 ,这里我对条件期望是真的没有太多的记忆了,这里用的大多是其性质推导。这里我参考了答案
f f f可测,所以 f ( x ) f(x) f(x)关于“变量 x x x生成的 σ \sigma σ代数”可测,那么,由条件期望的性质,我们有:
E [ f 2 ( x ) ∣ x ] = f 2 ( x ) , a , e ; E [ y f ( x ) ∣ x ] = f ( x ) E [ y ∣ x ] , a , e \mathbb{E}\left[ f^2\left( x \right) |x \right] =f^2\left( x \right) ,a,e;\mathbb{E}\left[ yf\left( x \right) |x \right] =f\left( x \right) \mathbb{E}\left[ y|x \right] ,a,e E[f2(x)∣x]=f2(x),a,e;E[yf(x)∣x]=f(x)E[y∣x],a,e
从而有:
R ( f ) = E [ ( y − f ( x ) ) 2 ] = E ( E [ ( y − f ( x ) ) 2 ∣ x ] ) \mathcal{R}\left( f \right) =\mathbb{E}\left[ \left( y-f\left( x \right) \right) ^2 \right] =\mathbb{E}\left( \mathbb{E}\left[ \left( y-f\left( x \right) \right) ^2|x \right] \right) R(f)=E[(y−f(x))2]=E(E[(y−f(x))2∣x])
= E ( E [ y 2 ∣ x ] + E [ f 2 ( x ) ∣ x ] − 2 E [ y f ( x ) ∣ x ] ) \ \ \ \ \ \ =\mathbb{E}\left( \mathbb{E}\left[ y^2|x \right] +\mathbb{E}\left[ f^2\left( x \right) |x \right] -2\mathbb{E}\left[ yf\left( x \right) |x \right] \right)       =E(E[y2∣x]+E[f2(x)∣x]−2E[yf(x)∣x])
= E ( E [ y 2 ∣ x ] + f 2 ( x ) − 2 f ( x ) E [ y ∣ x ] ) \ \ \ \ \ \ =\mathbb{E}\left( \mathbb{E}\left[ y^2|x \right] +f^2\left( x \right) -2f\left( x \right) \mathbb{E}\left[ y|x \right] \right)       =E(E[y2∣x]+f2(x)−2f(x)E[y∣x])
由条件期望形式的Jensen 不等式有 E [ y 2 ∣ x ] ≥ ( E [ y ∣ x ] ) 2 \mathbb{E}\left[ y^2|x \right] \ge \left( \mathbb{E}\left[ y|x \right] \right) ^2 E[y2∣x]≥(E[y∣x])2,将此式代入上式进行放缩,我们有;
R ( f ) ≥ E ( f ( x ) − E [ y ∣ x ] ) 2 ≥ 0 \mathcal{R}\left( f \right) \ge \mathbb{E}\left( f\left( x \right) -\mathbb{E}\left[ y|x \right] \right) ^2\ge 0 R(f)≥E(f(x)−E[y∣x])2≥0
故而 R ( f ∗ ) = 0 R(f^*)=0 R(f∗)=0等价于 E ( f ∗ ( x ) − E [ y ∣ x ] ) 2 = 0 \mathbb{E}\left( f^*\left( x \right) -\mathbb{E}\left[ y|x \right] \right) ^2=0 E(f∗(x)−E[y∣x])2=0等价于 f ∗ ( x ) = E [ y ∣ x ] f^*\left( x \right) =\mathbb{E}\left[ y|x \right] f∗(x)=E[y∣x]

2-9问题描述

试着分析什么因素会导致模型出现如下图高偏差和高方差的情况?

解析

偏差(Bias),是指一个模型在不同训练集上的平均性能和最优模型的差异,可以用来衡量一个模型的差异,可以用来衡量一个模型的拟合能力。
方差(Variance) 是指一个模型在不同训练集上的差异,可以用来衡量一个模型是否容易过拟合。
可能是选择的模型和数据集相差甚远
高偏差代表选的模型的拟合能力较差,高方差说明模型容易过拟合无泛化能力。下图表示了机器学习模型的期望误差、偏差和方差随复杂度的变化情况。

随着模型的复杂度增加,模型的拟合能力变强,偏差减少而方差增大,从而导致过拟合。以结构风险最小化为例,我们可以调整正则化系数 λ \lambda λ来控制模型的复杂度。当 λ \lambda λ变大时,总的期望错误反而会上升,因此一个好的 λ \lambda λ需要在偏差和方差之间取得较好的平衡。

2-10问题

验证公式(2.66)

解析:

这道题目整体上还算是很好理解的,我们将平方项展开然后利用数学期望的性质来化简就可以了。公式敲得手疼
E D [ ( f D ( x ) − f ∗ ( x ) ) 2 ] \mathbb{E}_D\left[ \left( f_D\left( x \right) -f^*\left( x \right) \right) ^2 \right] ED​[(fD​(x)−f∗(x))2]
= E D [ ( f D ( x ) − E D [ f D ( x ) ] + E D [ f D ( x ) ] − f ∗ ( x ) ) 2 ] =\mathbb{E}_D\left[ \left( f_D\left( x \right) -\mathbb{E}_D\left[ f_D\left( x \right) \right] +\mathbb{E}_D\left[ f_D\left( x \right) \right] -f^*\left( x \right) \right) ^2 \right] =ED​[(fD​(x)−ED​[fD​(x)]+ED​[fD​(x)]−f∗(x))2]
= E D [ ( f D ( x ) − E [ f D ( x ) ] ) 2 ] + E D [ ( E D [ f D ( x ) ] − f ∗ ( x ) ) 2 ] + E D [ 2 ( f D ( x ) − E D [ f D ( x ) ] ) ( E D [ f D ( x ) ] − f ∗ ( x ) ) ] =\mathbb{E}_D\left[ \left( f_D\left( x \right) -\mathbb{E}\left[ f_D\left( x \right) \right] \right) ^2 \right] +\mathbb{E}_D\left[ \left( \mathbb{E}_D\left[ f_D\left( x \right) \right] -f*\left( x \right) \right) ^2 \right] +\mathbb{E}_D\left[ 2\left( f_D\left( x \right) -\mathbb{E}_D\left[ f_D\left( x \right) \right] \right) \left( \mathbb{E}_D\left[ f_D\left( x \right) \right] -f*\left( x \right) \right) \right] =ED​[(fD​(x)−E[fD​(x)])2]+ED​[(ED​[fD​(x)]−f∗(x))2]+ED​[2(fD​(x)−ED​[fD​(x)])(ED​[fD​(x)]−f∗(x))]
= E D [ ( f D ( x ) − E [ f D ( x ) ] ) 2 ] + E D [ E D 2 [ f D ( x ) ] + f ∗ 2 ( x ) − 2 f ∗ ( x ) E D [ f D ( x ) ] ] + E D [ 2 f D ( x ) E D [ f D ( x ) ] − 2 f D ( x ) f ∗ ( x ) − 2 E D 2 [ f D ( x ) ] + 2 E D [ f ( x ) ] f ∗ ( x ) ] =\mathbb{E}_D\left[ \left( f_D\left( x \right) -\mathbb{E}\left[ f_D\left( x \right) \right] \right) ^2 \right] +\mathbb{E}_D\left[ \mathbb{E}_D^2\left[ f_D\left( x \right) \right] +f*^2\left( x \right) -2f*\left( x \right) \mathbb{E}_D\left[ f_D\left( x \right) \right] \right] +\mathbb{E}_D\left[ 2f_D\left( x \right) \mathbb{E}_D\left[ f_D\left( x \right) \right] -2f_D\left( x \right) f*\left( x \right) -2\mathbb{E}_D^2\left[ f_D\left( x \right) \right] +2\mathbb{E}_D\left[ f\left( x \right) \right] f*\left( x \right) \right] =ED​[(fD​(x)−E[fD​(x)])2]+ED​[ED2​[fD​(x)]+f∗2(x)−2f∗(x)ED​[fD​(x)]]+ED​[2fD​(x)ED​[fD​(x)]−2fD​(x)f∗(x)−2ED2​[fD​(x)]+2ED​[f(x)]f∗(x)]
= E D [ ( f D ( x ) − E [ f D ( x ) ] ) 2 ] + E D 2 [ f D ( x ) ] + E D [ f ∗ 2 ( x ) ] − 2 E D [ f D ( x ) ] E D [ f ∗ ( x ) ] + 2 E D ( f D ( x ) ) E D [ f D ( x ) ] − 2 E D [ f D ( x ) f ∗ ( x ) ] − 2 E D 2 [ f D ( x ) ] + 2 E D [ f D ( x ) ] E D ( f ∗ ( x ) ) =\mathbb{E}_D\left[ \left( f_D\left( x \right) -\mathbb{E}\left[ f_D\left( x \right) \right] \right) ^2 \right] +\mathbb{E}_D^2\left[ f_D\left( x \right) \right] +\mathbb{E}_D\left[ f*^2\left( x \right) \right] -2\mathbb{E}_D\left[ f_D\left( x \right) \right] \mathbb{E}_D\left[ f*\left( x \right) \right] +2\mathbb{E}_D\left( f_D\left( x \right) \right) \mathbb{E}_D\left[ f_D\left( x \right) \right] -2\mathbb{E}_D\left[ f_D\left( x \right) f*\left( x \right) \right] -2\mathbb{E}_D^2\left[ f_D\left( x \right) \right] +2\mathbb{E}_D\left[ f_D\left( x \right) \right] \mathbb{E}_D\left( f*\left( x \right) \right) =ED​[(fD​(x)−E[fD​(x)])2]+ED2​[fD​(x)]+ED​[f∗2(x)]−2ED​[fD​(x)]ED​[f∗(x)]+2ED​(fD​(x))ED​[fD​(x)]−2ED​[fD​(x)f∗(x)]−2ED2​[fD​(x)]+2ED​[fD​(x)]ED​(f∗(x))
= E D [ ( f D ( x ) − E [ f D ( x ) ] ) 2 ] + ( E D [ f D ( x ) ] − f ∗ ( x ) ) 2 =\mathbb{E}_D\left[ \left( f_D\left( x \right) -\mathbb{E}\left[ f_D\left( x \right) \right] \right) ^2 \right] +\left( \mathbb{E}_D\left[ f_D\left( x \right) \right] -f*\left( x \right) \right) ^2 =ED​[(fD​(x)−E[fD​(x)])2]+(ED​[fD​(x)]−f∗(x))2

注意 f ∗ ( x ) f*\left( x \right) f∗(x)为常数。

习题2-8和2-9和2-10相关推荐

  1. coursera 吴恩达 -- 第一课 神经网络和深度学习 :第三周课后习题 Key concepts on Deep Neural Networks Quiz, 10 questions

    有两道题没有图片...难受

  2. C++Primer中文版(第4版)第四章习题答案

    习题4.1 假设get_size是一个没有参数并返回int值的函数,下列哪些定义是非法的?为什么? unsigned buf_size = 1024 (a) int ia[buf_size]; (b) ...

  3. 从零开始学数据分析之——《笨办法学Python》(习题0-10)

    写在前面 三十而立之年,开始自学数据分析,工作比较清闲,现发帖记录自己的数据分析之路,数据分析要学很多的东西,经过多月的摸索,目前分两个方面开始学习: ·知识方面:数学为王,拿起书本,重学<概率 ...

  4. 考研OS备考|计算机操作系统|汤小丹慕课版|课后习题答案|复试拓展

    本文主要是考研复试备考自用,所以课后习题答案主要是简答题部分,此外还有其他的简答补充.如果发现有误,欢迎在评论区或者私信指出. 计算机操作系统|汤小丹慕课版|课后习题答案|考研备考 第1章 操作系统引 ...

  5. 《C语言程序设计》第4版 何钦铭、颜晖主编 课后习题答案 第7章 习题7

    一.选择题 A D D C C B 二.填空题 1.2  3  5  0 2.i=1  x[i-1] 3.a[i]>x   j=n-1;j>=i;j--   a[i]=x 4.7  5 5 ...

  6. 工程经济学计算机答案,工程经济学课后习题答案计算题刘晓君答案

    1.9现有一项目,其现金流量为:第一年末支付1000万元,第二年末支付1500万元,第 三年收益200万元,第四年收益300万元,第五年收益400万元,第六年到第十年每年收 益500万元,第十一年收益 ...

  7. 基于mpi的奇偶排序_并行程序设计(第2版)pdf

    并行程序设计(第2版) 内容简介 本书系统介绍并行程序设计原理及应用.除介绍常用的一些算法范例,包括分治.流水.同步计算.主从及工作池,还介绍了一些常用的经典数值和非数值算法,如排序.矩阵相乘.线性方 ...

  8. 计算机组成原理第3版谢树煜,计算机组成原理(第3版)

    章绪论1 1.1计算机的基本特性1 1.1.1二进制数据2 1.1.2存储程序2 1.1.3逻辑运算2 1.1.4高速电子开关电路2 1.1.5数字编码技术2 1.2计算机的基本组成3 1.2.1基本 ...

  9. 计算机python程序设计导论,程序设计导论:Python计算与应用开发实践(原书第2版)...

    程序设计导论:Python计算与应用开发实践(原书第2版) 语音 编辑 锁定 讨论 上传视频 <程序设计导论:Python计算与应用开发实践(原书第2版)>是2018年机械工业出版社出版的 ...

  10. linux系统基础与应用,Linux操作系统:基础、原理与应用

    <Linux操作系统:基础.原理与应用> 第1部分基础篇 第1章操作系统概述/3 1.1认识操作系统3 1.1.1操作系统的概念3 1.1.2操作系统的功能4 1.2操作系统的发展与现状5 ...

最新文章

  1. 工作5年后才明白的道理:不起眼的技能中,藏着你的未来
  2. 450刀的eGPU vs 谷歌Colab,谁更划算?
  3. 所有配置_一张图看懂iPhone12的所有配置!
  4. Android Activity 和 ViewGroup中事件触发和传递机制
  5. 【NLP】一文搞懂NLP中的对抗训练
  6. Eureka-eureka原理分析
  7. python ssh 远程登录路由器执行命令_ssh批量登录并执行命令(python实现)
  8. lbp matlab程序,求教大神给解释一下LBP特征提取每部分程序是干什么的
  9. 你在面试时是否无意中暴露了缺点?资深面试官如何从细节中看候选人的软实力...
  10. 三星note10 android q,【极光ROM】-【三星NOTE10/NOTE10+/5G N97XX-855】-【V6.0 Android-Q-TE1】...
  11. ArcGis-学习笔记6-4 空间插值简介
  12. mysql 修改wait_timeout
  13. 街头篮球常常服务器连接中断,街头篮球总是掉线,街头篮球打一局就掉线
  14. NBIOT BC26 opencpu物联网应用案例详细解析
  15. 黑苹果oc清除nvram_自己组装一台“iMac”是什么体验(下):AMD 平台也能吃上黑苹果...
  16. 女生被渣,或许自己才是最大的黑手
  17. 快递查询单号查询,对物流进行分析
  18. 微型计算机的内存乘储器,微型计算机及接口技术名词解释题及解答题
  19. java静态方法mult_学会使用函数式编程的程序员(第3部分)
  20. 儿童保健管理系统技术方案

热门文章

  1. SLAM的那些坑——PNP
  2. hp probook 4411s电脑在xp系统下安装快捷键的问题
  3. 电子商业汇票系统 ECDS 银清科技的简要介绍
  4. form表单校验插件(含详细注解)
  5. 【番外】Stata软件安装教程
  6. 感谢路遥 感谢平凡的世界
  7. 查找地名的字谜(以GB为单位)
  8. Windows11中Host权限修改
  9. 智慧农业物联网—解决方案
  10. 使用Python读取串口数据