习题2-8和2-9和2-10

2-8问题描述

以回归问题为例，假设样本的真实分布为 p r ( x , y ) p_r{(x,y)} pr(x,y),并采用平方损失函数，模型 f ( x ) f(x) f(x)的期望错误为：
R ( f ) = E ( x , y ) p r ( x , y ) [ ( y − f ( x ) ) 2 ] \mathcal{R}\left( f \right) =\mathbb{E}_{\left( x,y \right) ~p_r\left( x,y \right)}\left[ \left( y-f\left( x \right) \right) ^2 \right] R(f)=E(x,y) pr(x,y)[(y−f(x))2]
那么最优模型为：
f ∗ ( x ) = E y p r ( y ∣ x ) [ y ] f^*\left( x \right) =\mathbb{E}_{y~p_r\left( y|x \right)}\left[ y \right] f∗(x)=Ey pr(y∣x)[y]
验证上述公式。

解析

这涉及到了概率论中的条件期望，先去整理条件期望去了，这里我对条件期望是真的没有太多的记忆了，这里用的大多是其性质推导。这里我参考了答案
f f f可测，所以 f ( x ) f(x) f(x)关于“变量 x x x生成的 σ \sigma σ代数”可测，那么，由条件期望的性质，我们有：
E [ f 2 ( x ) ∣ x ] = f 2 ( x ) , a , e ; E [ y f ( x ) ∣ x ] = f ( x ) E [ y ∣ x ] , a , e \mathbb{E}\left[ f^2\left( x \right) |x \right] =f^2\left( x \right) ,a,e;\mathbb{E}\left[ yf\left( x \right) |x \right] =f\left( x \right) \mathbb{E}\left[ y|x \right] ,a,e E[f2(x)∣x]=f2(x),a,e;E[yf(x)∣x]=f(x)E[y∣x],a,e
从而有：
R ( f ) = E [ ( y − f ( x ) ) 2 ] = E ( E [ ( y − f ( x ) ) 2 ∣ x ] ) \mathcal{R}\left( f \right) =\mathbb{E}\left[ \left( y-f\left( x \right) \right) ^2 \right] =\mathbb{E}\left( \mathbb{E}\left[ \left( y-f\left( x \right) \right) ^2|x \right] \right) R(f)=E[(y−f(x))2]=E(E[(y−f(x))2∣x])
= E ( E [ y 2 ∣ x ] + E [ f 2 ( x ) ∣ x ] − 2 E [ y f ( x ) ∣ x ] ) \ \ \ \ \ \ =\mathbb{E}\left( \mathbb{E}\left[ y^2|x \right] +\mathbb{E}\left[ f^2\left( x \right) |x \right] -2\mathbb{E}\left[ yf\left( x \right) |x \right] \right) =E(E[y2∣x]+E[f2(x)∣x]−2E[yf(x)∣x])
= E ( E [ y 2 ∣ x ] + f 2 ( x ) − 2 f ( x ) E [ y ∣ x ] ) \ \ \ \ \ \ =\mathbb{E}\left( \mathbb{E}\left[ y^2|x \right] +f^2\left( x \right) -2f\left( x \right) \mathbb{E}\left[ y|x \right] \right) =E(E[y2∣x]+f2(x)−2f(x)E[y∣x])
由条件期望形式的Jensen 不等式有 E [ y 2 ∣ x ] ≥ ( E [ y ∣ x ] ) 2 \mathbb{E}\left[ y^2|x \right] \ge \left( \mathbb{E}\left[ y|x \right] \right) ^2 E[y2∣x]≥(E[y∣x])2,将此式代入上式进行放缩，我们有;
R ( f ) ≥ E ( f ( x ) − E [ y ∣ x ] ) 2 ≥ 0 \mathcal{R}\left( f \right) \ge \mathbb{E}\left( f\left( x \right) -\mathbb{E}\left[ y|x \right] \right) ^2\ge 0 R(f)≥E(f(x)−E[y∣x])2≥0
故而 R ( f ∗ ) = 0 R(f^*)=0 R(f∗)=0等价于 E ( f ∗ ( x ) − E [ y ∣ x ] ) 2 = 0 \mathbb{E}\left( f^*\left( x \right) -\mathbb{E}\left[ y|x \right] \right) ^2=0 E(f∗(x)−E[y∣x])2=0等价于 f ∗ ( x ) = E [ y ∣ x ] f^*\left( x \right) =\mathbb{E}\left[ y|x \right] f∗(x)=E[y∣x]

2-9问题描述

试着分析什么因素会导致模型出现如下图高偏差和高方差的情况？

解析

偏差(Bias)，是指一个模型在不同训练集上的平均性能和最优模型的差异，可以用来衡量一个模型的差异，可以用来衡量一个模型的拟合能力。
方差(Variance) 是指一个模型在不同训练集上的差异，可以用来衡量一个模型是否容易过拟合。
可能是选择的模型和数据集相差甚远
高偏差代表选的模型的拟合能力较差，高方差说明模型容易过拟合无泛化能力。下图表示了机器学习模型的期望误差、偏差和方差随复杂度的变化情况。

随着模型的复杂度增加，模型的拟合能力变强，偏差减少而方差增大，从而导致过拟合。以结构风险最小化为例，我们可以调整正则化系数 λ \lambda λ来控制模型的复杂度。当 λ \lambda λ变大时，总的期望错误反而会上升，因此一个好的 λ \lambda λ需要在偏差和方差之间取得较好的平衡。

2-10问题

验证公式（2.66）

解析：

这道题目整体上还算是很好理解的，我们将平方项展开然后利用数学期望的性质来化简就可以了。公式敲得手疼
E D [ ( f D ( x ) − f ∗ ( x ) ) 2 ] \mathbb{E}_D\left[ \left( f_D\left( x \right) -f^*\left( x \right) \right) ^2 \right] ED[(fD(x)−f∗(x))2]
= E D [ ( f D ( x ) − E D [ f D ( x ) ] + E D [ f D ( x ) ] − f ∗ ( x ) ) 2 ] =\mathbb{E}_D\left[ \left( f_D\left( x \right) -\mathbb{E}_D\left[ f_D\left( x \right) \right] +\mathbb{E}_D\left[ f_D\left( x \right) \right] -f^*\left( x \right) \right) ^2 \right] =ED[(fD(x)−ED[fD(x)]+ED[fD(x)]−f∗(x))2]
= E D [ ( f D ( x ) − E [ f D ( x ) ] ) 2 ] + E D [ ( E D [ f D ( x ) ] − f ∗ ( x ) ) 2 ] + E D [ 2 ( f D ( x ) − E D [ f D ( x ) ] ) ( E D [ f D ( x ) ] − f ∗ ( x ) ) ] =\mathbb{E}_D\left[ \left( f_D\left( x \right) -\mathbb{E}\left[ f_D\left( x \right) \right] \right) ^2 \right] +\mathbb{E}_D\left[ \left( \mathbb{E}_D\left[ f_D\left( x \right) \right] -f*\left( x \right) \right) ^2 \right] +\mathbb{E}_D\left[ 2\left( f_D\left( x \right) -\mathbb{E}_D\left[ f_D\left( x \right) \right] \right) \left( \mathbb{E}_D\left[ f_D\left( x \right) \right] -f*\left( x \right) \right) \right] =ED[(fD(x)−E[fD(x)])2]+ED[(ED[fD(x)]−f∗(x))2]+ED[2(fD(x)−ED[fD(x)])(ED[fD(x)]−f∗(x))]
= E D [ ( f D ( x ) − E [ f D ( x ) ] ) 2 ] + E D [ E D 2 [ f D ( x ) ] + f ∗ 2 ( x ) − 2 f ∗ ( x ) E D [ f D ( x ) ] ] + E D [ 2 f D ( x ) E D [ f D ( x ) ] − 2 f D ( x ) f ∗ ( x ) − 2 E D 2 [ f D ( x ) ] + 2 E D [ f ( x ) ] f ∗ ( x ) ] =\mathbb{E}_D\left[ \left( f_D\left( x \right) -\mathbb{E}\left[ f_D\left( x \right) \right] \right) ^2 \right] +\mathbb{E}_D\left[ \mathbb{E}_D^2\left[ f_D\left( x \right) \right] +f*^2\left( x \right) -2f*\left( x \right) \mathbb{E}_D\left[ f_D\left( x \right) \right] \right] +\mathbb{E}_D\left[ 2f_D\left( x \right) \mathbb{E}_D\left[ f_D\left( x \right) \right] -2f_D\left( x \right) f*\left( x \right) -2\mathbb{E}_D^2\left[ f_D\left( x \right) \right] +2\mathbb{E}_D\left[ f\left( x \right) \right] f*\left( x \right) \right] =ED[(fD(x)−E[fD(x)])2]+ED[ED2[fD(x)]+f∗2(x)−2f∗(x)ED[fD(x)]]+ED[2fD(x)ED[fD(x)]−2fD(x)f∗(x)−2ED2[fD(x)]+2ED[f(x)]f∗(x)]
= E D [ ( f D ( x ) − E [ f D ( x ) ] ) 2 ] + E D 2 [ f D ( x ) ] + E D [ f ∗ 2 ( x ) ] − 2 E D [ f D ( x ) ] E D [ f ∗ ( x ) ] + 2 E D ( f D ( x ) ) E D [ f D ( x ) ] − 2 E D [ f D ( x ) f ∗ ( x ) ] − 2 E D 2 [ f D ( x ) ] + 2 E D [ f D ( x ) ] E D ( f ∗ ( x ) ) =\mathbb{E}_D\left[ \left( f_D\left( x \right) -\mathbb{E}\left[ f_D\left( x \right) \right] \right) ^2 \right] +\mathbb{E}_D^2\left[ f_D\left( x \right) \right] +\mathbb{E}_D\left[ f*^2\left( x \right) \right] -2\mathbb{E}_D\left[ f_D\left( x \right) \right] \mathbb{E}_D\left[ f*\left( x \right) \right] +2\mathbb{E}_D\left( f_D\left( x \right) \right) \mathbb{E}_D\left[ f_D\left( x \right) \right] -2\mathbb{E}_D\left[ f_D\left( x \right) f*\left( x \right) \right] -2\mathbb{E}_D^2\left[ f_D\left( x \right) \right] +2\mathbb{E}_D\left[ f_D\left( x \right) \right] \mathbb{E}_D\left( f*\left( x \right) \right) =ED[(fD(x)−E[fD(x)])2]+ED2[fD(x)]+ED[f∗2(x)]−2ED[fD(x)]ED[f∗(x)]+2ED(fD(x))ED[fD(x)]−2ED[fD(x)f∗(x)]−2ED2[fD(x)]+2ED[fD(x)]ED(f∗(x))
= E D [ ( f D ( x ) − E [ f D ( x ) ] ) 2 ] + ( E D [ f D ( x ) ] − f ∗ ( x ) ) 2 =\mathbb{E}_D\left[ \left( f_D\left( x \right) -\mathbb{E}\left[ f_D\left( x \right) \right] \right) ^2 \right] +\left( \mathbb{E}_D\left[ f_D\left( x \right) \right] -f*\left( x \right) \right) ^2 =ED[(fD(x)−E[fD(x)])2]+(ED[fD(x)]−f∗(x))2

注意 f ∗ ( x ) f*\left( x \right) f∗(x)为常数。