题目目录

  • 序言
    • 第一题
    • 第二题
    • 第三题
    • 第四题
    • 第五题
    • 第六题
    • 第七题
    • 第八题
    • 第九题
    • 第十题
    • 第十一题
    • 第十二题

序言

邱老师的书针对于深度学习深入浅出讲解,让我受益良多,但是在学习过程中查找课后习题答案感觉十分麻烦,故写下此博客帮助后来学习者。
本文主要参考邱锡鹏老师的github讨论区内容及知乎回答,个人认为本文更加详尽清晰,如有问题欢迎指正,后续章节会慢慢更新。

第一题

为什么平方损失函数不适用于分类问题

答:平方误差过于严苛,必须是与预测值完全相同才行,并不符合分类的特点(仅需要分为正确类别)。
例如真实值为[0,0,1]时,预测为[0.1,0.2,0.7] 和预测值为 [0,0.3,0.7]其实效果一样,运用CrossEntropy时损失也一样,但是均方误差时损失则不同。
此外,针对于二分类问题,邱老师在课本76页(图3.7)给出了具体图像来解释:

第二题

线性回归中,如果我们给每个样本(x(n)x^{(n)}x(n),y(n)y^{(n)}y(n))赋予一个权重r(n)r^{(n)}r(n),经验风险函数为:
R(ω)=12∑n=1Nr(n)(y(n)−ωx)2R(\boldsymbol\omega)=\frac{1}{2}\sum_{n=1}^Nr^{(n)}(y^{(n)} - \boldsymbol\omega \boldsymbol x )^2 R(ω)=21​n=1∑N​r(n)(y(n)−ωx)2
计算其最优参数ω∗\omega ^ *ω∗,并分析其权重的作用。

答:其实就是求一下最优参数ω∗\omega^*ω∗, 即导数为0,具体如下:
首先,取权重的对角矩阵:P=diag(r(n))P= diag(r^{(n)})P=diag(r(n)),x,y,w均以向量(矩阵)表示,则原式为:
R(Ω)=12P∣∣Y−XTΩ∣∣2\mathcal{R}(\boldsymbol\Omega) = \frac{1}{2}P||Y- X^T \Omega|| ^2 R(Ω)=21​P∣∣Y−XTΩ∣∣2
进行求导:
∂R∂Ω=−XP(Y−XTΩ)=0\frac{\partial \mathcal{R}}{\partial \Omega} = -XP(Y-X^T \Omega)=0 ∂Ω∂R​=−XP(Y−XTΩ)=0
解得
Ω∗=(XPXT)−1XPY\Omega ^ *= (XPX^T)^{-1}XPY Ω∗=(XPXT)−1XPY
相比于没有P时的Ω\OmegaΩ:
ΩwithoutP=(XXT)−1XY\Omega_{without P}=(XX^T)^{-1}XY ΩwithoutP​=(XXT)−1XY
可以简单理解为r(n)r^{(n)}r(n)的存在为每个样本增加了权重,权重大的对最优值ω\omegaω的影响也更大。

第三题

证明在线性回归中,如果样本数NNN小于特征数量D+1D+1D+1,那么XXTXX^TXXT的秩最大为N
答:
rank(XXT)=rank(X)≤min(N,D+1)rank(XX^T) = rank(X)\leq min(N,D+1) rank(XXT)=rank(X)≤min(N,D+1)
第一步可以搜证明过程,第二步就明了了

第四题

在线性回归中,验证岭回归的解为结构风险最小化的准则下的最小二乘法估计,见公式(2.44)
答:首先看下岭回归公式(2.44):
R(ω)=12∣∣y−XTω∣∣2+12λ∣∣ω∣∣2\mathcal{R}(\omega)= \frac{1}{2}||y-X^T\omega||^2+\frac{1}{2}\lambda||\omega||^2 R(ω)=21​∣∣y−XTω∣∣2+21​λ∣∣ω∣∣2
而根据岭回归想得到最优参数ω∗\omega^*ω∗,对其损失函数求导即可,具体过程不再赘述,最后结果为:
∂R(ω)∂ω=−X(y−XTw)+w\frac{\partial \mathcal{R}(\omega)}{\partial \omega} = -X(y-X^Tw)+w ∂ω∂R(ω)​=−X(y−XTw)+w
即为λ2\lambda_2λ2​正则化,www值不能过大,在梯度下降过程中会尽量将w变小,也就是梯度衰减策略(weight_decay)。

第五题

在线性回归中,若假设标签yyy ~ N(ωTx,βx\mathcal{N} (\omega ^ T x, \beta xN(ωTx,βx),并用最大似然法估计来优化参数,验证最优参数公式为(2.52)的解。
答:直接用书中公式(2.51),仅β\betaβ取代σ2\sigma ^2σ2,如何推至(2.51)请见书P37
log⁡p(y∣X,ω,β)=∑1nlog⁡N(y(n);ωTx(n),β)\log p(\bm{y}|\bm{X}, \omega, \beta) = \sum _1^n \log \mathcal{N}(y^{(n)};\omega ^T x^{(n)}, \beta) logp(y∣X,ω,β)=1∑n​logN(y(n);ωTx(n),β)
对ω\omegaω求导数(忽略了取0后无效的β\betaβ):
∂log⁡p(y∣X,ω,β)∂ω=∂∑log⁡12πβ−∑(y−ωTx)22β∂ω=∂∑(y−ωTx)2∂ω\frac {\partial \log p(\bm{y}|\bm{X}, \omega, \beta)} {\partial \omega}= \frac{\partial \sum \log \frac{1}{\sqrt{2 \pi \beta}} - \sum \frac{(y -\omega^T x)^2}{2\beta}}{\partial \omega}=\frac{\partial \sum (y -\omega^T x)^2}{\partial \omega} ∂ω∂logp(y∣X,ω,β)​=∂ω∂∑log2πβ​1​−∑2β(y−ωTx)2​​=∂ω∂∑(y−ωTx)2​
同理,可将其写为向量形式,令y=[y(1),⋯,y(n)]T\bm{y} = [y^{(1)},\cdots,y^{(n)}]^Ty=[y(1),⋯,y(n)]T, X=[x(1),⋯,x(n)]\bm{X}= [x^{(1)},\cdots,x^{(n)}]X=[x(1),⋯,x(n)],那么:
∂log⁡p(y∣X,ω,β)∂ω=∂∣∣y−XTω∣∣2∂ω=0\frac {\partial \log p(\bm{y}|\bm{X}, \omega, \beta)} {\partial \omega} = \frac{\partial ||\bm{y}- \bm{X}^T \omega ||^2}{\partial \omega} = 0 ∂ω∂logp(y∣X,ω,β)​=∂ω∂∣∣y−XTω∣∣2​=0
与前几题一样,可解得公式(2.52):
ωML=(XXT)−1Xy\omega ^{ML} = (\bm{XX^T})^{-1}\bm{Xy} ωML=(XXT)−1Xy

第六题

假设有N个样本x(1),x(2),...,x(n)x^{(1)},x^{(2)},...,x^{(n)}x(1),x(2),...,x(n)服从正态分布N(μ,σ2)\mathcal{N}(\mu,\sigma^2)N(μ,σ2),其中μ\muμ为知,1)使用最大似然法估计来求解最优参数μML\mu^{ML}μML;2)若参数μ\muμ为随机变量,并服从正态分布N(μ0,σ02)\mathcal{N}(\mu_0,\sigma_0^2)N(μ0​,σ02​),使用最大后验法来求解最优参数μMAP\mu^{MAP}μMAP
答:(1)第一题就是最简单的概率题,假设各个样本独立同分布,则共同出现的概率为:
p(x(1))∗p(x(2))∗⋯∗p(x(n))=∏i=1n12πσe−(x−μ)22σ2p(x^{(1)}) * p(x^{(2)})* \cdots*p(x^{(n)})= \prod_{i=1}^n \frac{1}{\sqrt{2\pi}} \sigma \mathrm{e}^{-\frac{(x-\mu)^2}{2\sigma^2}} p(x(1))∗p(x(2))∗⋯∗p(x(n))=i=1∏n​2π​1​σe−2σ2(x−μ)2​
采用最大似然法,如何取μ\muμ使得出现上式概率最大,直接取对数再取导数为0即可,结果为:μ=∑xn=x‾\mu = \frac{\sum x}{n} = \overline xμ=n∑x​=x
(2)第二题也是传统题目,将贝叶斯估计引入。
先验概率为:p(μ)=N(μ0,σ02)=12πσ0e−(x−μ0)22σ02p(\mu)=\mathcal{N}(\mu_0,\sigma_0^2)=\frac{1}{\sqrt{2\pi}\sigma_0 } \mathrm{e}^{-\frac{(x-\mu _0)^2}{2\sigma_0^2}}p(μ)=N(μ0​,σ02​)=2π​σ0​1​e−2σ02​(x−μ0​)2​
后验概率为:
p(x∣u)p(u)={∏i=1n12πσe−(x−μ)22σ2}∗12πσ0e−(μ−μ0)22σ02p(x|u)p(u)=\{\prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma } \mathrm{e}^{-\frac{(x-\mu)^2}{2\sigma^2}}\} *\frac{1}{\sqrt{2\pi} \sigma_0} \mathrm{e}^{-\frac{(\mu-\mu _0)^2}{2\sigma_0^2}} p(x∣u)p(u)={i=1∏n​2π​σ1​e−2σ2(x−μ)2​}∗2π​σ0​1​e−2σ02​(μ−μ0​)2​
继续用最大似然法(贝叶斯+最大似然即为最大后验估计),对其求对数并求导,令导数为0,得:
{∑1Nx−μσ2}+μ−μ0σ02=0\{\sum^N_1 \frac{x-\mu}{\sigma ^2 } \} + \frac{\mu - \mu_0}{\sigma_0^2}=0 {1∑N​σ2x−μ​}+σ02​μ−μ0​​=0
求解,得:
μ=σ2Nμ0−σ02x‾σ2N−σ02\mu = \frac{\frac{\sigma^2}{N}\mu_0-\sigma_0^2 \overline{x}}{\frac{\sigma^2}{N}-\sigma^2_0} μ=Nσ2​−σ02​Nσ2​μ0​−σ02​x​
最大似然法和贝叶斯估计是机器学习的重要基础,需概率论知识,进阶可阅读李航老师《统计学习方法》及知乎回答:极大似然估计与最大后验概率估计

第七题

在第六题中,证明当N⟶∞N \longrightarrow \inftyN⟶∞ 时,最大后验估计趋向于最大似然估计
答:N无穷大时,原式为σ0x‾σ0=x‾\frac{\sigma _0 \overline{x}}{\sigma_0} = \overline{x}σ0​σ0​x​=x。
根据前文知乎回答,私认为是先验分布导致的这种情况,若先验分布不是正态的,不会导致这种情况。

第八题

第九题

答:方差大一般是过拟合,偏差大一般认为是过拟合,偏差方差都大,说明模型完全没有学习到数据特征,或者数据有问题。

第十题

周志华《机器学习》p45

第十一题

分别用一元、二元和三元特征的词袋模型表示文本“我打了张三”和“张三打了我”,并分析不同模型的优缺点
答:词袋模型指的是将词语划分为不同词袋,一元词袋指每个词袋有一个词语,n元词袋指每个词袋有n个词语,然后用向量表示句子包含哪些词袋(类似one-hot编码)。
针对于本题,共有“我”,“打了”,“张三”以及句前空白“$”和句后空白“#”五个词语。
(1)一元词袋
每个词袋仅有一个词语,共有五个词袋对应五个单词,因为每句话都包含这五个词袋,所有向量分别为:
句子一:[1,1,1,1,1]句子一:[1,1,1,1,1] 句子一:[1,1,1,1,1]
句子二:[1,1,1,1,1]句子二:[1,1,1,1,1] 句子二:[1,1,1,1,1]
(2)二元词袋,每个词袋两个词语,针对这两句话,将每句话依次拆解,
第一句话有:“$我”,“我打了”,“打了张三”,“张三#”
第二句话有: “$张三”,"张三打了”,“打了我”,‘我#’。
根据以上词袋,得到向量分别为:
句子一:[1,1,1,1,0,0,0,0]句子一:[1,1,1,1,0,0,0,0] 句子一:[1,1,1,1,0,0,0,0]
句子二:[0,0,0,0,1,1,1,1]句子二:[0,0,0,0,1,1,1,1] 句子二:[0,0,0,0,1,1,1,1]
(3) 三元词袋,每个词袋三个词语,针对这两句话,
第一句话有:“$我打了”,“我打了张三”,“打了张三#”
第二句话有:“$张三打了”,‘张三打了我’,“打了我#”
根据以上词袋,得到向量分别为:
句子一:[1,1,1,0,0,0]句子一:[1,1,1,0,0,0] 句子一:[1,1,1,0,0,0]
句子二:[0,0,0,1,1,1]句子二:[0,0,0,1,1,1] 句子二:[0,0,0,1,1,1]
可以看出,一元词袋无法表示语序特征,三元词袋相对于二元词袋,得到向量更短。
但是词袋容量不能太大,若为五元词袋,则可以直接表示每句话,丧失词袋意义,需选择合适词袋大小。

第十二题

对于一个三分类问题,数据集的真实标签和模型的预测标签如下:

代号
真实标签 1 1 2 2 2 3 3 3 3
预测标签 1 2 2 2 3 3 3 1 2

答:(1)精确率:所有预测类别为c中的正确率
label1:P1=①/(①+⑧)=0.5P_1 = ①/(①+⑧)=0.5P1​=①/(①+⑧)=0.5
同理,P2=0.5,P3=0.667P_2=0.5,P_3=0.667P2​=0.5,P3​=0.667
(2)召回率,所有真实类别为c中的正确率
label1: R1=①/(①+②)=0.5R_1=①/(①+②) = 0.5R1​=①/(①+②)=0.5
同理,R2=0.667,R3=0.5R_2=0.667,R_3=0.5R2​=0.667,R3​=0.5
(3)F1值
任一类别c的F1值为
F1=2∗Pc∗RcPc+RcF1=\frac{2*P_c*R_c}{P_c+R_c} F1=Pc​+Rc​2∗Pc​∗Rc​​
代入,得:F11=0.5,F12=47,F13=47F1_1=0.5,F1_2=\frac{4}{7},F1_3=\frac{4}{7}F11​=0.5,F12​=74​,F13​=74​
(4)宏平均(每个算术平均值)
Pmacro=13(P1+P2+P3)=59P_{macro}=\frac{1}{3}(P_1+P_2+P_3)=\frac{5}{9}Pmacro​=31​(P1​+P2​+P3​)=95​
同理,Rmacro=59,F1macro=59R_{macro}=\frac{5}{9},F1_{macro}=\frac{5}{9}Rmacro​=95​,F1macro​=95​
(5)微平均(每个样本算术平均值)
Pmicro=Rmicro=19(1+0+1+1+0+1+1+0+0)=59P_{micro}=R_{micro}=\frac{1}{9}(1+0+1+1+0+1+1+0+0)=\frac{5}{9}Pmicro​=Rmicro​=91​(1+0+1+1+0+1+1+0+0)=95​
根据前文F1公式,可得F1micro=59F1_{micro}=\frac{5}{9}F1micro​=95​

《神经网络与深度学习》 邱锡鹏 第二章课后习题答案相关推荐

  1. 《计算机网络技术》第二章课后习题答案(全)

    <计算机网络技术>第二章课后习题答案(全) 1.消息和信息的各自概念是什么?两者之间有何关系? 答: 消息:人类能感知的描述. 信息:消息中所包含的有意义的内容. 关系:消息是信息的载体. ...

  2. c语言定义y1代表英里数,河南理工大学C语言第二章课后习题答案.ppt

    河南理工大学C语言第二章课后习题答案 第二章 基本数据类型.运算符与表达式 1.选择题 (1)下面四个选项中,均是合法整型常量的选项是 A. 160 , -0xffff, 011B. -0xcdf, ...

  3. 《Python语言程序设计》王恺 机械工业出版社 第二章课后习题答案

    第二章 Python的基础语法 2.7 课后习题 (1)变量是指在程序运行讨程中值可以发生改变的量 (2)已知s="Python语言程序设计",则print(s[2:4])的输出结 ...

  4. 【最详细】数据结构(C语言版 第2版)第二章课后习题答案 严蔚敏 等 编著

    所有章节答案合集-->传送门 第 2 章线性表 1.选择题 ( 1)顺 序表中 第一个 元 素的存储 地址 是 100 ,每 个元素的 长度 为 2,则 第 5 个 元 素 的 地 址 是 ( ...

  5. 计算机网络-自顶向下方法 第二章课后习题答案(第七版)

    复习题 R1. 浏览器:HTTP 对等文件传输:FTP 网络安全协议:SSH 电子邮件:SMTP 远程连接:Telnet R2. 网络体系结构:将通信过程组织成层,例如五层结构. 应用程序结构:客户- ...

  6. 统计学习方法-第二章课后习题答案整理

    2.1Minsky和Papert指出: 感知机因为是线性模型, 所以不能表示复杂的函数,如异或. 验证感知机为什么不能表示异或 参考链接: https://blog.csdn.net/yangfeis ...

  7. c语言第二章网上作业答案,c语言第二章课后习题答案

    第3章 数据类型.运算符与表达式 习 题 答 案 一. 选择题 1. 以下表示正确常量的是( ). (A) E-5 (B) 1E5.1 (C) 'a12' [答案]D (D) 32766L 2. 若有 ...

  8. 李航第二章课后习题答案

    2.1 **题目描述:**Minsky和Papert指出:感知机是线性模型,所以不能表示复杂的函数.如异或(XOR),验证感知机为什么不能表示异或. 解:异或的输入输出如下: x(1)x(1) 1 1 ...

  9. 《工程伦理》网课第二章课后习题答案

    1.单选题 (1分) 2.单选题 (1分) 3.单选题 (1分) 4.单选题 (1分)

  10. 工程伦理(2021春)第二章课后习题答案

    工程伦理(2021春)第一章课后习题答案 工程伦理(2021春)第三章课后习题答案 工程伦理(2021春)第四章课后习题答案 工程伦理(2021春)第五章课后习题答案 工程伦理(2021春)第六章课后 ...

最新文章

  1. VuePress 入门
  2. c语言小程序跑马灯,微信小程序实现跑马灯效果(完整代码)
  3. linux18.04安装显卡驱动,详细介绍ubuntu18.04安装NVIDIA显卡驱动(亲测有效!)
  4. tcode SLG1 Object determination logic
  5. 拿不到offer全额退款 | 第四期人工智能 NLP / CV 课 培训招生
  6. 奥巴马访华:不建议过度审查 提倡加强互联网开放
  7. 腾讯Techo开发者大会揭晓云存储发展趋向:高性能、高可用、高性价比
  8. 重构 - 美股行情系统APP推送改造
  9. ios 初体验窗口的创建
  10. 烽火通信FSU数据采集设备通过中国铁塔测试
  11. 推荐一个好看且实用的火狐浏览器新标签页插件【火狐浏览器新标签页自定义美化】
  12. 台式计算机怎么开声音,台式电脑没有声音【设置办法】
  13. FPGA浮点运算实战
  14. arcmap小技巧之获取行政区划及json格式转shp,json转csv
  15. 推荐系统(3):倒排索引在召回中的应用
  16. 深圳市文化创意产业百强(2011-2012)公示
  17. border-radius理解-边框棱角变圆
  18. matlab在读取或者导入excel时,服务器出现意外情况
  19. 树的直径/重心 学习笔记
  20. 磁带机LTO类型简单介绍(Tape drive LTO type)

热门文章

  1. 3DMAX渲染很卡很慢?8个3dsMax中节省建模和渲染时间的技巧-瑞云渲染
  2. 群晖通过计划任务挂载USB盘做主力下载盘
  3. 文字转语音怎么做?分享三种配音方法,真人语音很逼真
  4. Linux gd库安装步骤说明
  5. 计算机所建造全过程,Midas桥梁建模计算,全过程图文解析!
  6. 360安全卫士 免杀
  7. c语言追赶法求方程组的解,MATLAB-追赶法求解三对角方程组的算法原理例题与程序...
  8. 裴礼文数学分析中的典型问题与方法第5章级数练习
  9. 【计算摄影】相机成像原理:从光到JPEG图像
  10. 免费在线 Logo生成器