目录

  • 课时9 梯度下降通俗解释
  • 课时10 参数更新的方法
  • 课时12 反向传播
  • 课时13 神经网络整体框架
  • 课时14 神经网络结构细节
  • 课时15 神经元个数对结果的影响
  • 课时16 正则化与激活函数
  • 课时18 神经网络过拟合解决方法

第二章 神经网络

课时9 梯度下降通俗解释

引入:当得到一个目标函数之后,如何进行求解?线性回归可以看作一个特例,可以直接求解得到。而其他目标函数不一定能求解得到。

由上softmax得到一个目标函数(损失函数)如何进行求解得到最好的W参数呢?
向着损失函数(loss function)减小的方向去做,每一次优化一点点。沿着切线方向,向下,走一小步,再算梯度。
算一个函数的梯度,梯度是向上的,要向下就要算梯度的反方向-----梯度下降。

课时10 参数更新的方法

以一个回归方程为例


偏导数:分别对θo和θ1进行求偏导。

将上面的目标函数换成普遍形式:,注意J(θ)是 复合函数,i是第i个样本,j是第j列

算出偏导后,要改变参数θ,就要沿着梯度的反方向在原来基础上走一小步,得到新的θ

如果m=100w,也就是说要算100w个样本的损失值,那么更新一次参数Θ,要算100w次,太慢了。,这种将所有样本拿去算梯度下降的方法叫做:批量梯度下降,它能算出所有样本平均的一个梯度下降,最优解容易得到,但速度太慢了。

**随机梯度下降:**不算所有样本的梯度,只算随机的一个样本的。迭代速度快,但是不一定朝着收敛的方向

**小批量梯度下降:**mini-batch,batch选的大,就是希望当前结果越精确,64,128,256;α就是学习率

课时12 反向传播

先再进一步了解神经网络的前向传播:会有多个层,每一层对上一层结果再改变其属性(通过添加新的参数W)




链式法则:梯度是一步一步传的

课时13 神经网络整体框架

这节课前半部分介绍了如何具体计算链式法则,求导(暂时忽略)

课时14 神经网络结构细节

神经网络的强大之处在于,用更多的参数来拟合复杂的数据

课时15 神经元个数对结果的影响

神经元越多,拟合得越好,精确度越高,过拟合风险越大

本课时展示了斯坦福大学的神经网络可视化展示,可忽略

课时16 正则化与激活函数

惩罚力度越大,过拟合风险越小

神经网络经过XW之后都要有个非线性的变换,就需要激活函数,现在最常用的是ReLu
不用sigmoid是因为其存在梯度消失的现象。

课时18 神经网络过拟合解决方法

数据预处理:不同的预处理结果会使得模型效果发生很大差异


第一步,中心化,每个样本值减去均值就能得到
第二步,除以标准差

参数初始化很重要!!:通常使用随即策略

过拟合解决方法之一:Drop-out(七伤拳)
每次训练更新参数W时,随机杀死一部分神经元,下轮训练时,再随机选取一部分神经元杀死,也就是说每次训练,只有一部分神经元会被训练

TYD深度学习入门 第二章相关推荐

  1. TYD深度学习入门 第一章

    目录 章节1 深度学习必备基础知识 课时1 深度学习要解决的问题 课时2 深度学习应用领域 课时3 计算机视觉任务 1.图像在计算机中长什么样 2.计算机视觉面临的挑战 课时4 视觉任务中遇到的问题 ...

  2. 0-机器学习-深度学习-入门建议-章浩

    1. 我亲自修过的课程及书籍 1.1 数学基础 1.1.1 高数(优化) 1.1.2 线代 统计学中的矩阵代数(方开泰,高教社) 3星,言简意赅,当字典使用 线性代数的几何意义(xxx,西电) 5星, ...

  3. TYD深度学习入门 第六章 递归神经网络

    目录 课时49 递归神经网络原理 课时52 LSTM网络结构 (长短期记忆网络) 课时49 递归神经网络原理 传统的神经网络,第一次传入神经网络的数据,对第二次传入的数据是没有影响的,样本之间 相互独 ...

  4. 【Dive into Deep Learning / 动手学深度学习】第二章 - 第一节:数据操作

    目录 前言 2.1 数据操作 2.1.1. 入门 torch.arange() shape numel() reshape() ones() randn() 2.1.2. 运算符 +.-.*./.** ...

  5. 【Dive into Deep Learning / 动手学深度学习】第二章 - 第六节:概率

    目录 前言 2.6. 概率 2.6.1. 模拟扔骰子 2.6.2. 处理多个随机变量 2.6.2.1. 联合概率 2.6.2.2. 条件概率 2.6.2.3. 贝叶斯定理 2.6.2.4. 边际化 2 ...

  6. 【深度学习】第二章:全连接神经网络

    文章目录 1. 什么是全连接神经网络? 2. 三要素 2.1 模型 2.2 准则 2.3 算法 3. 反向传播算法 3.1 为什么要使用反向传播算法的随机梯度下降法求最优化? 3.2 什么是反向传播算 ...

  7. 【深度学习入门:基于Python的理论与实现】书本学习笔记 第三章 神经网络

    文章目录 1. 阶跃函数的实现 2. 函数图形 2.1 阶跃函数 2.2 sigmoid 函数 2.3 ReLU 函数 3. 多维数组的运算 3.1 矩阵乘法 3.2 神经网络的内积 4. 三层神经网 ...

  8. 深度学习入门|第5章 误差反向传播法(二)

    误差反向传播法 前言 此为本人学习<深度学习入门>的学习笔记 四.简单层的实现 本节将用 Python 实现前面的购买苹果的例子.这里,我们把要实现的计算图的乘法节点称为"乘法层 ...

  9. BP算法双向传_链式求导最缠绵(深度学习入门系列之八)

    摘要: 说到BP(Back Propagation)算法,人们通常强调的是反向传播,其实它是一个双向算法:正向传播输入信号,反向传播误差信息.接下来,你将看到的,可能是史上最为通俗易懂的BP图文讲解, ...

最新文章

  1. C# 视频多人脸识别的实现过程
  2. 微软的面试题(超变态但是很经典)
  3. java 中数组与list_Java中List与数组相互转换实例分析
  4. LOJ#2542. 「PKUWC2018」随机游走
  5. python 水位_Leetcode 42. 接雨水 - python - 递归 查找分水岭
  6. java求最后一位不为0的数字_【Java】 剑指offer(62) 圆圈中最后剩下的数字
  7. django 开发 - 小心模板文件的编码格式(utf-8)
  8. HTTP响应码及其含义
  9. 创建高质量Python工程(1)-如何设计结构清晰的目录结构(转)
  10. 金融行业,保险行业软件测试分析
  11. unity3d游戏3d横版格斗游戏完整项目源码分享
  12. 推荐一个不错的新浪微博应用--独到科技
  13. 2022年高处安装、维护、拆除考试试卷及高处安装、维护、拆除作业考试题库
  14. emmc/ufs, sd
  15. 京东健康IPO:枪口对准阿里健康
  16. System.IO.Stream 中Flush函数的用法
  17. 论文笔记:Show, Edit and Tell : A Framework for Editing Image Captions
  18. 小白算法练习 lanqiao SPFA+vector 模板
  19. Java字符串反转函数reverse()
  20. fastcgi php 集群 分离,使用nginx配置多个php fastcgi负载均衡--梦飞翔的地方(梦翔天空)...

热门文章

  1. 求教:怎样解决TencentTraveler(腾讯TT)引发的ViewStateException ?
  2. 数据治理:数据标准的6大建设步骤及实施分享
  3. 释放Windows为硬件保留内存,双系统安装释放法。
  4. 基于linux嵌入式浏览,基于Linux的嵌入式浏览器的实现
  5. 悲惨的阿尔塞斯(全介绍+堕落全解析阿斯)
  6. 猿创征文|Android开发入门工具的那些事儿
  7. img标签地址src路径拼接_img标签src路径设置
  8. 一键智能快速环网工业级以太网交换机“一键环网”功能
  9. 《Linux就该这么学》_Day1_ch00
  10. 解决KDevelop打开工程时CMakeList.txt是灰色,工程打不开的情况