12 权重衰退【动手学深度学习v2】
文章目录
- P1 权重衰退
- P2 代码实现
- P3 QA
- 2. 限制模型只在很小的范围取参数,空间就会变小
- 3. L1范数,你可以自己试一下,效果好到爆炸?
- 4. 一般取1e-3
- 6. 数据有噪音,学不到真正的w,λ太小拉一点点,太大拉多一点
学习视频地址:https://www.bilibili.com/video/BV1UK4y1o7dy?p=3
P1 权重衰退
通常不会使用上面的约束,而是使用下面这个约束
如果你要控制模型不要太复杂,λ
变大
直观解释:增加了这一项,相当于把w~向原点拉,拉到w这个平衡点,w的绝对值变小,
相当于模型复杂度变低了。所以λ越大,越限制模型复杂度,复杂度越低!
为什么叫权重衰退
总结
P2 代码实现
当你的数据过小,模型越复杂,过拟合越容易发生
这一节的核心:L2范数惩罚
简介实现:weight_decay
通常大家会选择weight_decay = 1e-3
,但不会选很大例如1
P3 QA
- 不支持(但复数就是二维的东西,可以通过加第二维实现你的效果)
2. 限制模型只在很小的范围取参数,空间就会变小
3. L1范数,你可以自己试一下,效果好到爆炸?
4. 一般取1e-3
- L2默认,这里忽略下标了
6. 数据有噪音,学不到真正的w,λ太小拉一点点,太大拉多一点
7. 没有取平均的意思,L2就是往回拉
8. 1e-3,1e-2,1e-4,都试一下
9. 先λ=0看一下不用的效果,再调1e-3看一下有没有效果,有用但是只有一点点
10. 你可以试一下嘛
12 权重衰退【动手学深度学习v2】相关推荐
- 【动手学深度学习v2李沐】学习笔记07:权重衰退、正则化
前文回顾:模型选择.欠拟合和过拟合 文章目录 一.权重衰退 1.1 硬性限制 1.2 柔性限制(正则化) 1.3 参数更新法则 1.4 总结 二.代码实现 2.1 从零开始实现 2.1.1 人工数据集 ...
- 李沐动手学深度学习v2/总结1
总结 编码过程 数据 数据预处理 模型 参数,初始化参数 超参数 损失函数,先计算损失,清空梯度(防止有累积的梯度),再对损失后向传播计算损失关于参数的梯度 优化算法,使用优化算法更新参数 训练求参数 ...
- 动手学深度学习v2 p1引言 监督学习与无监督学习
1.引言 1.2. 机器学习中的关键组件 首先介绍一些核心组件.无论什么类型的机器学习问题,都会遇到这些组件: 可以用来学习的数据(data): 如何转换数据的模型(model): 一个目标函数(ob ...
- new 动手学深度学习V2环境安装
动手学深度学习V2 环境安装 虚拟环境 d2l-zh安装 conda create -n d2l-zh -y python=3.8 pip pip install jupyter d2l torch ...
- 使用AWS最便宜的GPU实例 from 动手学深度学习v2 李沐大神
使用AWS最便宜的GPU实例 from 动手学深度学习v2 李沐大神 视频链接https://www.bilibili.com/video/BV1MA411L78X?t=493 由于购买的电脑没有配 ...
- 57 长短期记忆网络(LSTM)【动手学深度学习v2】
57 长短期记忆网络(LSTM)[动手学深度学习v2] 深度学习学习笔记 学习视频:https://www.bilibili.com/video/BV1JU4y1H7PC/?spm_id_from=a ...
- 动手学深度学习 v2 视频版
动手学深度学习 v2 01 课程安排 目标 内容 形式 你将学到什么? 资源 02 深度学习介绍 AI 地图 图片分类 物体检测和分割 样式迁移 人脸合成 文字生成图片 文字生成 03 安装 本地安装 ...
- 《动手学深度学习v2》之细致解析(1)内容及介绍及安装
前言 作者来自北京某不知名985,现在是本科在读学生,专业是数据科学与大数据技术,班上同学都太卷了,没办法,需要学习深度学习,经大佬介绍,在B站上找到了一个很不错的资源,李沐老师的<动手学深度学 ...
- 动手学深度学习V2——李沐Bilibili直播视频Jupyter Notebook安装
在哔哩哔哩上发现李沐是视频直播讲解<动手学深度V2>- Pytorch,准备按照视频中的安装教程来搭建一个新的虚拟环境d2l,李沐使用的是Jupyter Notebook 而不是 Pych ...
最新文章
- 特征工程(3):特征选择
- Jenkins Pipeline 语法
- USACO-Section2.1 Hamming Codes(深度优先搜索)
- Wi-Fi闪开,网速快 100 倍的Li-Fi要来了
- [转]/etc/passwd文件解析
- html——attr与val、attr与prop、attr与css区别
- 在线程序员 计算器 (中文)
- 高通SDX12:sar sensor AW9610x驱动移植
- 远程计算机关机了怎么办,远程关机的详细步骤有哪些?向日葵怎么远程关机?...
- python文档:控制流(if,for,函数,lambda等)
- 矩阵的特征值、特征向量、特征子空间
- 【每天学点管理】——提升领导力 增值法则
- 在一款D-Link消费级路由器上,我发现了10个严重漏洞
- 英语词汇篇 - 构词法
- android sqlite 分词,sqlite fts3自定义分词器 zz
- VM虚拟机过检测全版本
- 面试请假攻略,不用裸辞也能找到工作
- 2020.9.23 金山云后台开发岗笔试 2道编程
- mysql+查询触发器+sql_Mysql基本查询、视图、索引、触发器
- 单相交流调压电路matlab仿真,单相斩控式交流调压电路
热门文章
- go gorilla_使用gorilla websocket构建浏览器推送通知服务的低级设计
- uniapp H5 百度统计
- 触宝AI助手“Talia”现身OPPO印度新机,TA的朋友圈实在不可想象!
- html点击div等元素隐藏光标
- (二)最新版Django项目数据库迁移;读取数据库增添删改;以及显示在html或vue前端(Django+Vue+Mysql,数据库管理数据分析网站)
- 红帽如何安装oracle数据库,红帽系Linux安装Oracle 19C数据库
- 关于$NOIP2017$的题目讲解
- 前端导出zip格式压缩包
- UNITY 开发日记/教程 俄罗斯方块 (五) 方块平移和旋转
- 开普敦知名景点突发大火 超过20辆消防车参与救援