网络收敛是什么意思_深度学习网络收敛之后的loss数值代表什么?
忽略loss函数直接对loss数值进行讨论... 嗯~~~ 天呐!流氓!
loss数值代表啥呢?我觉得代表的就是你的模型输出与真实结果之间的距离(度量),这个距离的计算方式是你自己定义的(loss函数),所以这个数值代表啥得看你怎么定义这个loss。
一、交叉熵
假设你在训练一个简单的分类模型,使用交叉熵作为损失函数,交叉熵损失函数如下:
其中
为总的样本数,
为总的类别数,
为one-hot标签,当
的类别为
时
,否则为
。我们把问题简化,令
,
,则有
首先我们由
中的变量解释可知
只能为
或
,我们假设
(
同理),则
于是有如下推导:
.
那么下面我们看看这个
是怎么来的。
一般们会将网络的输出(logits)使用Softmax转化为概率分布,再与one-hot label计算交叉熵,Softmax的计算方法如下:
其中
,
即输出
转化为的概率(对应上面的
).
显然,对于任意的
,都有
,因此,对于任意的
,都有
(前开后开),
不能取到
, 这与
中
的必要条件矛盾,故
不能为
.
因此,当你使用交叉熵作为损失函数的时候,loss也确实不能收敛到
,没办法,臣妾真的做不到。
二、MSE
假设你在训练一个简单的回归任务,输入数据是你们班同学的身高,回归你们班同学的体重,
假设你们班有十个同学,身高分别是
(
);体重分别是
(斤)。
你使用的损失函数为MSE
你使用一个网络开始训练,然后经过你一顿训练,网络收敛了,可能是网络拟合到了
这个终极公式(就是上面身高体重在二维空间中所在的直线),也可能是任务太简单,反正你教啥我就学啥,老子直接过拟合,训练loss不再降低了。这时候训练loss是多少呢?那它不就是0吗?
你随便给网络一个身高(这十个人里面的),网络都给你一个和真实结果一样的预测,你拿MSE一算,嗬,loss还真就是0。
三、其他
这个时候你突然明白了,loss原来是我自己定义的啊,于是你在 MSE(公式
)上一顿修改,定义了新的loss
然后你又重新训练身高体重网络,你盯着loss日志。
嗬,loss降了。
靠,降到
了!!!
卧去,怎么降到负数了???
以上都是脑洞,但是意思就是那个意思。
溜了溜了。
网络收敛是什么意思_深度学习网络收敛之后的loss数值代表什么?相关推荐
- 深度置信网络预测算法matlab代码_深度学习双色球彩票中的应用研究资料
点击蓝字关注我们 AI研习图书馆,发现不一样的世界 深度学习在双色球彩票中的应用研究 前言 人工神经网络在双色球彩票中的应用研究网上已经有比较多的研究论文和资料,之前比较火的AlphaGo中用到的深度 ...
- OpenCV语义细分深度学习网络的实例(附完整代码)
OpenCV语义细分深度学习网络的实例 OpenCV语义细分深度学习网络的实例 OpenCV语义细分深度学习网络的实例 #include <fstream> #include <ss ...
- OpenCV运行分类深度学习网络的实例(附完整代码)
OpenCV运行分类深度学习网络的实例 OpenCV运行分类深度学习网络的实例 OpenCV运行分类深度学习网络的实例 #include <fstream> #include <ss ...
- 深度学习深度前馈网络_深度学习前馈网络中的讲义第4部分
深度学习深度前馈网络 FAU深度学习讲义 (FAU Lecture Notes in Deep Learning) These are the lecture notes for FAU's YouT ...
- 深度学习网络每一层维度_每个人都可以使用深度学习
深度学习网络每一层维度 A year ago, a few of us started working on Cortex, an open source platform for building ...
- resnet网络结构_深度学习之16——残差网络(ResNet)
残差网络在设计之初,主要是服务于卷积神经网络(CNN),在计算机视觉领域应用较多,但是随着CNN结构的发展,在很多文本处理,文本分类里面(n-gram),也同样展现出来很好的效果. 首先先明确一下几个 ...
- 如何利用扬声器构建深度学习网络?
简 介: 来自于康纳尔大学的这篇研究论文给出了 一个利用物理系统实现深层网络学习和推理的框架.本文对于文章举例的三个系统不属于线性时不变系统进行分析.除了其中SHG系统比较复杂之外,其它两个系统(三极 ...
- 深度学习 图像分类_深度学习时代您应该阅读的10篇文章了解图像分类
深度学习 图像分类 前言 (Foreword) Computer vision is a subject to convert images and videos into machine-under ...
- ann人工神经网络_深度学习-人工神经网络(ANN)
ann人工神经网络 Building your first neural network in less than 30 lines of code. 用不到30行代码构建您的第一个神经网络. 1.W ...
最新文章
- 干货丨吴恩达深度学习课程的思维导图总结
- 是否提交由npm 5创建的package-lock.json文件?
- gRPC的通信方式-客户端流式、服务端流式、双向流式在Java的调用示例
- 第四次上课 PPT作业
- mysql差异备份实现_结合Git实现Mysql差异备份,可用于生产环境
- DFS(深度搜索最简单的应用)
- C# Obsolete
- 机器学习的训练数据(Training Dataset)、测试数据(Testing Dataset)和验证数据(Validation Dataset)
- Memcached 集群架构方面的问题
- [转载] [转载] python 去除字符串的标点符号 用_Python成为专业人士笔记–String字符串方法
- linux学习笔记1(第一本笔记)
- FFS学习 (FTL)
- 这样的简历HR才会看----个人整理
- 四种隔离级别及应用场景
- OSChina 周六乱弹 ——你们猜狗的舌头有多长
- TS学习(尚硅谷总结)
- 『Python基础』函数
- 数码时代的阅读,选择kindle还是ipad?
- Cp Cpk Cg Cgk 1.33,1.67的由来
- Rx第四部分--并发
热门文章
- 文件上传的各种绕过姿势
- kernel:max92xx加串解串示例代码[可读取16位寄存器地址]
- C++在循环内和循环外定义变量的差异(如何写出高效的for循环)
- 2022年度新星,4款一见倾心的黑马软件,让你找不到拒绝的理由
- ATTCK框架入门总结
- 爱情智慧:1招让你搞定不愿意付出的男人
- 自动驾驶汽车传感器数字孪生建模(一)
- 【数字图像处理】图像内插“双三次内插法 双三次插值 Bicubic interpolation”(cv2.resize、cv.INTER_CUBIC)
- 汽车维修公安管理系统-机动车修理业治安管理信息系统软件
- Linux软件太少了,LINUX挺好,可惜应用软件太少