深度学习中，偏置（bias）在什么情况下可以要，可以不要？

2024-05-12 22:05:24

1.深度学习偏置的作用？

我们在学深度学习的时候，最早接触到的神经网络应该属于感知器（感知器本身就是一个很简单的神经网络，也许有人认为它不属于神经网络，当然认为它和神经网络长得像也行）

要想激活这个感知器，使得y=1，就必须使x1*w1 + x2*w2 +....+xn*wn > T（T为一个阈值），而T越大，想激活这个感知器的难度越大，人工选择一个阈值并不是一个好的方法，因为样本那么多，我不可能手动选择一个阈值，使得模型整体表现最佳，那么我们可以使得T变成可学习的，这样一来，T会自动学习到一个数，使得模型的整体表现最佳。当把T移动到左边，它就成了偏置，x1*w1 + x2*w2 +....+xn*wn - T> 0 ----->x*w +b > 0，总之，偏置的大小控制着激活这个感知器的难易程度。

2.在某些情况下，我们是否可以不要偏置呢？

如果大家看过我的博客：ShuffleNet V2 神经网络简介与代码实战，是否会注意到代码中的一个细节，这个代码中，bias被设置False，也就是没有用到偏置。

def conv_bn(inp, oup, stride):return nn.Sequential(nn.Conv2d(inp, oup, 3, stride, 1, bias=False),nn.BatchNorm2d(oup),nn.ReLU(inplace=True))

而在我的博客： ShuffleNet V1 神经网络简介与代码实战，这个代码中，bias被设置为True，用到了偏置

def conv3x3(in_channels, out_channels, stride=1, padding=1, bias=True, groups=1):    """3x3 convolution with padding"""return nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride,padding=padding,bias=bias,groups=groups)

我这样做是不小心，还是故意而为之，大家可以猜一猜，这两份的代码区别在于卷积后面有没有接BN操作（后面我会有博客讲归一化操作，这里就不展开了）

BN操作，里面有一个关键操作

其中x1 = x0 * w0 + b0，而E[x1] = E[x0*w0] + b0，所以对于分子而言，加没加偏置，没有影响；而对于下面分母而言，因为Var是方差操作，所以也没有影响（为什么没影响，回头问问你的数学老师就知道了）。所以，卷积之后，如果要接BN操作，最好是不设置偏置，因为不起作用，而且占显卡内存。

深度学习中，偏置（bias）在什么情况下可以要，可以不要？相关推荐

计算机偏置,深度学习中偏置的作用
AI开发平台ModelArts ModelArts是面向开发者的一站式AI开发平台,为机器学习与深度学习提供海量数据预处理及半自动化标注.大规模分布式Training.自动化模型生成,及端-边-云模型 ...
入门深度学习，但你知道哪些情况下不该使用深度学习吗？
来源 | hyperparameter.space 编译 | 聂震坤我知道以深度学习的缺点来开始本文是不合时宜的,但是此前关于深度学习的一大波讨论我觉得可以很好的引出我观点.一切都是从 Jeff L ...
深度学习中的语音信号处理基础
文章目录音频处理流程常用谱:幅度谱.梅尔谱时域 --> 频域分帧窗长帧移语音信号特征获取流程梅尔谱使用 librosa 提取梅尔谱使用 tacotron 获取梅尔谱(推荐) ...
深度学习中的两种不确定性：偶然不确定性和认知不确定性（Aleatoric Uncertainty Epistemic Uncertainty）
转载:https://zhuanlan.zhihu.com/p/56986840 注: 本文中,概念.公式与实验均基于 Alex Kendall & Yarin Gal的论文:https:// ...
深度学习中的优化算法之BGD
之前在https://blog.csdn.net/fengbingchun/article/details/75351323 介绍过梯度下降,常见的梯度下降有三种形式:BGD.SGD.MBGD,它们的 ...
AI部署：聊一聊深度学习中的模型权重
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨Oldpan 来源丨Oldpan博客编辑丨极市平台导读本文简要介绍了模型权重的统计方法,以 ...
深度学习中的正则化技术详解
目录基本概念 1. 参数范数惩罚 1.1 \(L^2\)正则化 1.2 \(L^1\)正则化 1.3 总结\(L^2\)与\(L^1\)正则化 2. 作为约束的范数惩罚 3. 欠约束问题 4. 数据 ...
深度学习中的优化方法总结
转载自:https://blog.csdn.net/u012151283/article/details/78154917 梯度下降沿着整个训练集的梯度方向下降.可以使用随机梯度下降很大程度地加速,沿 ...
深度学习中的卷积操作
本文从信号处理中的互相关运算引入深度学习中的卷积. 然后介绍了不同的卷积类型,以及如何在pytorch中使用这些卷积层. (在看pytorch文档中的Conv1D/2D/3D的时候感到比较困惑,又很好 ...
深度学习中的优化算法之MBGD
之前在https://blog.csdn.net/fengbingchun/article/details/75351323 介绍过梯度下降,常见的梯度下降有三种形式:BGD.SGD.MBGD,它们的 ...

最新文章

热门文章