1.深度学习偏置的作用?

我们在学深度学习的时候,最早接触到的神经网络应该属于感知器(感知器本身就是一个很简单的神经网络,也许有人认为它不属于神经网络,当然认为它和神经网络长得像也行)

要想激活这个感知器,使得y=1,就必须使x1*w1 + x2*w2 +....+xn*wn > T(T为一个阈值),而T越大,想激活这个感知器的难度越大,人工选择一个阈值并不是一个好的方法,因为样本那么多,我不可能手动选择一个阈值,使得模型整体表现最佳,那么我们可以使得T变成可学习的,这样一来,T会自动学习到一个数,使得模型的整体表现最佳。当把T移动到左边,它就成了偏置,x1*w1 + x2*w2 +....+xn*wn  - T> 0   ----->x*w +b > 0,总之,偏置的大小控制着激活这个感知器的难易程度。

2.在某些情况下,我们是否可以不要偏置呢?

如果大家看过我的博客:ShuffleNet V2 神经网络简介与代码实战,是否会注意到代码中的一个细节,这个代码中,bias被设置False,也就是没有用到偏置。

def conv_bn(inp, oup, stride):return nn.Sequential(nn.Conv2d(inp, oup, 3, stride, 1, bias=False),nn.BatchNorm2d(oup),nn.ReLU(inplace=True))

而在我的博客: ShuffleNet V1 神经网络简介与代码实战,这个代码中,bias被设置为True,用到了偏置

def conv3x3(in_channels, out_channels, stride=1, padding=1, bias=True, groups=1):    """3x3 convolution with padding"""return nn.Conv2d(in_channels, out_channels, kernel_size=3, stride=stride,padding=padding,bias=bias,groups=groups)

我这样做是不小心,还是故意而为之,大家可以猜一猜,这两份的代码区别在于卷积后面有没有接BN操作(后面我会有博客讲归一化操作,这里就不展开了)

BN操作,里面有一个关键操作

其中x1 = x0 * w0 + b0,而E[x1] = E[x0*w0] + b0, 所以对于分子而言,加没加偏置,没有影响;而对于下面分母而言,因为Var是方差操作,所以也没有影响(为什么没影响,回头问问你的数学老师就知道了)。所以,卷积之后,如果要接BN操作,最好是不设置偏置,因为不起作用,而且占显卡内存。

深度学习中,偏置(bias)在什么情况下可以要,可以不要?相关推荐

  1. 计算机偏置,深度学习中偏置的作用

    AI开发平台ModelArts ModelArts是面向开发者的一站式AI开发平台,为机器学习与深度学习提供海量数据预处理及半自动化标注.大规模分布式Training.自动化模型生成,及端-边-云模型 ...

  2. 入门深度学习,但你知道哪些情况下不该使用深度学习吗?

    来源 | hyperparameter.space 编译 | 聂震坤 我知道以深度学习的缺点来开始本文是不合时宜的,但是此前关于深度学习的一大波讨论我觉得可以很好的引出我观点.一切都是从 Jeff L ...

  3. 深度学习中的语音信号处理基础

    文章目录 音频处理流程 常用谱:幅度谱.梅尔谱 时域 --> 频域 分帧 窗长 帧移 语音信号特征获取流程 梅尔谱 使用 librosa 提取梅尔谱 使用 tacotron 获取梅尔谱(推荐) ...

  4. 深度学习中的两种不确定性:偶然不确定性和认知不确定性(Aleatoric Uncertainty Epistemic Uncertainty)

    转载:https://zhuanlan.zhihu.com/p/56986840 注: 本文中,概念.公式与实验均基于 Alex Kendall & Yarin Gal的论文:https:// ...

  5. 深度学习中的优化算法之BGD

    之前在https://blog.csdn.net/fengbingchun/article/details/75351323 介绍过梯度下降,常见的梯度下降有三种形式:BGD.SGD.MBGD,它们的 ...

  6. AI部署:聊一聊深度学习中的模型权重

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨Oldpan 来源丨Oldpan博客 编辑丨极市平台 导读 本文简要介绍了模型权重的统计方法,以 ...

  7. 深度学习中的正则化技术详解

    目录 基本概念 1. 参数范数惩罚 1.1 \(L^2\)正则化 1.2 \(L^1\)正则化 1.3 总结\(L^2\)与\(L^1\)正则化 2. 作为约束的范数惩罚 3. 欠约束问题 4. 数据 ...

  8. 深度学习中的优化方法总结

    转载自:https://blog.csdn.net/u012151283/article/details/78154917 梯度下降沿着整个训练集的梯度方向下降.可以使用随机梯度下降很大程度地加速,沿 ...

  9. 深度学习中的卷积操作

    本文从信号处理中的互相关运算引入深度学习中的卷积. 然后介绍了不同的卷积类型,以及如何在pytorch中使用这些卷积层. (在看pytorch文档中的Conv1D/2D/3D的时候感到比较困惑,又很好 ...

  10. 深度学习中的优化算法之MBGD

    之前在https://blog.csdn.net/fengbingchun/article/details/75351323 介绍过梯度下降,常见的梯度下降有三种形式:BGD.SGD.MBGD,它们的 ...

最新文章

  1. MVC系列1-MVC基础
  2. 数据通信技术(九:OSPF特殊区域配置(Cisco))
  3. CMU赵越:关于数据挖掘的分享!
  4. day7——集合,深浅copy
  5. navicat mysql server has gone away_Navicat中MySQL server has gone away错误怎么办【转载】
  6. springmvc initial初始化
  7. PBRT——零基础到完全吃透系列
  8. 亲自体验了vscode网页版开发代码并提交代码到github代码库,发现出奇的流畅,手机和平板也可以很愉快的编写代码了
  9. 软媒定时关机,电脑无法启动
  10. 蓝桥杯算法题--跑步锻炼(java实现)
  11. SQL基础系列(八)——排序、分组排序(RANK)
  12. 矩形类定义【C++】
  13. CSS超链接标记大全
  14. 毕设 JAVA.JSP网上学习答疑系统论文
  15. python 深圳找工作_讲讲自己来深圳后找工作的经验吧!
  16. 信息素养—学术研究的必修课习题答案(week7-12)(第4-7章)
  17. 什么是yyyy-mm-dd格式
  18. 非侵入式负荷监测-采集设备
  19. php excel 转数组函数,php读取Excel中内容到数组
  20. 美团搜索排序设计方案

热门文章

  1. pg数据库 设置不区分大小写_浅谈PostgreSQL中大小写不敏感问题
  2. ubuntu14.04 64位安装H3C iNode客户端
  3. 不懂年轻人,还怎么带团队
  4. 创意发明:基于stm32的微型掌上示波器 设计说明书电路及源代码
  5. 12、加权平均队列(WFQ-Weight Fair Queue)算法
  6. Android 天气APP(一)开发准备
  7. 题目54:百钱百鸡 一只公鸡值5元,一只母鸡值3元,而1元可买3只小鸡,用百元买百鸡。现有n元钱,想买n只鸡。问有多少种买法?(钱要用完)
  8. addToSet与each插入多条值
  9. npm ERR! Could not install from “Files\nodejs\node_cache\_npx\10184“ as it does not contain a packag
  10. 交换机的基本工作原理与配置