计算机视觉 | 面试题:06、ReLU函数在0处不可导,为什么在深度学习网络中还这么常用?
问题
ReLU函数在0处不可导,为什么在深度学习网络中还这么常用?
问题背景
这是在阿里的机器学习岗一面的时候问的一个问题,最开始的问题是“为什么机器学习中解决回归问题的时候一般使用平方损失(即均方误差)?”。
当时我的回答是损失函数是是模型预测值与真实值之间的一种距离度量,我们可以计算出每个样本的预测值与真实值之间的距离,全部加起来就得到了所谓的损失函数。而距离的度量可以采用预测值与真实值之间差的绝对值,或者两者之差的平方,当然更高次的也行,只要你喜欢。正如问题所述,为什么我们一般使用的是两者之差的平方而不是两者只差的绝对值呢?其实这与模型的求解相关,举最简单的线性回归为例,如果采用的距离是两者之差的绝对值,那么求解的目标函数如下:
( ω ∗ , b ) = a r g
计算机视觉 | 面试题:06、ReLU函数在0处不可导,为什么在深度学习网络中还这么常用?相关推荐
- forward函数——浅学深度学习框架中的forward
1.什么是forward函数 (本应该出一篇贯穿神经网络的文章的,但是由于时间关系,就先浅浅记录一下,加深自己的理解吧吧). forward 函数是深度学习框架中常见的一个函数,用于定义神经网络的前向 ...
- 深度学习激活函数中的线性整流函数ReLU及其变种
线性整流函数ReLU 线性整流函数(Rectified Linear Unit, ReLU),又称修正线性单元, 是一种人工神经网络中常用的激活函数(activation functi ...
- 从0开始,基于Python探究深度学习神经网络
来源 | Data Science from Scratch, Second Edition 作者 | Joel Grus 全文共6778字,预计阅读时间50分钟. 深度学习 1. 张量 2. ...
- TensorFlow2.0实战: 入门到进阶深度学习
TensorFlow2.0 入门到进阶 课程以Tensorflow2.0框架为主体,以图像分类.房价预测.文本分类等项目为依托,讲解Tensorflow框架的使用方法,同时学习到相关的深度学习/机器学 ...
- 从0到1,Airbnb的深度学习实践经验总结
作者 | Haldar 译者 | 陆离 出品 | AI科技大本营(ID: rgznai100) 此前,AI科技大本营发布了关于希望通过介绍的研究成果为读者提供一些有用的帮助和指引. 模型中的生态系统 ...
- ubuntu16.04+七彩虹GTX1060的NVIDIA驱动+Cuda8.0+cudnn5.1+tensorflow+keras搭建深度学习环境【学习笔记】【原创】
平台信息: PC:ubuntu16.04.i5.七彩虹GTX1060显卡 作者:庄泽彬(欢迎转载,请注明作者) 说明:参考了网上的一堆的资料搭建了深度学习的开发环境,下班在宿舍折腾了好几个晚上才搞定, ...
- 深度学习论文导航 | 06 SSP-Net:深度卷积网络中的空间金字塔池用于视觉识别
前言:这是一篇比较老的文章了,是何恺明大神于2015年在IEEE上发表的,到目前为止被引用量已经达到2038.SPP-Net是一种可以不用考虑图像大小,输出固定长度的特征向量的网络结构,并且可以做到在 ...
- 深度学习网络各种激活函数 Sigmoid、Tanh、ReLU、Leaky_ReLU、SiLU、Mish
激活函数的目的就是为网络提供非线性化 梯度消失:梯度为0, 无法反向传播,导致参数得不到更新 梯度饱和:随着数据的变化,梯度没有明显变化 梯度爆炸:梯度越来越大,无法收敛 梯度消失问题: 1.反向传播 ...
- l2高斯分布_L1和L2正则的区别,如何选择L1和L2正则?L1在0处不可导,怎么处理...
首先毫无疑问的,他们都是可以防止过拟合,降低模型复杂度 L1是在loss function后面加上模型参数的1范数(也就是|xi|)L0范数的最小化问题在实际应用中是NP难问题,无法实际应用.L2是在 ...
最新文章
- 非线性求解器Casadi使用简介
- OpenCV-Python教程(6)(7)(8): Sobel算子 Laplacian算子 Canny边缘检测
- linux C语言 socket编程教程(附两个例子)(socket教程)
- android 流量统计不准确_汽车里程表上显示的百公里油耗准确吗?是不是真的是欢乐表...
- 8个神奇的网页动态流体布局及其做法揭秘
- ECC椭圆曲线加密算法原理 | 比特币加密算法
- android制作弹出框样式,Android Dialog 弹出框 自定义 样式
- web页面的回流,认识与避免
- 完成该操作所需的数据还不可使用_面试官:如何保障数据库和redis缓存的一致性...
- ibm x5服务器系统重装,IBM 3850 X5 Server安装Windows 2003步骤说明
- Q116:PBRT-V3场景描述文件.pbrt格式解析
- springboot大学生实习管理系统
- 详细介绍如何从零开始制作51单片机控制的智能小车(一)———让小车动起来
- python贴吧-python爬取贴吧帖子
- CentOS 7安装ELK(三):安装logstash
- java程序cpu占用率高,分析具体线程
- mysql 每5分钟统计_SQL按时间段统计(5分钟统计一次访问量为例,oracle统计)
- 打开Access时电脑出现蓝屏,错误编号0x00000116的问题解决
- 广州市车联网先导区LTE-V2X 车载直连通讯设备技术规范
- 矩阵连乘 动态规划_如何构建移动营销时代的“动态矩阵”?
热门文章
- 屏下指纹+水滴屏,不一样的OPPO K1体验
- Web漏洞扫描神器Nikto使用指南
- OpenGL学习五:矢量图形旋转
- 360技术嘉年华第九季—测试之美直播大会圆满结束啦!(直播回放及分享PPT都在这里啦)...
- 忍不住转一个:这是迄今为止对职业尊严最好的诠释!
- 添加视频的html语言,添加视频内容.html
- 数字内容营销不迷路,天猫内容力为你领航
- 显卡核心 短路 原因是什么?
- 【2020/12/4修订】【梳理】计算机组成与设计 第1章 计算机中的常见概念(docx)
- JDK和JRE下載大全