1、损失函数loss

用于定义网络输出结果与正确结果之间的误差的函数,常用损失函数为均方差(MSE)和交叉熵(Cross Entropy)。一般均方差用于回归问题,交叉熵用于分类问题。

2、梯度

梯度下降:让损失函数沿着负梯度方向更新神经网络参数,使得损失函数不断减小,达到优化网络模型的目的。梯度下降方法有全局梯度下降、随机梯度下降和小批量梯度下降,常用小批量梯度下降方法。

梯度消失:神经网络训练过程中,loss非常小,导致参数难以更新,即梯度消失问题。

梯度爆炸:神经网络训练过程中,参数更新不起作用,loss无法收敛,即梯度消失爆炸问题。

3、反向传播

误差是从输入层-隐藏层-输出层逐渐积累的,通过反向传播对每一层误差进行展开。使用链式法则逐层求导,求出目标函数对各神经元权值的偏导数,进行参数更新。

4、激活函数

激活函数将非线性特征引入可神经网络,让模型可以更好的拟合复杂的非线性问题。常见激活函数有sigmoid、tanh、relu、leakyrelu、softmax等。sigmoid出现较早,常用于二分类问题,但容易出现梯度消失问题;深度学习中常用relu作为激活函数,relu计算量小,同时可避免出现梯度消失问题;softmax函数可将任意实数向量映射到(0,1)之间,且总和为1,可用于表示每个类别的概率,因此常用于多分类问题输出层。

5、正则化

正则化用于在深度学习中为防止过拟合,减少泛化误差。常用的正则化方法包括:参数约束(限制模型学习能力,L1、L2范数)、数据增强(训练数据添加噪声等)、Dropout、早停法(earlystopping)等。

6、优化器

在模型训练过程中优化器用于加快算法收敛速度,避免局部极值,减少超参设置等。常见的优化器有动量优化器、Adam、Adagrid等,常用优化器Adam。

7、过拟合

模型在训练集上表现优异,但在测试集表现不理想。造成的原因可能有训练数据太少,噪声过多,模型参数过多、训练过度等。可以通过数据增强、限制训练次数(earlystopping)、降低参数(Dropout)等方法解决。

8、不同类型神经网络

卷积神经网络(CNN):包括卷积层、池化层、全连接层,主要用于视觉方向。卷积层用于特征提取,池化层进行重采样增加感受野,全连接层将卷积层和池化层提取的特征进行分类。卷积神经网络主要用于图像分类,目标检测、分割等场景。

循环神经网络(RNN):是一种通过隐藏层节点周期性连接,捕捉序列化数据中动态信息,对序列化数据进行分类的神经网络。RNN       可应用于视频、音频、文本分类等场景。

长短记忆网络(LSTM):解决RNN对长时间记忆信息衰减问题。

生成对抗网络(GAN):由生成器和判别器构成,通过对抗过程训练生成器和判别器,使得判别器最终无法区分真实样本和伪造样本。生成对抗网络可用于图像生成、语义分割、数据增强等场景。

深度学习常见概念解析相关推荐

  1. [深度学习] 深度学习常见概念

    深度学习框架 (from<深度学习入门之PyTorch>) TensorFlow TensorFlow由Google开源. TensorFlow是使用C++语言开发的开源数学计算软件,使用 ...

  2. 深度学习常见优化算法,图解AdaGrad、RMSProp,Adam

    1. AdaGrad AdaGrad算法是梯度下降法的改进算法,其优点是可以自适应学习率.该优化算法在较为平缓处学习速率大,有比较高的学习效率,在陡峭处学习率小,在一定程度上可以避免越过极小值点.在S ...

  3. 深度学习常见损失函数总结+Pytroch实现

    文章目录 一.引言 二.损失函数 1.均方差损失(Mean Squared Error Loss) 2.平均绝对误差损失(Mean Absolute Error Loss) 3.交叉熵(Cross E ...

  4. 基于keras的深度学习基本概念讲解

    基于keras的深度学习基本概念讲解 Tensorflow1.0正式发布,谷歌首届Tensorflow开发者大会在山景召开,深度学习迎来新的高潮和狂欢.随着深度学习框架的普及和推广,会有越来越多人加入 ...

  5. 深度学习经典网络解析图像分类篇(二):AlexNet

    深度学习经典网络解析图像分类篇(二):AlexNet 1.背景介绍 2.ImageNet 3.AlexNet 3.1AlexNet简介 3.2AlexNet网络架构 3.2.1第一层(CONV1) 3 ...

  6. 人工智能之深度学习常见应用方向你都了解吗?(文末包邮送书5本)

    文章目录 本文导读 1. 数字识别 2. 图像识别 3. 图像分类 4. 目标检测 5. 人脸识别 6. 文本分类 7. 聊天机器人 8. 书籍推荐(包邮送书5本) 本文导读 从零带你了解深度学习常见 ...

  7. QUANT[6] 量化交易常见概念解析

    QUANT[1]:从零开始量化交易 - プロノCodeSteel - CSDN博客 QUANT[2]:量化交易策略基本框架搭建 - プロノCodeSteel - CSDN博客 QUANT[3]:量化交 ...

  8. [深度学习主流框架解析一] Caffe

    [深度学习主流框架解析一] Caffe 1.模型文件协议解析 重点解析caffe.proto模型文件中的内容,整体的模型文件可见下图. 模型结构相关特性: 含有训练和测试推理的开关和相关的必要参数 不 ...

  9. 深度学习入门——深度学习基础概念思维导图

    深度学习基础概念的思维导图,思维导图又叫心智导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具.思维导图运用图文并重的技巧,把各级主题的关系用相互隶属与相关的层级图表 ...

最新文章

  1. PTA 基础编程题目集 7-6 混合类型数据格式化输入 C语言
  2. 【Android 应用开发】Canvas 绘制文字 ( 文字尺寸测量 | 基线绘制 )
  3. 使用应用程序(Java/Python)访问MaxCompute Lightning进行数据开发
  4. ACL 2019开源论文 | 基于图匹配神经网络的跨语言知识图对齐
  5. 人工机器:NDC-谷歌机器翻译破世界纪录,仅用Attention模型,无需CNN和RNN
  6. spring架构整理
  7. 均值滤波 中值滤波 高斯平滑滤波
  8. mysql 按月和年累加_广西柳州市市场监管局公布市2020年11月(第一批)电梯按需维保试点名单...
  9. maven 构建 springmvc + spring security 权限控制示例
  10. mfc编程淘汰了吗_四种基本的编程命名规范(匈牙利命名法、驼峰式命名法、帕斯卡命名法、下划线命名法)...
  11. excel oss 上传_java实现上传文件到oss(阿里云)功能示例
  12. matlab学习笔记(4)
  13. Docker 构建统一的前端开发环境
  14. 读书笔记-大教堂与集市
  15. 什么是UI?就业前景如何?
  16. 几种隐藏批处理运行窗口的方法
  17. 为什么要引入齐次坐标,齐次坐标的意义(二)
  18. 在Kali 2022.2上成功编译驱动TP-LINK TL-WN726免驱版无线USB网卡 8188GU
  19. 计算机WPS二级备考攻略来啦~
  20. Shiro 教程_1

热门文章

  1. 14.refresh操作
  2. 【解题报告】Leecode 438. 找到字符串中所有字母异位词——Leecode每日一题系列
  3. [leetcode]15.三数之和
  4. 操作系统的中断,陷阱,异常
  5. 操作篇 HYbrid的应用和学习
  6. Mybatis逆向生成报错:文档根元素 “project“ 必须匹配 DOCTYPE 根 “null“。
  7. Linux磁盘管理与文件系统(实验详解,一看就懂)
  8. 华 为 路 由 器 命 令 大 全
  9. python连接kafka-python连接kafka生产者,消费者脚本
  10. JSP中动态添加 “添加附件选择框”